수학·코딩 넘어 '실제 작업' 위한 에이전트 강화 학습법 공개 - ai타임스

대형언어모델(LLM)의 활용 범위가 단순 질의응답을 넘어 복잡한 상호작용형 에이전트로 확장되는 가운데, 이를 위한 새로운 강화 학습(RL) 프레임워크가 등장했다.

중국 과학기술대학교 연구진은 28일(현지시간) 수학·코딩처럼 정답이 명확한 문제를 넘어, 복잡한 에이전트형 작업을 수행하는 LLM을 효율적으로 학습하기 위한 RL 프레임워크 ‘에이전트-R1(Agent-R1)’을 온라인 아카이브에 공개했다.

연구진은 이번 연구에서 전통적인 RL의 기본 구조인 MDP(Markov Decision Process)를 LLM 에이전트의 특성에 맞게 재정의해, 변화하는 환경과 불완전한 정보 속에서 상호작용하는 실제 활용 시나리오를 더 정확히 반영하도록 설계했다고 전했다.

확장된 MDP는 LLM 에이전트의 특성을 반영하기 위해 여러 측면에서 기존 정의를 재구성한 것이 특징이다.

우선 상태(state)는 단순히 모델이 마지막에 생성한 토큰에 국한되지 않고, 지금까지의 모든 대화 이력과 환경으로부터 받은 피드백까지 폭넓게 포함한다. 행동(action) 역시 텍스트 생성 자체뿐 아니라 API 호출 등 외부 도구 사용을 유도하는 특정 텍스트 패턴까지 포괄하도록 확장됐다.

또 상태 전이(state transition)는 모델의 출력에 따라 기계적으로 결정되는 방식이 아니라, 환경이 어떻게 반응하는지에 따라 달라지는 비결정적(stochastic) 전이로 재정의됐다. 이는 실제 에이전트가 마주하는 예측 불가능한 상황을 현실적으로 반영한 설계다.

마지막으로 보상(reward) 체계에서는 최종 결과만으로 평가하는 단일 보상 방식에서 벗어나, 중간 단계별 성취를 세분화해 보상하는 ‘프로세스 보상’이 도입됐다. 이런 프로세스 보상은 RL이 오랫동안 안고 있던 ‘희소 보상 문제’를 해결하는 핵심 요소로, 복잡한 추론 과정에서도 에이전트가 각 단계를 올바른 방향으로 학습하도록 돕는 역할을 한다.

연구진은 “이런 확장은 실제 비즈니스 환경처럼 예측 불가능하고 동적인 상황에서 작동하는 고도화된 에이전트를 훈련하는 데 필수적”이라고 설명했다.

이를 바탕으로 연구진은 에이전트-R1이라는 새로운 RL 기반 LLM 에이전트 훈련 플랫폼을 개발했다.

기존 단일 턴 중심 RL과 달리, 에이전트-R1은 에이전트가 여러 차례 상호작용을 주고받는 다중 턴 환경을 염두에 둔 구조로 설계됐다. 이를 통해 다양한 외부 도구, 애플리케이션, 복잡한 환경과의 통합이 매끄럽게 이뤄진다는 설명이다.

가장 주목할 점은 에이전트가 응답을 생성하는 롤아웃(rollout) 단계에서 나타난다.

단일 턴 RL에서는 모델이 한번만 응답을 만들고, 그 결과에 따라 보상이 주어진다. 그러나 다중 턴 RL에서는 상황이 훨씬 복잡해지며, 에이전트가 환경과 여러 차례에 걸쳐 질문·도구 호출·피드백 수집·추론을 반복하는 다중 상호작용 과정이 진행된다.

이런 구조는 실제 에이전트가 수행하는 복잡한 문제 해결 과정과 더 가까우며, 에이전트-R1은 이 반복적이고 동적인 상호작용을 효율적으로 지원하도록 설계된 플랫폼이라는 점이 핵심이다.

에이전트-R1의 핵심 구조는 두가지 모듈로 구성된다.

도구(Tool) 모듈은 API 호출이나 데이터베이스 접근 등 특정 행동을 실제로 수행하는 역할을 하는 ‘도구 실행기’다.

환경(ToolEnv) 모듈은 도구가 반환한 결과를 해석하고, 해당 결과가 에이전트의 상태와 전체 작업 진행에 어떤 영향을 미치는지 판단하며 보상을 계산하는 ‘환경 관리자’ 역할을 한다. 즉, 도구 모듈이 “무슨 일이 일어났는지”를 보고하면, 환경 모듈이 “이 결과가 작업에 어떤 의미가 있는지”를 평가하는 방식으로 상호작용이 이뤄진다.

에이전트-R1은 ‘HotpotQA’ ‘2WikiMultihopQA’ 등 멀티홉 질문응답처럼 복잡한 정보 검색과 다단계 추론을 요구하는 벤치마크에서 테스트됐다.

연구진은 에이전트-R1로 훈련된 다양한 RL 알고리즘을 두가지 기준 모델과 비교했다. 첫번째는 단일 검색으로 LLM이 한 세트의 검색된 문서를 바탕으로 답변하는 '나이브(Naive) RAG’이고, 두번째는 특수한 RL 훈련 없이 모델의 기본 함수 호출 기능만 사용하는 '베이스 툴 콜(Base Tool Call)'이다.

실험 결과, 에이전트-R1로 훈련된 모든 RL 알고리즘이 두 기준 모델보다 현저히 높은 성능을 나타냈으며, 특히 딥시크-R1에서 사용된 GRPO 알고리즘이 가장 우수한 성능을 기록했다.

연구진은 "RL은 에이전트를 훈련하는 데 상당한 잠재력을 가진 핵심 기술로 여겨지지만, 강화 학습을 LLM 에이전트에 효과적으로 적용하는 것은 아직 초기 단계에 있으며 상당한 어려움에 직면해 있다"라며 "이번 논문은 LLM 에이전트 환경에 특별히 맞춤화된 강화 학습 접근법에 대한 심층적인 연구를 위한 것"이라고 전했다.

에이전트-R1의 코드는 깃허브에서 사용할 수 있다.

Agent-R1은 에이전트 역할을 하는 LLM을 제대로 훈련하기 위한 구조를 만든 느낌이네요. 단순 질문·답변이 아니라 실제처럼 여러 단계의 행동을 배우게 한다는 점이 흥미롭습니다. 앞으로 복잡한 에이전트 개발할 때 이런 프레임워크가 점점 더 중요해질 것 같아요.