대형언어모델(LLM) 기반 에이전트는 새로운 라이브러리를 추가하거나 작업 방식을 조금만 바꿔도 쉽게 오류를 일으키는 문제가 있기 때문에 문제가 생길 때마다 사람이 직접 고쳐야 했다. 하지만 에이전트가 스스로 구조를 바꾸고 기능을 확장해, 미리 정해진 틀을 넘어 발전할 수 있는 ‘자기진화(Self-evolving) 에이전트’가 등장했다.
UC 산타바바라 연구진은 18일(현지시간) 하나의 에이전트가 아니라 ‘에이전트 집단’을 진화의 기본 단위로 삼는 새로운 접근법을 공개했다.
연구진은 구성원들이 서로의 경험을 공유하고 새롭게 만들어낸 전략을 다시 활용해 성능을 계속 높이는 프레임워크 ‘그룹 진화 에이전트(GEA, Group-Evolving Agents)’를 온라인 아카이브에 발표했다.
기존의 자기진화 에이전트는 생물학적 진화 개념을 본떠, 하나의 부모 에이전트가 자식 에이전트를 만들어내는 ‘트리 구조’ 방식으로 발전해 왔다. 그러나 이 구조에서는 서로 다른 진화 가지(branch)가 완전히 분리돼 있어, 한쪽에서 개발된 유용한 도구나 효율적인 워크플로가 다른 가지로 공유되지 못하는 한계가 있었다.
예를 들어 어떤 에이전트가 매우 효과적인 디버깅 도구를 찾아냈더라도, 그 계통이 다음 세대로 이어지지 않으면 성과는 사라진다. 이에 대해 연구진은 “AI 에이전트는 생물학적 개체가 아니다. 왜 진화 방식이 생물학적 은유에 묶여 있어야 하는가”라고 지적했다.
GEA가 진화 특성을 선택하고 공유하는 방식. 부모 집단에서 축적된 진화 흔적을 모든 에이전트가 공유하고, 이를 토대로 진화 지침과 프레임워크 수준의 패치를 생성한다. (사진=arXiv)
GEA는 이러한 한계를 극복하기 위해 ‘집단’을 진화의 기본 단위로 삼는다. 부모 집단은 과제 해결 능력 같은 성능 지표와 다른 에이전트와 얼마나 차별화되는지를 보여주는 참신성을 기준으로 선별된다. 이후 해당 집단에 속한 모든 구성원은 코드 수정 내역, 성공 사례, 도구 활용 기록 등 이른바 ‘진화의 흔적’을 공동 저장소에 축적해 공유한다.
GEA의 핵심은 집단의 경험을 종합·분석하는 ‘리플렉션(reflection) 모듈’이다. 이 모듈은 강력한 LLM을 기반으로 작동하며, 집단 내부에서 축적된 다양한 시도와 결과를 분석해 상위 개념의 ‘진화 지침’을 도출한다.
예를 들어 한 에이전트가 뛰어난 디버깅 전략을 만들어내고, 다른 에이전트가 효율적인 테스트 워크플로를 완성했다면, 다음 세대는 이 두가지 강점을 반영한 구조로 설계된다. 특정 계통의 특성만 계승하는 기존 방식과 달리, GEA는 집단 전체에서 검증된 최적의 관행을 통합해 한층 진화한 ‘슈퍼 에이전트’를 만들어내는 것이 특징이다.
연구 결과에 따르면, 최상위 GEA 에이전트는 서로 다른 17개 조상으로부터 특성을 통합한 것으로 나타났다. 이는 전체 집단의 약 28%에 해당하는 규모다.
반면, 기존 트리 구조 방식에서 탄생한 최상위 에이전트는 9개 조상의 특성만을 계승하는 데 그쳤다.
GEA와 자기진화 베이스라인인 DGM의 성능 비교. 동일한 수의 진화 에이전트를 기준으로 할 때, GEA는 SWE-bench와 Polyglot 모두에서 DGM보다 훨씬 큰 성능 향상을 보였으며, 이를 통해 집단 수준 진화의 효율성이 입증됐다. (사진=arXiv)
연구진은 GEA의 성능을 검증하기 위해, 최신 자기진화 기반 모델인 'DGM(Darwin Godel Machine)'과 비교 평가를 진행했다.
깃허브 이슈를 AI가 얼마나 정확하게 해결하는지 검증하는 벤치마크인 'SWE-벤치 베리파이드’에서 GEA는 71.0%의 성공률을 기록해 DGM(56.7%)을 크게 앞섰다. 다양한 프로그래밍 언어 환경에서 코드 생성을 평가하는 '폴리글롯(Polyglot)'에서도 GEA는 88.3%를 기록해 DGM(68.3%)을 크게 상회했다.
주목할 부분은 인간이 설계한 최상위 프레임워크와 대등하거나 그 이상 성능을 냈다는 점이다. GEA는 SWE-벤치에서 71.8%를 기록한 '오픈핸즈(OpenHands)'와 유사한 수준에 도달했으며, 폴리글롯에서는 52.0%를 기록한 '에이더(Aider)'를 크게 앞섰다. 이는 AI가 인간 엔지니어의 개입 없이도 스스로 프레임워크를 설계·최적화할 수 있음을 보여준다.
연구진은 의도적으로 에이전트 코드에 치명적 버그를 주입하는 실험도 진행했다. 그 결과 GEA는 평균 1.4회 반복 만에 문제를 복구했지만, 기존 방식은 5회가 필요했다.
이는 정상적으로 작동하는 에이전트들이 오류를 일으킨 동료를 진단하고 보완하는, 집단 차원의 복원력 덕분이라는 설명이다. 연구진은 “실제 운영 환경에서도 각 에이전트가 먼저 독립적으로 수정에 나선 뒤, 리플렉션 에이전트가 이를 종합해 전면적인 업데이트로 이어지도록 하는 방식이 가능하다”라고 밝혔다.
GEA의 또 다른 장점은 높은 전이 가능성이다. 예를 들어 ‘클로드’ 기반으로 진화한 에이전트가 이후 'GPT-5.1’이나 ‘GPT-o3-미니’ 계열 모델로 엔진을 교체하더라도, 기존에 확보한 성능 향상이 그대로 유지되는 것으로 나타났다.
이는 기업이 특정 모델 공급사에 종속되지 않고, 비용이나 정책 변화에 따라 유연하게 전환할 수 있음을 뜻한다.
GEA는 ‘진화 단계’와 ‘배포 단계’를 구분하는 2단계 구조로 설계됐다. 집단 단위의 진화 과정이 완료된 뒤에는 최종적으로 선별된 단일 에이전트만 실제 서비스에 투입된다. 이 때문에 운영 과정에서 발생하는 추론(inference) 비용은 기존 단일 에이전트 시스템과 거의 차이가 없다.
다만 연구진은 창의적 생성처럼 정답이 분명하지 않은 분야에서는 집단 내 경험 공유가 오히려 불필요한 정보, 즉 노이즈를 늘릴 수 있다고 지적했다. 이런 경우에는 어떤 경험을 반영하고 어떤 요소를 걸러낼지 결정하는 정교한 필터링 메커니즘이 필요하다는 설명이다.
또 금융·의료처럼 규제가 엄격한 산업에서는 에이전트가 스스로 코드를 수정하는 구조가 위험 요인으로 인식될 수 있다. 이에 대해 연구진은 샌드박스 환경에서의 실행, 정책 기반 제약, 별도의 검증 레이어를 포함하는 등 ‘비진화적 가드레일’을 갖춘 기업용 배치를 전제로 설계했다고 밝혔다.