인공지능(AI) 에이전트가 장기간에 걸친 복잡한 작업에서도 지시 사항을 놓치지 않고 안정적으로 수행할 수 있는 새로운 방법이 개발됐다.
앤트로픽은 26일(현지시간) ‘클로드 에이전트(Claude Agent)’ SDK를 활용, AI 에이전트가 장기 실행될 때 일부 지시사항이나 대화를 잊어버리는 문제를 해결하기 위한 새로운 접근법을 공개했다.
우선 “장기 실행 에이전트의 핵심 문제는 개별 세션 단위로 동작하며, 새로운 세션이 시작될 때 이전 세션의 기억을 갖지 못한다는 점”이라고 설명했다. 대부분의 복잡한 프로젝트는 단일 컨텍스트 창에서 처리할 수 없기 때문에, 이전 세션의 기억을 잃는다. 따라서 세션 간 기억을 이어주는 방법이 필요하다는 것이다.
기존 클로드 에이전트 SDK에도 컨텍스트 관리 기능이 있었지만, 컨텍스트 창을 고갈시키지 않고 작업을 수행할 수 있도록 하는 압축과 관리 기능만으로는 한계가 있었다는 지적이다.
실패 사례는 두가지 패턴으로 나타났다. 하나는 에이전트가 한번에 너무 많은 작업을 수행하며 컨텍스트를 소진하는 경우, 다른 하나는 일부 기능만 완료된 상태에서 작업이 완료됐다고 잘못 판단하는 경우다.
따라서 이번 접근법은 두 단계 구조로 설계됐다. 먼저 ‘초기 설정(initializer) 에이전트’가 초기 환경을 설정하고, 에이전트가 수행한 작업과 추가된 파일을 기록한다.
이후 ‘코딩(coding) 에이전트’가 세션마다 목표를 향해 점진적으로 작업을 수행하며, 후속 에이전트를 위해 구조화된 업데이트를 남긴다.
이를 통해 장기 실행 에이전트가 컨텍스트 한계로 인해 지시 사항을 놓치거나 비정상적으로 동작하는 문제를 최소화할 수 있다.
앤트로픽은 “이 과정은 소프트웨어 엔지니어들이 일상적으로 수행하는 작업 방식에서 영감을 얻었다”라고 설명했다.
즉, 단순한 기억 기록을 넘어, '구조화된 JSON 파일(기능 목록 역할)'과 'Git 기반의 구조화된 커밋(버전별 작업 기록)'이라는 소프트웨어 엔지니어링 관행을 AI 에이전트의 작업 흐름에 적용했다는 것이다.
또, 연구진은 코딩 에이전트에 브라우저 자동화 도구(Puppeteer 등)를 활용한 E2E 테스트 도구를 적용해, 코드만으로는 쉽게 발견되지 않는 버그를 식별하고 수정하는 능력도 향상했다.
이런 구조화된 아티팩트를 통해 에이전트가 목표를 쪼개고(증분 진행), 상태를 명확히 기록하며(장기 기억), 작업 시작 시 환경이 깨지지 않았는지 확인(E2E 테스트)하게 만든 것이다.
이 접근법은 특히 "풀 스택 웹 애플리케이션 개발에 최적화된 결과물을 도출한다"라고 강조했다.
다만, 앤트로픽은 장기 기억 향상을 위해 단일 범용 코딩 에이전트가 최적의 구조인지, 다중 에이전트 구조가 더 적합한지는 아직 결론을 내리지 못했다.
또 앤트로픽은 "이 데모는 풀스택 웹앱 개발에 최적화됐다"라며 "앞으로는 이런 결과를 다른 분야에도 일반화, 과학 연구나 금융 모델링과 같이 장기적으로 수행되는 에이전트 작업에 적용하는 것이 목표"라고 밝혔다.
장기적으로 GPT를 쓸 때 중간에 지시했던 내용이나 대화를 까먹어서 다시 설명해야 하는 게 꽤 번거롭다고 느꼈는데, 이걸 소프트웨어 개발처럼 기록·버전 관리 방식으로 해결하려는 게 신기하네요.
실제로 적용되면 에이전트 작업 효율이 좋아질 것 같아요.