앤트로픽, '클로드 오퍼스 4.6'의 에이전트 16개 c 컴파일러 개발 - ai타임스

ShinYoungJin · 2월 9, 2026, 7:00오후

앤트로픽이 오픈AI와 다중 에이전트 기반 AI 도구를 동시에 선보이며 경쟁을 벌이는 가운데, 과감한 실험 결과를 공개했다.

니콜라스 칼리니 앤트로픽 연구원은 5일(현지시간) 블로그를 통해 ‘클로드 오퍼스 4.6’ 16개 인스턴스를 최소한의 감독 아래 투입, C 컴파일러를 처음부터 개발했다고 밝혔다.

실험은 약 2주간 진행됐으며, 2000회에 가까운 ‘클로드 코드’ 세션과 2만달러(약 2800만원)의 API 비용이 투입됐다.

그 결과 AI 에이전트들은 러스트(Rust)로 작성된 약 10만줄 규모의 컴파일러를 완성했고, x86·ARM·RISC-V 아키텍처에서 리눅스 6.9 커널을 부팅 가능한 형태로 빌드하는 데 성공했다.

이번 실험에서는 클로드 오퍼스 4.6과 새로 추가된 ‘에이전트 팀(agent teams)’ 기능이 활용됐다. 여러 개의 클로드 AI(인스턴스)가 각각 독립된 도커(Docker) 환경에서 동시에 실행됐고, 같은 깃(Git) 저장소를 복사해 작업을 나눠 맡았다. 작업할 때는 락 파일로 충돌을 막고, 각자가 완성한 코드를 다시 하나로 병합하는 방식으로 협업했다.

특이한 점은 전체를 지휘하는 중앙 관리자 역할의 AI(인스턴스)가 없었다는 것이다. 대신 각 AI가 스스로 “지금 가장 중요한 문제는 무엇인지”를 판단해 움직였고, 작업 중 문제가 생기면 AI들끼리 직접 조율해 해결했다.

이렇게 만들어진 컴파일러는 깃허브에 공개됐으며, PostgreSQL, SQLite, Redis, FFmpeg, QEMU 등 주요 오픈소스 프로젝트를 컴파일할 수 있다.

이는 혹독한 테스트 세트로 알려진 ‘GCC 토처(torture) 테스트’에서 99%의 통과율을 기록했고, 개발자들 사이에서 상징적인 시험으로 여겨지는 게임 ‘둠(Doom)’ 실행에도 성공했다.

하지만, 칼리니 연구원은 이번 성과가 AI에 매우 유리한 조건에서 나온 결과라는 점을 분명히 했다. C 컴파일러는 수십 년간 정립된 명확한 명세가 있고, 방대한 테스트 세트와 신뢰할 수 있는 기준 구현(GCC, Clang)이 존재한다.

반면, 실제 소프트웨어 개발의 가장 큰 난제는 “코드를 작성하는 것”이 아니라 “무엇을 테스트해야 하는지 정의하는 것”이라는 점에서, 현실 세계의 프로젝트와는 거리가 있다는 지적이다.

기술적 한계도 적지 않다. 이 컴파일러는 리눅스를 실제 모드에서 부팅하는 데 필요한 16비트 x86 백엔드가 없어 해당 단계에서는 GCC를 호출한다. 자체 어셈블러와 링커는 여전히 불안정하고, 모든 최적화를 켜도 GCC에서 최적화를 모두 끈 경우보다 비효율적인 코드를 생성한다. 러스트 코드 품질도 숙련된 개발자 수준에는 미치지 못한다.

칼리니 연구원은 특히 코드 규모가 커질수록 문제가 심화됐다고 밝혔다. 약 10만줄을 넘어서자 버그 수정이나 기능 추가가 기존 기능을 깨뜨리는 일이 잦아졌고, 이는 코드베이스가 커지면서 누구도 전체를 완전히 이해하지 못하게 되는 인간 개발의 문제와 닮아 있다. 그는 이를 “현재 모델 기준으로 자율적 에이전트 코딩의 실질적 한계선”이라고 평했다.

앤트로픽은 인터넷 접근 없이 개발됐다는 점을 들어 이를 ‘클린룸 구현’이라고 설명했지만, 개발자 커뮤니티에서는 논쟁이 일었다. 모델 자체가 이미 GCC나 Clang을 포함한 방대한 공개 소스 코드로 학습됐을 가능성이 높기 때문이다.

전통적인 의미의 클린룸이 “원본 코드를 전혀 본 적 없는 구현”을 뜻한다는 점에서, 엄밀한 표현은 아니라는 지적이다.

2만달러라는 비용 역시 설명이 붙는다. 이는 API 토큰 비용만 포함한 수치로, 모델 학습에 투입된 막대한 비용, 칼리니가 환경을 설계하는 데 들인 노동, 그리고 수십년간 컴파일러 엔지니어들이 구축해 온 테스트 인프라는 포함되지 않았다.

실제로 그는 테스트 하네스, CI 파이프라인, 피드백 시스템을 설계하는 데 상당한 공을 들였다고 밝혔다. 예를 들어, 테스트 출력이 지나치게 길면 모델의 컨텍스트를 오염시킨다는 점을 발견해 요약 출력만 보여주는 테스트 러너를 만들었고, 시간 개념이 없는 모델 특성상 무의미한 테스트를 반복하지 않도록 일부만 샘플링하는 ‘패스트 모드’도 도입했다.

하지만, 이번 실험이 보여준 의미는 작지 않다는 평이다. 불과 1년 전만 해도 어떤 언어 모델도 이 정도 수준의 다중 아키텍처 컴파일러를 만들어내기는 어려웠다.

깃을 중심으로 여러 AI 에이전트가 병렬 협업을 수행하는 방식과, 이를 가능하게 한 다양한 엔지니어링 기법은 앞으로 에이전트 기반 소프트웨어 개발 도구에 중요한 시사점을 던진다.

칼리니 연구원는 “이 컴파일러를 만드는 과정은 최근 가장 즐거운 경험 중 하나였고, 2026년 초에 이런 일이 가능하리라고는 상상하지 못했다”라고 밝혔다.

동시에 그는 과거 침투 테스트 분야에서 일한 경험을 언급하며, “개발자가 직접 검증하지 않은 소프트웨어가 배포되는 상황은 심각한 우려를 낳는다”라고 경고했다.