구글, 연구 에이전트 ‘마스’ 공개..."스스로 ‘교훈’ 얻어 실험 전략 수정" - ai타임스

ShinYoungJin · 2월 8, 2026, 6:07오후

AI가 논문을 읽고 코드를 작성하는 수준을 넘어, 이제는 연구 설계와 실험 전략까지 스스로 판단하는 단계로 진입하고 있다.

구글과 스탠포드대학교 연구진은 4일(현지시간) AI 연구 전 과정을 자율적으로 수행하는 에이전트 ‘마스(MARS, Modular Agent with Reflective Search)’를 온라인 아카이브에 공개했다.

AI 연구를 자동화하는 일은 일반적인 소프트웨어 개발보다 훨씬 어려운 것으로 알려졌다. 모델 하나를 학습하는 데에만 몇시간, 길게는 며칠이 걸린다.

또 성능이 달라졌을 때 원인이 데이터 전처리 때문인지, 하이퍼파라미터 조정 때문인지를 정확히 가려내기도 쉽지 않기 때문이다.

기존의 대형언어모델(LLM)들은 이런 현실을 충분히 반영하지 못했다는 지적이다. 연구진은 특히 실행 비용은 고려하지 않은 채 지나치게 큰 스크립트를 만들어내거나 효과가 불분명한 실험을 반복하며 계산 자원을 낭비하는 경우가 많다는 한계를 보여왔다고 밝혔다.

마스는 이 문제를 해결하기 위해 연구 과정을 ‘최적의 소프트웨어 저장소를 찾는 탐색 문제’로 재정의한다. 핵심 아이디어는 간단하다.

첫째는 돈과 시간을 함께 따지는 '예산 인식 계획(Budget-Aware Planning)'이다.

마스는 '알파고’처럼 복잡한 의사결정 문제에서 최적의 선택을 하기 위해 사용되는 탐색 알고리즘인 '몬테카를로 트리 탐색(MCTS)'이라는 방법을 쓰면서, 정확도뿐 아니라 계산 비용도 계산한다. 따라서 아무리 성능이 좋아도 실행 시간이 너무 오래 걸리는 실험은 미리 걸러내고, 성능이 비슷하다면 더 빠르고 효율적인 방법을 선택한다.

이렇게 접근한 결과, 마스는 기존 방식보다 약 19.5% 더 높은 확률로 쓸 만한 해법을 찾아내는 데 성공했다. 같은 자원으로 더 많은 가능성을 시험하고 더 좋은 답에 도달할 수 있게 된 것이다.

둘째는 모듈식 구성(Modular Construction)이다. 마스는 연구 코드를 한 덩어리로 짜지 않고, ‘설계-분해-구현(Design-Decompose-Implement)’ 단계로 나눠 차근차근 만든다. 데이터 불러오기, 모델 정의, 학습 과정 같은 기능을 각각 독립된 블록으로 쪼개는 방식이다.

각 블록은 서로 다른 에이전트가 맡아 만들고, 간단한 테스트를 거친다. 나중에 문제가 생기거나 개선이 필요할 때도 전체 코드를 처음부터 다시 짤 필요 없이, 해당 부분만 골라서 고치면 된다. 겉보기에는 코드 파일과 구조가 더 많아졌지만, 대신 코드 재사용이 쉬워지고 관리와 수정도 훨씬 수월해졌다고 전했다.

셋째는 '비교 성찰적 메모리(Comparative Reflective Memory)'다. 마스는 매번 나온 결과를 그냥 넘기지 않고, 이번 결과와 이전에 가장 잘됐던 결과를 나란히 비교한다.

그리고 성능이 좋아지거나 나빠진 이유를 분석해, 그 핵심을 ‘교훈(Lesson)’ 형태로 저장한다. 예를 들어 “모델 구조를 이렇게 바꾸니 정확도가 올라갔다” 같은 원인을 정리해 두고, 다음 실험이나 전혀 다른 문제를 풀 때 다시 활용한다.

이렇게 쓰인 교훈의 63%는 서로 다른 시도에서 얻은 깨달음을 다른 경로에 적용한 경우였다. 즉, 마스는 한번의 경험을 다른 상황에 옮겨 쓰며 점점 더 똑똑해지고 있다는 설명이다.

성능도 인상적이다. 캐글 경진대회 문제로 구성된 ‘MLE-벤치’ 평가에서 마스는 오픈소스 AI 연구 에이전트 가운데 가장 좋은 성과를 냈다. 그동안 최고 수준(SOTA)으로 평가받던 'AIDE’나 'AIRA-dojo’보다 결과가 확실히 앞섰다.

특히 금메달 획득률이 31.1%에 달했으며, 성능을 확장한 '마스+'는 GPU 두개만 사용하고도 상위권 성적(메달 획득률 59.6%)을 기록했다. 또 코드 표절 검사에서도 공개된 노트북 코드와의 유사도가 대부분 60% 미만으로 나타나, 단순히 베끼는 것이 아니라 스스로 새로운 해법을 만들어내고 있음이 확인됐다.

연구진은 마스의 가장 큰 의의로 ‘재귀적 자기 개선(recursive self-improvement)’을 꼽는다. 에이전트가 자신의 실패 원인을 분석하고, 그 결과를 다음 시도에 반영하는 지속 학습 루프를 구현했다는 점에서다. 즉, 실험 전략을 스스로 수정했다는 것을 말한다.

이는 AI가 단순한 도구를 넘어, 경험을 축적하며 성장하는 ‘연구 주체’로 진화하고 있음을 시사한다.

연구진은 "마스는 인상적인 벤치마크 성적뿐만 아니라, 질적으로도 '아하 모멘트’를 제공한다"라며 "이는 활용된 모든 학습 내용의 63%가 분기 간 전이에서 비롯된 데 따른 것으로, 에이전트가 검색 경로 전반에 걸쳐 통찰력을 일반화한다는 것을 보여준다"라고 강조했다.

다만, 이번 결과는 정해진 벤치마크 환경 내에서의 성과다. 실제로 고도의 창의성이 필요한 새로운 이론 정립 단계까지는 추가 연구가 필요하다는 입장이다.