AI가 정보를 검색하고 분석해 전문가 수준의 보고서를 작성하는 ‘딥 리서치 에이전트’ 경쟁이 치열해지는 가운데, 이런 에이전트들의 멀티모달 능력을 종합적으로 평가할 수 있는 새로운 벤치마크가 공개됐다. 여기에서는 ‘제미나이 3’ 모델군이 상위권을 휩쓸었다.
오하이오주립대학교와 아마존 연구진은 22일(현지시간) AI가 텍스트뿐만 아니라 이미지, 도표, 수식 등 다양한 시각적 정보를 얼마나 정확하게 이해하고 이를 보고서에 인용하여 근거로 활용하는지를 측정하는 'MMDR-벤치(MMDeepResearch-Bench)'를 온라인 아카이브를 통해 공개했다.
최근 오픈AI나 구글 등 주요 AI 기업들이 장시간 추론을 통해 심층적인 보고서를 작성하는 기능을 선보이고 있지만, 기존의 벤치마크들은 대부분 텍스트 위주이거나 짧은 질의응답(QA) 형식에 그쳐 실제 업무 환경에서의 활용도를 평가하기에는 한계가 있다는 지적이다.
MMDR-벤치는 총 21개 도메인에 걸쳐 전문가들이 직접 제작한 140개의 고난도 과제로 구성됐다. 각 과제는 이미지와 텍스트가 결합된 형태의 데이터를 제공하며, AI는 이를 바탕으로 ▲멀티모달 정보 이해 ▲단계별 검색 및 합성 ▲정확한 인용 기반의 보고서 작성 능력을 증명해야 한다.
연구진은 하나의 종합 점수만 제공하는 대신, 연구 수행 능력을 정밀하게 분석하기 위해 세가지 평가지표를 제시했다.
먼저 'FLAE(Formula-LLM Adaptive Evaluation)'는 생성된 보고서의 문장 구성과 통찰력, 전체적인 구조적 완성도를 종합적으로 평가하는 지표로, 결과물의 서술 품질과 논리성을 살핀다. 'TRACE(Trustworthy Retrieval-Aligned Citation Evaluation)'는 보고서에 포함된 인용이 실제 근거와 얼마나 정확하게 연결돼 있는지를 검증해, 정보 검색과 인용 과정의 신뢰성을 측정한다.
'MOSAIC(Multimodal Support-Aligned Integrity Check)'은 텍스트로 제시된 주장과 함께 활용된 시각 자료가 서로 일관성을 유지하는지를 점검함으로써, 멀티모달 정보 활용의 정합성을 평가한다.
이런 다층적 평가 체계는 단순히 문장을 잘 생성하는지를 넘어, 증거에 기반한 추론 능력과 시각·텍스트 간 일관성을 동시에 확보하는지에 초점을 맞추고 있다.
또 전체 점수를 산출할 때 보고서 품질(FLAE)에 20%, 인용 정확도(TRACE)에 50%, 멀티모달 일관성(MOSAIC)에 30%의 가중치를 두는 등 '근거의 신뢰성’을 가장 높게 평가했다.
연구진이 25개 최신 AI 모델을 대상으로 종합 평가한 결과, '제미나이 딥 리서치’가 49.41점으로 1위를 차지했다. 이어 '제미나이 3 프로’가 44.68점으로 2위, '제미나이 3 플래시’가 44.43점으로 3위에 오르며 상위권을 형성했다.
'딥시크-V3.2’가 43.71점으로 4위, 'GPT-5 미니’가 38.49점으로 5위를 차지했다.
연구진은 시각적 인식 기능(Vision)을 활성화하면 모델의 전반적인 맥락 이해와 해석 능력은 향상되지만, 동시에 부작용도 나타났다고 지적했다. 특히 작은 숫자나 표 안의 세부 수치를 정확히 판독하지 못하는 ‘세부 기록 오류(DTE)’가 오히려 늘어나는 경향이 드러났다.
연구 과정이 장기화수록, 초반에 올바르게 인식했던 정보가 보고서 작성의 마지막 단계에서 잘못된 출처와 결합는 ‘증거-개체 연결 오류(EMI)’가 빈번하게 발생하는 문제도 드러났다.
연구진은 "우리의 목표는 AI가 단순한 질의응답 수준에서 벗어나, 복잡하고 멀티모달적인 과학적 발견의 신뢰할 수 있는 파트너로 확장하는 것"이라며, 딥 리서치 에이전트가 실제 전문가들이 활용할 수 있는 수준의 신뢰성을 갖췄는지를 검증하는 것이 의도라고 밝혔다.
MMDR-벤치의 소스 코드와 데이터셋은 깃허브와 허깅페이스에 공개되어 관련 연구자들이 자유롭게 활용할 수 있다.