구글이 코딩 능력이나 지시 수행 등 문제 해결 중심의 평가 대신, 인공지능(AI)이 얼마나 사실에 기반한 답변을 제공하는지를 측정하는 새로운 벤치마크를 선보였다.
구글은 11일(현지시간) AI의 사실성(factuality)을 측정하기 위한 첫 평가 도구 ‘팩츠 벤치마크 스위트(FACTS Benchmark Suite)’를 공개했다.
팩츠는 사실성을 맥락 사실성과 세계 지식 사실성, 두 범주로 나눠 평가한다. 맥락 사실성은 모델이 주어진 자료와 맥락에 충실하게 근거해 답변을 생성하는지를 의미하며, 세계 지식 사실성은 모델 내부의 일반 지식이나 웹 검색 결과를 활용해 정확한 정보를 제공할 수 있는지를 판단한다.
이를 바탕으로 팩츠는 AI가 현실 기반 정보를 얼마나 정확하게 이해하고, 필요한 내용을 찾아 해석하며, 이를 올바르게 인용하는지 등을 종합적으로 측정하는 평가 도구로 설계됐다.
실제 서비스 환경에서 자주 발생하는 오류 유형에 따라 ▲파라메트릭(Parametric) 시험 ▲서치(Search) 시험 ▲멀티모달(Multimodal) 시험 ▲그라운딩(Grounding) 시험 등으로 구성된다.
먼저 파라메트릭 시험은 모델이 자체적으로 보유한 ‘기억’만으로 얼마나 정확하게 답변할 수 있는지를 평가한다. 서치 시험은 웹 검색을 활용해 최신 정보를 찾아내고 이를 정확하게 결합해 답변하는 능력을 측정한다.
멀티모달 시험은 차트, 그래프, 이미지 등 다양한 시각 자료를 사실적으로 분석하고 이해하는지를 살핀다. 마지막으로 그라운딩 시험은 주어진 문서나 자료의 범위를 벗어나지 않고 충실하게 답변하는지를 평가한다.
팩츠는 총 3513개의 공개 데이터로 구성되며, 모델 학습 과정에서의 오염을 방지하기 위해 별도의 비공개 데이터셋을 유지한다.
팩츠 벤치마크 결과, '제미나이 3 프로’가 종합 68.8%로 1위를 차지했다. 그러나, 'GPT-5(61.8%)'와 ‘클로드 오퍼스 4.5’ 등을 포함해 어떤 모델도 70%를 넘지 못했다.
“AI는 똑똑해졌지만, 여전히 완벽하지 않다”라는 전문가들의 지적을 실증적으로 뒷받침한다는 평이다.
검색 증강 생성(RAG) 시스템을 구축하는 기업에 서치 시험 성능은 핵심 지표로 간주될 수 있다. 제미나이 3 프로는 서치 시험에서 83.8%, 내부 지식 기반인 파라메트릭 시험에서는 76.4%를 기록했다.
이 격차는 높은 정확도를 확보하기 위해서는 모델의 ‘기억’에만 의존하는 방식으로는 한계가 있으며, 검색 기능과 데이터베이스 연동이 필수적이라는 것을 의미한다.
가장 눈에 띄는 결과는 멀티모달 시험이었다. 이 분야의 최고 모델은 '제미나이 2.5 프로’로, 정확도는 46.9%에 불과했다.
차트 해석, 도표 읽기, 이미지 인식 등 시각 정보 처리 능력을 평가하는 이 시험에서 모든 모델이 50%를 넘지 못했다. 이는 기업들이 자동화된 데이터 추출·분석 시스템을 구축하더라도, 현 단계에서는 사람의 검증이 여전히 필수적이라는 것을 말해 준다.
전문가들은 팩츠 벤치마크가 앞으로 AI 도입의 ‘공식 성능 진단서’ 역할을 하게 될 것으로 전망했다.
예를 들어 고객 지원 챗봇은 주어진 문서를 벗어나지 않고 답변하는 능력을 측정하는 그라운딩 점수가 핵심 기준이 된다. 실제로 이 항목에서는 제미나이 2.5 프로가 제미나이 3 프로보다 더 높은 정확도를 기록했다.
또 리서치·조사 도구로 활용하려면 웹 검색을 통한 최신 정보 조합 능력을 보여주는 서치 점수, 이미지 분석 솔루션을 도입하려는 기업이라면 멀티모달 점수를 중점적으로 살펴봐야 한다.
구글은 "이번 연구를 통해 LLM의 사실성 검증에 대한 심층적인 연구가 촉진, 이를 활용하는 사람들에게 더욱 정확하고 나은 모델과 제품이 제공되기를 기대한다"라고 밝혔다.