AI가 참고 문헌 검색과 정리를 넘어, 학술 논문에 들어가는 이미지까지 처리하게 됐다. AI의 실수를 줄이고 미적인 기준을 동시에 충족하기 위해 모델을 선택하는 것이 핵심이다.
구글은 베이징대학교 연구진과 6일(현지시간) 출판 수준의 학술 도식과 그래프를 자동으로 만들어주는 다중 에이전트 AI 프레임워크 ‘페이퍼바나나(PaperBanana)’를 온라인 아카이브에 공개했다.
연구진에 따르면 논문용 일러스트레이션 제작은 정확성, 가독성, 미적 완성도를 동시에 요구해 자동화가 가장 어려운 영역 중 하나였다. 이전에 AI 생성 논문을 가려낼 때 가장 많이 지적됐던 것이 이미지였다. 그림이 어색하거나, 세부 내용이 잘못된 경우가 빈번해 연구 내용의 신뢰도를 크게 떨어뜨렸다.
페이퍼바나나는 구글의 ‘나노바나나 프로’ 등 최신 비전-언어 모델(VLM)과 이미지 생성 모델을 결합하고, 여러 전문 에이전트를 협업하는 방식으로 이 문제를 해결했다.
단일 프롬프트에 의존하지 않고, 기획부터 시각화, 자기 검증까지 전 과정을 단계적으로 수행하는 것이 특징이다.
페이퍼바나나의 작동은 크게 두단계로 나뉜다. 1단계인 ‘선형 계획’에서는 참조 자료를 찾고, 텍스트로 된 연구 방법을 시각적 구성으로 변환하며, 학회 스타일에 맞는 디자인을 설계한다.
이를 위해 검색 에이전트는 데이터베이스에서 가장 적합한 참고 샘플 10개를 추려내고, 기획 에이전트는 기술적 설명을 그림 설계 문서로 바꾼다. 이어 스타일리스트 에이전트가 색상 팔레트와 레이아웃을 조정해 ‘뉴립스(NeurIPS) 스타일’에 부합하도록 다듬는다.
2단계인 ‘반복 개선’에서는 시각화 에이전트와 비평 에이전트가 협력한다.
특히, 시각화 에이전트는 '이미지 생성’과 '코드 생성’을 선택적으로 사용한다. 이미지 생성 모델은 미적 표현에는 강점이 있지만, 수치 오류나 반복 요소 같은 환각 문제가 발생할 수 있다. 반면, 코드 기반 생성은 데이터를 직접 그리기 때문에 수치 정확도를 100% 보장할 수 있다.
따라서 다이어그램을 생성할 때는 나노바나나 프로를 활용한다. 그러나 통계 그래프처럼 숫자가 주를 이룰 때는 파이썬의 매트플롯립(Matplotlib) 코드를 직접 작성해 결과물을 만든다. 이를 통해 환각을 최소화하는 것이다.
비평 에이전트는 생성된 이미지가 원문과 어긋나는 부분이나 시각적 오류가 없는지 점검하며, 최대 세차례에 걸쳐 수정 피드백을 제공한다.
페이퍼바나나 벤치마크 결과. 바닐라(Vanilla)는 이미지 생성 모델에 직접 프롬프트를 입력해 다이어그램을 생성하는 방식이다. 퓨샷(Few-shot)은 10개의 예시를 프롬프트에 추가한 것이다. Paper2Any는 논문의 핵심 아이디어를 시각적으로 표현하는 다이어그램을 생성하는 에이전트 기반 프레임워크다. (사진=arXiv)
연구진은 성능 검증을 위해 실제 뉴립스 2025 논문에서 추출한 292개의 도식 예제로 구성된 ‘페이퍼바나나벤치(PaperBananaBench)’를 새롭게 구축했다.
VLM 기반 평가 방식을 통해 기존 방법들과 비교한 결과, 페이퍼바나나는 충실도(Faithfulness), 간결성(Conciseness), 가독성(Readability), 미적 완성도(Aesthetic) 전반에서 가장 높은 점수를 기록했다.
학술 분야별 미적 기준을 반영한 자동 ‘스타일 가이드’도 제공한다. 강한 원색보다 소프트한 파스텔 계열 색상을 선호하는 등 학계에 일반적인 패턴을 체계적으로 반영했다. 컴퓨터 비전은 RGB 코드를, 이론 분야는 미니멀한 회색조를 적용하는 등 전공별 맞춤형 시각 언어를 지원한다.
연구진은 "학술 삽화는 단순한 그림이 아니라 연구의 논리를 시각화하는 언어"라고 밝혔다. 또 "일반적인 이미지 생성 AI는 숫자를 환각으로 그려내곤 하지만, 우리는 정확한 데이터를 바탕으로 코드를 작성하게 함으로써 학술적 엄밀성을 확보했다"라고 강조했다.
하지만, AI가 생성한 도표에 대한 연구자의 최종 검수 의무와 저작권 표기 등 학술 윤리적 가이드라인에 대한 논의는 여전한 과제다.
연구진은 페이퍼바나나 코드를 깃허브에 곧 공개할 예정이다.