오픈AI가 AI 모델의 전문가 수준 과학 연구 능력을 평가하기 위한 새로운 벤치마크를 선보였다. 그리고 최신 모델로 이를 테스트한 결과, AI가 새로운 과학적 사실을 발견하기 위해서는 많은 개선이 필요한 것으로 나타났다.
오픈AI는 16일(현지시간) 홈페이지를 통해 AI의 과학적 추론 능력을 박사 수준에서 평가하기 위한 새로운 벤치마크 '프론티어사이언스(FrontierScience)'를 공개했다.
이는 모델의 단순한 지식 암기나 사실 회상을 넘어, 과학자들이 실제 연구에서 수행하는 전문가 수준의 추론 능력을 측정하는 것을 목표로 한다. 현재 여기에 해당하는 'GPQA 다이아몬드’는 2023년 11월 발표 당시 'GPT-4’의 39%가 최고였으나, 이제 'GPT-5.'2는 92%를 기록하며 변별력이 없어졌다는 것이다.
이번에 공개한 프론티어사이언스는 700개가 넘는 물리, 화학, 생물학 분야의 질문으로 구성됐으며, 난이도에 따라 크게 두 트랙으로 나뉜다.
먼저 ‘올림피아드(Olympiad)’ 트랙은 국제 올림피아드 수상자들이 설계한 100개의 문항으로, 제한된 시간 내에 단답형으로 과학적 추론 능력을 평가한다. 국제 올림피아드 대회에서 출제되는 문제들과 최소한 동등한 난이도의 이론 문제를 포함하고 있다.
또 ‘리서치(Research)’ 트랙은 실제 과학 연구에서 직면하는 다단계 하위 작업을 측정한다. 정답이 정해진 것이 아닌 개방형(Open-ended), 서술형 문제로 점수는 10점 만점의 루브릭으로 매겨진다.
이를 오픈AI와 타사의 첨단 모델에 풀도록 했다. 그 결과, GPT-5.2가 가장 높은 성적을 거뒀다.
우선, 올림피아드 트랙에서는 77%의 정확도를 기록했다. 즉, 구조화된 과학 문제 해결에서는 인간 전문가 수준에 근접한 성능을 보였다는 내용이다.
그러나, 리서치 트랙에서 GPT-5.2는 25%에 머물렀다. 개방형 연구 추론, 가설 생성, 판단 능력에서는 여전히 모델의 성능이 기대에 미치지 못한다는 것을 말해준다. 이는 실제 연구 현장에서 과학적 발전을 주도하기에는 아직 갈 길이 멀다는 것을 보여준다.
현재 첨단 모델은 복잡한 수학 증명이나 방대한 문헌 탐색 등에서는 기존에 몇주가 걸리던 작업을 몇시간 수준으로 단축하는 협력자 역할을 하고 있다. 그러나, 가설을 세우고 자체적인 판단을 하는 직업에서는 여전히 부족하다는 것이다.
이는 AI의 '정밀함’과 '창의성’의 간극을 보여주는 것이다. 이미 존재하는 지식을 활용한 구조적 문제 해결에는 뛰어나지만, 실제 연구에서 필수적인 새로운 가설을 설정하거나 실패를 반복하며 해답을 찾는 탐색적 추론 능력은 부족하다.
따라서, 리서치 부분에서도 100%에 가까운 점수를 받아야만 'AI 사이언티스트’라는 이름에 걸맞을 것이라는 분석이다.
오픈AI는 프론티어사이언스가 AI의 과학 능력을 평가하는 데 있어 중요한 진전이지만, 몇가지 한계가 있다는 것을 인정했다.
우선, 벤치마크는 텍스트 기반의 '정제되고 전문가가 작성한 문제’에 초점을 맞추고 있어, 실제 과학 연구의 중요한 부분인 새롭고 독창적인 가설 생성 능력, 멀티모달 데이터 분석 능력, 물리적인 실험 시스템과의 상호작용을 평가하지 못한다는 것이다.
따라서 앞으로 벤치마크 점수를 끌어올리는 것이 앞으로 모델 개발의 목표가 아니라, 실제로 새로운 발견을 가능하게 하는 것이 가장 중요한 벤치마크라고 강조했다.
샘 알트먼 오픈AI CEO와 야쿠브 파초키 수석 과학자는 지난 10월 자체 팟캐스트에 출연, 2026년 9월까지 인턴급 연구 보조원을, 2028년까지 완전 자동화된 ‘본격적인 AI 연구원’ 구축을 목표로 한다고 밝힌 바 있다.
또 인공일반지능(AGI)에 도달하는 방법의 하나로 새로운 과학적 발견을 하나로 꼽았다. 이처럼 인간을 넘는 AI 사이언티스트는 이제 새로운 오픈AI의 사명으로 꼽히고 있다.
이번 벤치마크 공개도 이에 도달하기 위한 것으로 볼 수 있다. 오픈AI는 "이 벤치마크는 모델 개선의 방향을 제시하는 길잡이 역할에 초점을 맞추고 있다"라고 강조했다.