문샷과 알리바바가 27일 나란히 첨단 모델을 선보였습니다. ‘키미 K2.5(Kimi K2.5)’와 '큐원3-맥스 싱킹(Qwen3-Max-Thinking)'이 주인공입니다.
공개된 벤치마크 결과는 이미 글로벌 톱티어 수준입니다. 오픈AI의 'GPT-5.2 하이’와 구글의 ‘제미나이 3 프로’, 앤트로픽의 ‘클로드 오퍼스 4.5’ 등 현재 세계 최고급의 모델과 견주어도 떨어지지 않는 성능입니다.
이어 업계의 이목이 쏠린 가운데, 국내에서도 자주 인용하는 글로벌 AI 벤치마크 단체 아티피셜 인텔리전스(AA)가 29일 종합 분석 성적을 공개했습니다.
키미 K2.5는 글로벌 5위, 큐원3-맥스 싱킹은 12위를 차지했습니다. 이들이 거둔 역대 최고 성적입니다.
특히 키미 K2.5는 이전 버전인 키미 K2 싱킹의 11위에서 6계단이 올랐습니다. 지난 11월에도 5위를 기록한 적은 있지만, 당시에는 추론과 에이전트 성능을 따로 측정한 결과였습니다. 이후 순위 산정 방식이 바뀌고, 이제는 명실상부하게 오픈AI와 구글, 앤트로픽에 이어 ‘글로벌 톱 4’ 수준의 기술력을 입증한 것입니다.
점수 차를 좁혔다는 것도 중요합니다. 이전에는 1위와 10점 차였지만, 이제는 1위인 GPT-5.2 하이와 4점 차로 따라붙었습니다. 오픈소스 모델로는 딥시크 V3.2(9위)를 누르고 세계 정상을 차지했습니다.
알리바바는 지난해 11월 공개한 미리보기 버전으로 18위를 차지한 데 이어, 정식 버전으로 12위까지 올랐습니다. 중요한 것은 처음으로 40점대에 진입했다는 것입니다. 여기부터는 프론티어급으로 구분됩니다. 즉, 이전에 '쓸만한 모델’로 평가받았다면, 이제부터는 '첨단 모델’로 통하게 된 것입니다.
이는 최근 중국에서 미국 모델을 거의 다 따라잡았다는 말이 나오는 이유를 말해 줍니다. 미국의 전문가들은 그동안 중국 모델이 몇개월 차로 간격을 좁혔다고 평가했습니다. 그러나 이 정도면 차이가 거의 없다고 볼 수 있습니다. 몇개월 뒤 중국 모델이 1위를 차지해도 이변으로 볼 수만은 없을 정도입니다.
그리고 28일(현지시간) 네이처에 발표된 ‘인류의 마지막 시험(HLE)’ 논문에는 문샷의 모델이 "또 다른 딥시크 모멘트"로 꼽힐 만하다는 평이 실렸습니다.
지난해 1월 이후 중국에서는 경쟁적으로 '제2의 딥시크’라는 말을 가져다 붙였습니다. 그러나 대부분의 애국용 마케팅 슬로건에 불과했고, 진정한 글로벌 경쟁력을 갖춘 경우에 많지 않았습니다.
그러나 이번은 좀 다릅니다.
우선 키미 K2.5는 저비용 고효율이라는 점이 핵심입니다. 성능은 미국 모델과 거의 비슷하며, API 비용은 파격적으로 저렴합니다. 입력 토큰 100만개당 0.60달러, 캐시 입력은 0.10달러, 출력은 3달러로, 이전 모델 대비 대폭 인하됐습니다.
이는 ▲GPT-5.2의 1.75달러/0.175달러/14달러 ▲클로드 오퍼스 4.5의 5달러/0.5달러/25달러 ▲제미나이 3 프로의 2~4달러/0.2~0.4달러/12~18달러 등의 3분의 1 수준입니다. 또 오픈소스로 누구나 다운받아 수정할 수 있다는 점이 차별점입니다.
일부에서는 중국이 미국 모델을 베끼는 수준에 불과하며 진정한 혁신을 이루지 못했다고 지적하지만, 이런 양상도 서서히 변하고 있습니다.
'딥시크-R1’의 핵심인 전문가 혼합(MoE) 구조는 오픈AI나 구글 등의 미국 기업이 먼저 도입했으며, 이후 미스트랄 AI가 이를 적용한 모델을 오픈소스로 공개하며 보편화됐습니다.
그러나, 지난해부터 거의 모든 중국 AI 기업이 이를 채택하며, 이제는 효율성에서 서구 기업을 앞서는 수준입니다. 키미 K2.5는 매개변수가 1조개에 달하지만, 추론 시에는 320억개(32B)만 활성화합니다. 이를 통해 연산 자원을 크게 아끼면서도 지능은 극대화했습니다.
여기에 키미 K2.5는 ‘에이전트 스웜(agent swarm) 오케스트레이션’ 방식으로 주목받았습니다. 이는 모델이 최대 100개의 전문화된 하위 에이전트를 스스로 생성·조율하고, 최대 1500회의 병렬 도구 호출을 실행할 수 있는 방식입니다. 또 인간의 개입 없는 300단계 이상의 연속 작업이 가능하다고 합니다. 이처럼 다수의 에이전트를 동시에 구동하기 때문에 광범위한 검색 작업에서 단일 에이전트에 비해 4.5배 빠르게 작업을 종료할 수 있습니다.
에이전트 스웜은 지난 몇달간 실리콘 밸리에서도 주목받는 기술이었습니다. 그리고 문샷이 이를 제대로 선보인 것입니다.
벤치마크에서도 고만고만한 지식 테스트에서 뛰어난 성적을 거둔 데 그친 것이 아닙니다. 키미 K2.5는 현존하는 가장 고난도 벤치마크인 HLE에서 처음으로 미국 모델을 모두 앞섰습니다. 50점대를 최초로 돌파, 미국 모델들을 5점 정도 앞섰습니다.
여기에 '브라우즈캠프’나 ‘딥리서치QA’ 등 에이전트 능력 테스트에서 모두 1위를 차지했다는 것이 중요합니다. 즉, 이전처럼 정답을 미리 학습해 점수를 올린 것이 아니라, 진짜 모델의 능력이 좋아졌다는 것을 의미합니다. 물론, 코딩이나 멀티모달 능력 등 미국 모델에 못 미치는 부분도 있습니다.
어쨌거나 AA는 키미 K2.5의 등장을 미국과 중국의 대결 구도를 넘는 중요한 전환점으로 평가했습니다. "폐쇄형 독점 모델의 시대를 지나 강력한 오픈소스 모델이 주도하는 새로운 국면으로의 전환을 의미한다"라고 밝혔습니다.
중국 매체인 사우스모닝차이나포스트(SCMP)는 29일 "미·중 AI 모델 개발 격차가 사실상 좁혀졌다. 문샷의 최신 발표는 중국 AI 스타트업이 더 이상 미국을 추격하는 것이 아니라, 오픈AI나 구글의 플래그십 모델과 직접 경쟁할 수 있는 단계에 도달했음을 보여준다"라고 평했습니다.
또 "키미 K2.5는 텍스트, 이미지, 비디오를 동시에 처리하는 멀티모달 능력을 갖췄으며, 운영 비용 면에서도 오픈AI의 주요 모델보다 4배 이상 저렴해 서구 기술 기업들조차 중국 모델로 전환하게 만드는 강력한 가격 경쟁력을 보유하고 있다"라고 강조했습니다.
HLE 논문에도 문샷의 성취를 "중국 AI의 혁신이 일회성이 아닌 지속 가능한 추세임을 보여주는 이정표"라고 요약했습니다.
이처럼 글로벌 AI 무대는 이제 미국과 중국의 2파전 양상으로 접어들었으며, 순위가 뒤바뀌어도 이상하지 않을 분위기가 됐습니다.
이는 현재 독자 AI 파운데이션 모델 프로젝트를 진행 중인 국내에도 시사하는 바가 큽니다. 미국 및 중국과의 격차가 크게 벌어진다면 'AI 3강’이라는 말 자체가 별 의미가 없어질 수 있습니다. '2부리그’에 그치지 않기를 기대해 봅니다.