‘바이브 코딩’ 용어 창시자인 안드레이 카르파시 오픈AI 공동 창립자가 2025년 AI의 특징을 정리했다. 이 가운데 대형언어모델(LLM)의 지능이 우리의 예상과는 달랐다는 점을 강조하며, 이를 '유령(Ghosts)'에 비유했다.
카르파시 유레캅 랩스 CEO는 20일(현지시간) X(트위터)를 통해 '2025년 LLM 연간 리뷰’라는 글을 게시했다.
그는 2025년을 LLM 분야에서 눈에 띄고 의미 있는 발전이 이루어진 한해라고 평했다. 이에 따라 개인적으로 주목할 만한 '패러다임 변화’를 정리했다고 전했다.
여기에는 ▲검증 가능한 보상을 활용한 강화 학습(RLVR) ▲들쭉날쭉한 지능(Jagged Intelligence) ▲커서-LLM 앱의 새 레이어 ▲클로드 코드-컴퓨터에 존재하는 AI ▲바이브 코딩 ▲나노 바나나-LLM GUI 등이 포함됐다.
이중 커서와 클로드 코드, 바이브 코딩 등은 AI 코딩 능력의 향상과 이를 활용한 새로운 LLM 앱의 가능성, 에이전트 능력의 향상 등을 다룬 내용이다. 그리고 나노 바나나는 단순한 이미지 생성 모델을 넘어, 텍스트와 이미지, 세계 지식 등이 모두 통합된 'LLM GUI(그래픽 사용자 인터페이스)'의 가능성을 보여주는 초기 단계로 높게 평가했다.
핵심은 RLVR과 들쭉날쭉한 지능에 대한 부분이다.
그는 LLM의 훈련이 기존의 '사전 학습→SFT(지도 미세조정)→RLHF(인간 피드백을 통한 강화 학습)'를 넘어, 올해에는 RLVR(Reinforcement Learning from Verifiable Rewards)이 추가됐다고 밝혔다.
2020년까지는 사전 학습이 주를 이뤘지만, 이후 2022년까지는 SFT에 집중했으며, 오픈AI의 ‘챗GPT’ 성공으로 RLHF가 지난해까지 가장 중요한 훈련법으로 자리 잡았다는 것이다. 그리고 올해에는 RLVR이 4번째 단계로 본격 부각된 것으로 봤다.
RLVR은 지난해 말 오픈AI가 ‘o1’ 모델을 개발하며 초점을 맞춘 것으로 알려진 강화 학습(RL)이 특정 도메인에 집중됐다는 것을 설명한 것이다. 실제로 오픈AI와 구글은 이를 통해 국제수학올림피아드(IMO)와 국제대학프로그래밍대회(ICPC)에서 금메달을 따내기도 했다.
RLHF가 주관적인 인간의 선호도에 의존했다면, RLVR은 '객관적인(조작 불가능한) 보상 함수’를 사용한다. 이는 LLM이 '무엇이 좋은 응답인지’를 인간 판단을 거치지 않고 환경 자체로부터 직접 학습할 수 있게 한다.
특히, 수학이나 코드와 같이 자동으로 정답을 검증할 수 있는 환경에서 유용하다. 이를 통해 LLM은 보상 최적화를 통해 최적의 방식을 스스로 찾아내고, 인간의 추론과 비슷한 능력을 자발적으로 개발한다.
또 이런 방식을 통해 LLM의 성능 향상은 기존의 모델 크기가 아닌, RL 실행 시간(테스트-타임 컴퓨팅)으로 확장됐다. 이는 컴퓨팅 자원이 사전 학습에서 고비용 추론으로 재분배됐다는 것을 시사한다
하지만, 카르파시 CEO는 이렇게 진화한 LLM의 지능을 유령에 비유했다. 이는 AI가 진화하고 성장하는 ‘동물(Animals)’, 즉 인간과 흡사할 것으로 예상했던 것과는 다르다는 말이다.
인간의 지능은 생존과 환경 적응, 경험을 통해 균형 있게 성장하는 유기체적 지능이지만, AI가 이와 흡사할 것이라고 생각했던 것은 오판이었다는 것이다.
LLM 지능은 특정 데이터와 알고리즘, RLVR 등을 반영한 결과로, 유령처럼 갑자기 불완전한 상태로 등장한 비유기체적 존재라는 것이다. 목적 함수를 과하게 최적화한 결과물일 뿐 범용적인 적응력을 갖춘 생명체가 아니며, 그 지능은 훈련 스택에 의해 협소하게 정의된다는 것이다.
그 결과 LLM은 "우스꽝스러울 정도로 들쭉날쭉한 성능 특성을 가졌다"라고 지적했다. RLVR의 결과로 수학이나 코딩 등 검증 가능한 도메인에서는 인간의 능력을 뛰어넘지만, 초등학생도 풀 수 있는 간단한 문제도 해결하지 못할 경우가 많다는 것이다.
카르파시가 지적한 '유령’과 ‘동물’ 지능의 차이
사실 LLM의 급속한 발전으로 인간과 같은 인공일반지능(AGI)에 이른 시일내 근접할 수 있을 것이라는 기대가 크다. 하지만, 최근에는 AGI에 도달하기 위해서는 LLM만으로는 부족하며, 세계 상식을 갖추기 위한 월드 모델이 중요성도 강조되고 있다.
카르파시 CEO는 LLM의 성능을 가늠하는 벤치마크에 대한 근본적인 문제도 지적했다. 현재 벤치마크는 단지 '검증 가능한 테스트 영역’을 다루는 것일 뿐, 여기에서 높은 점수를 얻었다고 인간 수준의 일반화와 유연성, 상식, 적응력을 갖췄다는 것이 아니라는 것이다. 또 RLVR을 통해 벤치마크에 최적화된 모델이 계속 등장한다고 지적했다.
그는 "2025년에도 벤치마크에 대해 전반적으로 관심이 없어졌고, 결과에 대해 신뢰하지도 않았다"라고 말했다.
이처럼 그는 강화 학습을 통한 LLM의 눈부신 발전에도 불구하고, 인간 지능의 모방이 아닌 협소한 목적 함수에 대한 극단적인 최적화의 결과물이라고 지적했다. 이에 따라 2025년의 가장 큰 개념적 변화는 '지능’이라고 부르는 것의 형태가 완전히 다를 수 있다는 인식이며, 이는 기존의 벤치마크 중심의 평가 방식을 무력화시켰다는 것이다.
들쭉날쭉한 지능이라는 앞서 순다르 피차이 구글 CEO도 지적했던 부분이다. 일리야 수츠케버 오픈AI 공동 창립자도 "LLM은 외계인(LLMs are aliens)"이라는 발언을 내놓은 바 있다.
이처럼 카르파시 CEO의 글은 LLM의 본질에 집중한 것으로 볼 수 있다. 이 글은 전문적인 내용임에도 불구, 250만건의 조회수와 1만4000건의 '좋아요’를 받았다.
이는 그의 글이 업계의 공감대를 형성했으며, 2026년에는 기존 LLM의 한계를 넘을 아이디어와 ‘유령’ 지능을 평가할 새로운 방법론이 필요하다는 의미로 해석할 수 있다.