Ms, 14b ‘파이-4’ 학습법 공개..."데이터 전략으로 고성능 달성" - ai타임스

마이크로소프트(MS)가 매개변수 규모에 의존하지 않고도, 정밀한 데이터 전략과 훈련 설계만으로 대형 모델 수준의 추론 능력을 확보할 수 있다는 연구 결과를 발표했다. 이를 간판 소형 모델인 '파이-4(Pi-4)'에 적용했다는 설명이다.

MS는 17일(현지시간) 기존처럼 데이터와 매개변수를 무한 확장하는 방식이 아니라 정교한 데이터 선별과 커리큘럼 설계만으로 140억 매개변수의 소형 모델을 대형 모델 수준까지 끌어올린 연구 결과 ‘파이-4 기술 보고서(Technical Report)’를 공개했다.

파이-4의 핵심은 “학습 데이터의 규모보다 품질”이다. 가장 큰 특징은 140만개의 선별된 고품질 프롬프트-응답(prompt-response) 데이터만으로 훈련됐다는 점이다. 이는 대형 AI 기업들이 일반적으로 사용하는 데이터에 비해 훨씬 작은 수준이다.

MS는 모델이 이미 풀 수 있는 쉬운 문제와 지나치게 어려워 학습 신호가 없는 문제를 과감히 제거하고, 모델이 자주 틀리는 ‘능력 경계(edge)’에 위치한 문제만 선별했다. 이 과정은 ‘GPT-4’ 등 강한 평가 모델을 기준으로 취약점이 드러난 질문만 걸러내는 방식으로 이뤄졌다.

또 정답 검증이 어려운 추론·코딩 문제를 자동 검증이 가능한 형태로 바꾸는 합성 데이터 기법도 적극 활용됐다. 예를 들어, “삼각형 ABC에서 각 변의 길이 조건을 이용해 각도 X를 구하라”와 같은 문제는 “AB=13, BC=10일 때 AC는 얼마인가”처럼 정답이 숫자로 명확히 떨어지는 형태로 재구성된다.

이렇게 문제를 변환하면 강화 학습(RL) 과정에서 정확한 보상 신호를 줄 수 있어 학습 효율이 크게 높아진다는 설명이다.

파이-4의 훈련 전략은 도메인별로 독립적으로 최적화한 뒤 이를 단계적으로 결합하는 ‘모듈형 학습’ 방식을 적용한 것이 특징이다.

먼저 수학 데이터만을 활용해 지도 미세조정(SFT) 성능을 극대화한 뒤, 여기에 별도로 구성한 코드 데이터셋을 추가했다. 이후 두 도메인을 병합했지만, 어느 한쪽의 성능이 저하되지 않고 모두 개선되는 결과가 나타났다.

이 방식은 기업들이 법률, 회계, 금융 등 특정 분야부터 집중적으로 성능을 끌어올린 뒤, 다른 영역으로 자연스럽게 확장할 수 있는 실용적 접근법을 제시한다는 점에서 의미가 크다.

다만, MS는 이런 모듈형 전략이 수십개 이상의 도메인으로 확대될 때도 같은 효과를 낼 수 있을지는 아직 확인되지 않은 과제라고 한계를 인정했다.

MS는 파이-4의 성능을 정교한 벤치마크로 검증했다.

동급인 '큐원-2.5-14B-인스트럭트’를 12개 중 9개 항목에서 앞섰다.

또 STEM(과학·기술·공학·수학) 분야 질의응답 작업에서 특히 뛰어났다. 'GPQA(대학원 수준 STEM 질문)'와 'MATH(수학 경시대회)'에서 파이-4는 교사 모델인 'GPT-4o’보다 높은 성능을 보였다.

휴먼이밸(HumanEval) 코딩 능력에서도 ‘라마’ 시리즈 등 더 큰 모델을 넘어서는 성능을 기록했다.

‘파이-4 추론(reasoning)’ 모델은 대부분 과제에서 오픈AI의 'o1-미니’와 딥시크의 70B 증류 모델을 능가했으며, 어려운 수학 문제(AIME)에서는 ‘딥시크-R1(671B)’ 수준에 근접했다.

이처럼 모델 크기 경쟁이 중심이던 LLM 시장에서, 데이터와 학습 커리큘럼 설계가 모델 성능만큼 중요하다는 점을 입증했다는 평이다.

이 접근법은 최근 주목받고 있는 오픈AI의 ‘o1-미니’, 구글의 ‘젬마’, 알리바바의 ‘큐원 3(8B/14B)’ 등 중형 추론 모델 추세와도 연결된다. 이에 따라 앞으로 AI의 경쟁 구도는 모델 규모를 키우는 것을 넘어, 얼마나 뛰어난 데이터와 학습 전략을 보유하고 있는지가 핵심이라는 전망이 나오고 있다.

한편, MS는 이날 파이-4의 기술 보고서만 공개했으며, 모델은 아직 내놓지 않았다. 18~21일 미국 샌프란시스코에서 열리는 연례행사 'MS 이그나이트(Ignite)'에서 출시할지 주목된다.