엔비디아가 ‘피지컬 AI(Physical AI)’ 기술을 강화한 새로운 오픈 소스 AI 모델과 개발 도구를 공개했다. 특히 추론 기능을 통해 자율주행차가 인간처럼 운전할 수 있는 상식을 갖추게 됐다고 강조했다.
엔비디아는 1일(현지시간) 열린 뉴립스(NeurIPS) 컨퍼런스를 통해 복잡한 환경에서 안정적이고 논리적인 의사결정을 내릴 수 있도록 설계된 자율주행 연구용 오픈 소스 추론 비전-언어-행동(VLA) 모델 ‘알파마요-R1(Alpamayo-R1)’을 공개했다.
이 모델은 시나리오를 세분화하고 각 단계를 추론한다. 가능한 모든 경로를 고려한 뒤 상황 데이터를 활용해 최적의 경로를 선택하는 식이다.
텍스트와 이미지를 동시에 처리하는 구조로, 차량이 주변 환경을 인지하고 그에 따라 결정을 내리는 과정을 자연어로 기술하는 것이 특징이다.
예를 들어 차량이 자전거 도로를 인지하면, 이를 자연어로 서술하고 경로를 수정하는 이유까지 설명한다. 기존 자율주행 소프트웨어는 의사결정의 내부 과정을 충분히 설명하지 못해 문제 원인을 파악하기 어려웠지만, 알파마요-R1은 판단 과정을 투명하게 공개해 엔지니어가 안전성을 개선하기 용이하다.
알파마요-R1은 단순히 카메라 입력을 받아 차량의 움직임을 예측하는 기존 구조를 넘어, 추론–판단–제어 과정을 하나의 구조로 통합한 엔드투엔드 모델이다.
핵심은 기존 자율주행 시스템의 가장 큰 약점으로 지적돼온 추론 능력 부족 문제를 보완했다는 점이다. 연구진은 이를 위해 세가지 핵심 요소를 구조적으로 결합하는 방식을 택했다.
먼저 ‘원인 사슬(Chain of Causation)’ 데이터셋을 구축해 주행 과정에서 특정 행동이 선택된 이유를 설명하는 인과적 추론 과정을 데이터 형태로 담아냈다. 자동 라벨링과 인간 검수를 결합해 제작된 이 데이터셋은 기존 자율주행 훈련 데이터에서는 보기 어려운 ‘결정의 이유’를 구조화한 것이 특징이다.
두번째로, 코스모스-리즌(Cosmos-Reason) 기반 VLA 아키텍처를 도입했다. 물리 세계 이해에 최적화된 비전-언어 모델 ‘코스모스-리즌’과 확산 모델 방식의 궤적 생성기를 하나의 프레임워크로 통합해, 모델이 상황을 해석하고 그 해석에 맞는 물리적으로 타당한 움직임을 동시에 계획할 수 있도록 설계했다.
마지막으로, 다단계 학습 전략을 적용했다. 지도학습(SFT)을 통해 모델이 추론을 표현하도록 유도한 뒤, 강화 학습(RL)으로 추론의 품질을 한 단계 더 끌어올리는 방식이다. 이 과정에서 대규모 추론 모델이 평가자 역할을 수행해, 모델의 사고 과정과 실제 행동이 얼마나 일치하는지를 점검하며 추론–행동 간 일관성을 강화하도록 설계했다.
실험 결과, 알파마요-R1은 기존의 궤적 중심 자율주행 모델 대비 성능 면에서 뚜렷한 우위를 보였다.
계획 정확도는 최대 12% 향상됐으며, 폐쇄형 시뮬레이션 환경 평가에서는 오프로드(도로 이탈) 비율이 35% 줄고, 차량이나 장애물과의 근접 충돌 위험도 25% 감소한 것으로 나타났다.
RL 단계를 거친 후에는 모델의 추론 품질이 45% 높아지고, 모델이 판단한 내용과 실제 주행 행동이 일치하는 정도도 37% 증가하는 등 추론 기반 의사결정 능력의 개선이 확인됐다.
또 모델 규모를 5억 매개변수에서 70억 매개변수로 확장하면 성능이 꾸준히 향상, 알파마요-R1의 구조가 스케일링에 적합하다는 점도 실험을 통해 입증됐다.
실제 차량에 탑재한 도로 테스트에서도 안정적인 성능을 보였으며, 지연 시간 99밀리초(ms)로 실시간 주행에 필요한 기준을 충족했다. 연구진은 도심 환경에서도 성공적으로 주행을 마쳤다고 밝혔다.
연구진은 알파마요-R1가 '세계 최초의 개방형 추론 VLA 모델"이라며 "레벨 4 자율 주행을 달성하고자 하는 기업에 매우 중요하다"라고 강조했다.
이 모델은 깃허브와 허깅페이스에서 오픈 소스로 제공될 예정이다.