오픈ai, '세레브라스 칩 전용' 실시간 코딩 모델 'gpt-5.3-코덱스-스파크' 공개 - ai타임스

오픈AI가 초저지연 하드웨어 기반의 실시간 코딩 전용 모델을 선보이며 개발자 협업 방식의 변화를 예고했다. 특히 이 모델은 엔비디아의 GPU가 아닌, 세레브라스의 칩으로 훈련하고 최적화한 첫 사례다.

오픈AI는 12일(현지시간) 실시간 코딩에 특화된 신규 모델 ‘GPT-5.3-코덱스-스파크(GPT-5.3-Codex-Spark)’를 연구 프리뷰 형태로 공개했다.

이 모델은 기존 GPT-5.3-코덱스의 소형 버전이자, 오픈AI가 처음으로 ‘실시간 협업’에 초점을 맞춰 설계한 코딩 전용 모델이다.

특히, 오픈AI가 지난 1월 발표한 추론 칩 전문 세레브라스와의 파트너십의 첫 결과물이다. 코덱스-스파크는 초저지연(ultra-low latency) 하드웨어에서 구동되도록 최적화됐으며, 초당 1000토큰 이상을 생성하면서도 실제 개발 환경에서 활용 가능한 코딩 역량을 유지하는 것이 특징이다. 즉, 성능은 원래 모델보다 떨어지지만, 빠른 출력 속도를 우선한 것이다.

현재는 ‘챗GPT 프로’ 사용자에게 연구 미리보기로 제공된다. 오픈AI는 세레브라스와 협력해 데이터센터 용량을 확대하고, 사용자 경험을 안정화한 뒤 더 큰 프론티어 모델도 차례로 배포할 계획이다.

오픈AI의 기존 최신 대형 모델들은 수시간에서 수주에 이르는 장기 자율 작업에 강점을 보여왔다. 반면, 코덱스-스파크는 코덱스(Codex)와의 실시간 상호작용에 초점을 맞췄다.

개발자는 코드 일부를 수정하거나 로직을 재구성하고, 인터페이스를 다듬는 과정을 거의 즉각적인 응답으로 확인할 수 있다. 작업 도중 모델의 출력을 중단하거나 방향을 전환하는 것도 가능하다.

속도에 최적화된 만큼 기본 동작은 가볍게 설계됐다. 최소한의 타깃 수정만 수행하며, 별도 요청이 없으면 자동으로 테스트를 실행하지 않는다.

코덱스-스파크는 12만8000 컨텍스트 창을 지원하는 텍스트 전용 모델이다. 소형 모델이지만 소프트웨어 엔지니어링 역량을 평가하는 'SWE-벤치 프로’와 '터미널-벤치 2.0’에서 강력한 성능을 보였다고 밝혔다. 특히 GPT-5.3-코덱스 대비 훨씬 짧은 시간 안에 작업을 완료했다는 설명이다.

SWE-벤치 프로 (사진=오픈AI)

터미널-벤치 2.0 (사진=오픈AI)
오픈AI는 실시간 협업 환경을 구현하기 위해 모델의 추론 속도 개선에 그치지 않고, 사용자 요청부터 응답이 반환되기까지의 전 과정을 전면 재설계했다.

그 결과 클라이언트와 서버 간 왕복 과정에서 발생하는 오버헤드를 80% 줄였고, 토큰 하나를 생성할 때마다 발생하는 추가 지연도 30% 감소시켰다. 또 사용자가 요청한 뒤 첫번째 토큰이 화면에 나타나기까지 걸리는 시간(Time-to-first-token)은 50% 단축해, 체감 응답 속도를 크게 개선했다.

이를 위해 영구 웹소켓(WebSocket) 연결을 도입하고, 리스폰스(Responses) API 내부를 최적화했으며, 추론 스택 일부를 재작성했다. 이 웹소켓 경로는 코덱스-스파크에 기본 적용되며, 앞으로 모든 모델에 확대 적용될 예정이다.

코덱스-스파크는 세레브라스의 '웨이퍼 스케일 엔진 3(WSE-3)'에서 구동된다. 이는 고속 추론을 위해 설계된 AI 가속기로, 코덱스에 ‘지연 최소화 전용 서빙 티어’를 제공한다.

오픈AI는 GPU가 여전히 학습 및 대규모 추론의 핵심 인프라이며 비용 효율적인 토큰 제공에 적합하다고 설명했다. 하지만 세레브라스는 극저지연 워크플로에 강점이 있으며, 두 인프라는 단일 워크로드에서도 결합해 활용할 수 있다.

코덱스-스파크는 최신 코덱스 앱, CLI, VS Code 확장에서 사용할 수 있다. 연구 프리뷰 기간에는 별도의 사용 한도가 적용되며, 수요가 높을 경우 일시적 대기열이 발생할 수 있다.

또 일부 디자인 파트너에게 API 형태로 제공돼, 제품 통합 방식을 실험 중이다. 앞으로 몇 주에 걸쳐 접근 범위가 점진적으로 확대될 예정이다.

현재 코덱스-스파크는 텍스트 전용이지만, 오픈AI는 이를 ‘초고속 모델 패밀리’의 첫 단계로 소개했다. 개발자 커뮤니티와의 협업을 통해 더 긴 컨텍스트, 대형 모델, 멀티모달 입력 지원 등 기능을 확장할 계획이다.

안전성 측면에서는 기존 메인라인 모델과 동일한 사이버 보안 관련 학습 및 배포 평가를 거쳤으며, 사이버 보안이나 생물학 분야에서 고위험 수준에 도달할 가능성은 낮다고 판단했다고 밝혔다.

오픈AI는 코덱스의 미래를 ▲장기적 추론과 실행을 수행하는 모드 ▲빠른 반복을 지원하는 실시간 협업 모드 등 두가지 모드의 결합으로 그리고 있다.

앞으로는 사용자가 직접 모드를 선택하지 않아도, 코덱스가 백그라운드에서 장기 작업을 하위 에이전트에 위임하면서도 전면에서는 긴밀한 상호작용을 유지하는 형태로 발전할 전망이다.