인공지능(AI) 스타트업 오픈AGI가 오픈AI와 앤트로픽을 뛰어넘는 성능의 컴퓨터 사용(computer use) 에이전트를 선보였다.
MIT 출신 젱이 친 대표가 이끄는 오픈AGI는 최근 새로운 컴퓨터 제어용 AI 모델 ‘럭스(Lux)’를 공개했다. 이 모델은 오픈AI의 '오퍼레이터(Operator)'나 앤트로픽 '컴퓨터 유즈(Computer Use)'보다 훨씬 낮은 비용으로 높은 작업 성공률을 달성했다.
럭스는 컴퓨터 조작 능력을 평가하는 최신 벤치마크 ‘온라인-마인드투웹(Online-Mind2Web)’에서 83.6% 성공률을 기록했다. 구글 제미나이 CUA(69.0%)와 오픈AI(61.3%), 앤트로픽(56.3%)보다 크게 앞선 수치다.
이 벤치마크는 실제 136개 웹사이트에서 300개의 실사용 업무를 수행하도록 설계된 것으로, 페이지 구조 변화나 예기치 못한 상황을 포함하고 있어 가장 현실적인 에이전트 평가 기준으로 꼽힌다.
친 대표는 벤처비트와의 인터뷰에서 럭스의 차별점을 “행동(action)을 학습하는 모델”이라고 소개했다.
기존 LLM이 텍스트 예측 중심으로 훈련되는 것과 달리 럭스는 ‘스크린샷 + 행동 시퀀스’를 학습하며 컴퓨터 화면을 해석하고 클릭·입력·내비게이션 등 실제 동작을 수행한다.
스스로 탐색을 통해 새로운 데이터를 생성하고 이를 다시 학습에 반영하는 ‘에이전트 능동 사전 훈련(Agentic Active Pre-training)’ 방식을 채택했다.
친 대표는 이를 “더 나은 모델이 더 나은 탐색을 만들고, 그 탐색이 다시 더 나은 지식을 생성해 모델이 성장하는 자기 강화적 구조”라고 설명했다.
럭스의 또 다른 차별점은 제어 범위다. 대부분의 상용 에이전트가 웹 브라우저 중심이라 실제 업무의 상당 부분이 제외된다.
그러나 오픈AGI는 럭스가 엑셀, 슬랙, 어도비 툴, 개발 IDE 등 네이티브 데스크톱 앱까지 조작할 수 있다고 밝혔다. 이를 위해 럭스 기반 앱 개발이 가능한 SDK도 공개했다.
또 오픈AI나 앤트로픽의 제품 대비 약 10분의 1 비용으로 동작한다고 주장했다.
인텔과 협력해 온디바이스 실행 최적화를 추진 중이며, AMD·마이크로소프트와의 파트너십도 논의하고 있다고 밝혔다. 이는 기업 고객이 스크린 데이터를 외부 클라우드로 전송해야 하는 보안 문제를 해결할 수 있다는 점에서 의미가 크다.
컴퓨터 제어 AI의 위험성을 고려해 럭스에는 내부 안전 정책이 반영돼 있다.
예를 들어 사용자가 “내 은행 정보 복사해 문서에 붙여 넣어줘”라고 요청하면 럭스는 이를 안전 위반으로 판단하고 작업을 거부한 뒤 경고 메시지를 출력한다.
물론, 럭스가 다양하고 복잡한 현장에서도 벤치마크의 성능을 발휘할지는 지켜봐야 한다. 이는 다른 에이전트에서 공통적으로 지적된 문제다.