딥시크, ocr 모델에 알리바바 오픈소스 ai 기술 활용 - ai타임스

중국 딥시크가 광학문자인식(OCR) 모델의 최신 버전인 ‘딥시크-OCR 2’에 알리바바클라우드의 오픈소스 AI 기술을 도입하며 모델 구조를 대폭 개편했다. 기존에 의존하던 오픈AI 기술을 대체하고, 중국 오픈소스 생태계를 기반으로 성능과 안정성을 끌어올렸다는 점에서 주목된다.

사우스차이나모닝포스트(SCMP)는 27일(현지시간) 딥시크가 새 OCR 모델 '딥시크-OCR 2’의 핵심 구성 요소로 알리바바 클라우드가 개발한 경량 언어모델 ‘큐원2-0.5b’를 채택했다고 전했다.

이는 2021년 오픈AI가 공개한 CLIP(Contrastive Language–Image Pre-training) 프레임워크를 대체한 것으로, 지난해 10월 첫 OCR 모델을 공개한 지 약 3개월 만의 대규모 아키텍처 변경이다.

기존 딥시크-OCR은 텍스트를 이미지로 변환해 처리함으로써 AI가 다뤄야 할 토큰 수를 대폭 줄이는 방식으로 주목받았다. 딥시크는 시각 기반 콘텍스트 압축을 통해 토큰 수를 7~20배까지 절감할 수 있다며, 대용량·복잡 문서를 효율적으로 처리할 수 있는 대안이 될 수 있다고 강조해 왔다.

하지만 초기 모델은 이미지 자체를 해석하는 시각적 이해력보다는, AI가 이미 학습한 문장 구조와 단어 패턴 등 언어적 사전 지식(language priors)에 과도하게 의존한다는 한계가 드러났다. 문맥이나 언어적 힌트가 제거될 경우, 인식 정확도가 약 90%에서 20% 수준까지 급락하는 문제도 확인됐다.

딥시크는 이러한 한계를 극복하기 위해 CLIP을 큐원2-0.5b로 교체했다. 새 모델은 문서를 단순히 위에서 아래로 읽는 방식이 아니라, 문서의 논리적 구조를 따라 유연하면서도 의미상으로 일관된 스캔 패턴을 적용해 인간의 독해 방식에 가까운 처리를 구현했다는 설명이다.

이 같은 구조적 변화는 성능 개선으로 이어졌다. 벤치마크 테스트에서 딥시크-OCR 2는 이전 버전 대비 3.7%의 정확도 향상을 기록했다.

이미 기술 성숙도가 높은 OCR 분야에서 이 정도의 개선은 의미 있는 진전으로 평가된다. 특히, 복잡한 레이아웃 문서에서의 문맥 이해 능력이 강화된 점이 강점으로 꼽힌다.

딥시크는 딥시크-OCR 2를 허깅페이스에 오픈소스로 공개해 글로벌 연구자와 개발자들이 자유롭게 활용할 수 있도록 했다.