광학문자인식(OCR)이 국내 기업의 초기 AI 도입 핵심 역할을 하는 것으로 나타났다. AI 본격 도입에 앞서 실질적인 결과를 낼 수 있는 필수 단계로 꼽히며, 주요 관련 기업들은 수요가 빠르게 확대 중이라고 입을 모았다.
15일 국내 OCR 전문 기업 4곳에 따르면, 국내 기업 수요가 점차 증가하는 것은 물론, 해외 시장 규모도 확대될 것이라고 밝혔다.
국내 초기 AI 시장에서 수익을 올리는 대표적인 사례로 꼽히고 있다. 이는 상당수 AI 프로젝트가 데이터 수집과 라벨링 단계에서 어려움을 겪는다는 보고가 등장하지만, OCR은 기업이 이미 쌓아둔 종이 문서나 PDF를 즉시 자산화한다는 점에서 실패 확률이 낮은 AI로 꼽히기 때문이다.
글로벌 시장조사 기관 모더 인텔리전스(Mordor Intelligence)의 데이터에 따르면, 지난해 글로벌 OCR 시장 추정 규모는 170억달러(약 25조2450억원), 국내 시장 규모는 1조9000억원 규모다.
이어 올해는 글로벌 시장이 200억달러(약 29조7000억원)까지 치솟을 것으로 전망됐다. 이는 전년 대비 17.3%가 늘어난 것이다. 국내는 2조2000억원 규모로, 15.1% 성장을 기록할 것으로 예측됐다.
이런 상승세는 OCR이 AI 도입의 첫 단계라는 점에 기인한다. 한 국내 대표 OCR 기업 관계자는 “AI 워크플로우 도입이 기업 및 산업 전반으로 확대되면서, LLM 성능의 핵심인 데이터를 처리하는 OCR 기술에 대한 수요가 특히 증가하는 추세”라고 말했다.
“특히, 기업이 보유한 대부분의 문서에는 LLM이 직접 처리할 수 없는 비정형 데이터(손글씨, 차트, 도표, 수식 등)가 많아서, 이를 정형화해 학습 데이터로 변환할 수 있는 차세대 AI OCR 기술이 주목받고 있다”라며 “AI 모델 성능을 끌어올리기 위해서는 데이터가 핵심인데, 각종 문서에 잠들어있는 데이터를 뽑아내 처리할 수 있는 OCR 시장은 AI 발전과 맞물려 계속 확장할 것으로 예상된다”라고 말했다.
나라지식정보, 사이냅소프트, 한국딥러닝 등 주요 OCR 기업들도 비슷한 의견을 제시했다.
나라지식정보 관계자는 “2024년 이후 LLM과 검색증강생성(RAG) 도입이 본격화하면서, 전반적으로 데이터 전처리 중요성이 부각되고 있다”라며 “공공기관들도 본격적으로 AX 사업을 추진, 기술 수요가 빠르게 늘고 있다”라고 말했다.
사이냅소프트 관계자는 “B2B 시장에서 OCR 수요는 이전부터 꾸준했지만, 최근 1~2년 사이 문의 성격이 달라졌다”라고 설명했다.
“기존 보안과 검색, 로봇프로세스자동화(RPA) 목적 외에도, 최근에는 사내 문서 AI화를 위한 첫 단계로 OCR을 찾는 기업이 늘었다”라며 “기업 데이터의 약 80%가 비정형 데이터로 추산되는 만큼, 이를 AI가 다룰 수 있는 형태로 변환하는 작업이 AX 도입의 실질적인 출발점이 되고 있다”라고 전했다.
또 OCR은 기업 AI의 필수인 검색증강생성(RAG)에서도 중요한 역할을 차지한다. "쓰레기를 입력하면 쓰레기가 나온다"라는 대형언어모델(LLM)의 원칙 때문이다.
나라지식정보는 “AI가 정확한 답을 내려면 정확한 데이터가 필요하다는 사실이 중심”이라며 “정확한 교재로 공부해야 시험에서 틀린 답을 택하지 않게 되는 학습 방법으로 보면 된다”라고 말했다.
이처럼 OCR은 이제 단순 자동화를 넘어, 전사적 지식 관리의 기본으로 통하고 있다.
OCR 시장 규모 (사진=Mordor Intelligence)
특히 기업들은 AI 도입을 검토할 때 가장 빠르게 성과를 만들 수 있는 시작점으로 OCR 문서 자동화를 우선 논의하는 경우가 대부분인 것으로 전해졌다. 도입 속도가 빠르고 가시적인 성과를 낼 수 있기 때문이다.
한국딥러닝 관계자는 “OCR은 기업이 이미 운영 중인 문서 업무에 바로 적용할 수 있다는 점에서 다른 AI 기술보다 도입 속도가 빠른 것이 사실”이라며 “각종 금융 서류, 계약서, 신청서, 송장, 증빙서류처럼 반복적으로 발생하는 문서에 적용하면 입력, 분류, 추출 업무를 빠르게 자동화할 수 있고, 개선 효과도 비교적 명확하게 확인된다”라고 말했다.
나라지식정보 관계자도 “OCR은 가장 실용적이고 즉각적인 투자수익률(ROI)을 보여주는 AI 기술 중 하나”라며 이에 동의했다.
이어 “LLM이나 생성 AI는 도입까지 6개월에서 1년이 걸리지만, OCR 전처리 솔루션은 2~3개월 안에 기술실증(PoC)부터 상용화까지 가능하다”라며 “이는 OCR이 '입력 단계’에서 작동하기 때문이며, 복잡한 모델 학습이나 파라미터 튜닝 없이, ‘지금 있는 문서를 즉시 AI가 읽을 수 있는 형태로 바꾼다’는 명확한 가치 제안이 있기 때문”이라고 말했다.
해외, 특히 일본 진출 가능성을 높게 보는 것도 공통적인 의견이었다. 나라지식정보는 “일본은 1순위 해외 타깃”이라며 “한자 문화권으로 언어적 유사성을 갖춘 것은 물론, 고문헌과 복잡한 레이아웃 문서가 많아 범용 OCR로는 해결이 어렵기 때문”이라고 설명했다.
또 “일본은 디지털 전환(DX)이 국내보다 상대적으로 늦은 데다 누적된 문서의 양이 방대하기 때문에, OCR 시장의 크기와 수익화 잠재성이 더 크다”라고 말했다.
동남아시아도 다국어 혼용문서가 많고 LLM 도입이 빠르게 진행되고 있어, 전처리 수요는 확대될 것으로 예상했다.
물론, 기술적인 유의점과 보완점이 필요하다. 먼저, 표와 셀 등 데이터 구축 시 필요한 메타데이터를 초기에 정확히 입력하는 것이 중요하다는 것이다. 개별 템플릿이 최대한 완성돼야 제대로 된 자동화가 이뤄진다는 내용이다.
기업 수요가 늘고 다양화되면서, OCR 기업의 유연한 대처도 중요해졌다. 사이냅소프트는 “RAG 파이프라인 구성 등 사이냅 도큐애널라이저 (문서 파싱) 수요와 경계가 명확하지 않은 경우도 있어, 고객 상황에 따라 대응하고 있다”라고 말했다.
여기에 금융이나 계약서 등 민감 정보를 다루기 때문에 비식별화(Masking)를 통한 보안 강화가 필요하다는 점도 유의 사항이다.
오픈AI나 구글, 앤트로픽 모델의 멀티모달 기능이 강화하는 것도 잠재적인 위협이 될 수 있다. 그러나 국내 기업들은 경량화된 OCR 모델로 비용 대비 효율성을 강화하고 있다. 여기에 국내의 문서는 해외와는 다른 서식과 구조가 많다. 해외의 범용 모델이 놓치기 쉬운 레이아웃 분석에서 국내 기업들이 압도적인 정확도를 보인다는 것이다.
한 관계자는 “LLM 시장이 연평균 31% 이상 성장하고 있어, 이에 따라 전처리 시장이 성장할 것은 확실하다”라며 “OCR은 이제 선택이 아니라 필수”라고 강조했다.