최근 AI 모델 출시 추세 중 두드러지는 것은 음성 AI입니다. 지난주에는 무려 5곳에서 모델을 선보였습니다.
여기에는 엔비디아와 마이크로소프트(MS), 알리바바 등 세계적인 기업부터 인월드(Inworld AI)와 플래스랩스(FlashLabs) 등 스타트업 등이 포함돼 있습니다.
단순히 한꺼번에 모델이 쏟아졌다는 사실을 넘어, 이번에 공개된 모델들은 기존 음성 AI의 주요한 문제를 해결하는 데 한발 다가섰다는 점이 중요합니다.
여기에 구글이 음성 감정 인식으로 잘 알려진 스타트업 흄 AI(Hume AI)과 라이선스 계약을 맺고 핵심 인원을 영입했다는 사실까지 겹치며, 이제 이 분야가 보여주기 단계를 넘어 실질적으로 기업의 비즈니스와 개인의 라이프 스타일에 영향을 미치는 시기로 접어들었다는 평가가 나오기 시작했습니다.
벤처비트에 따르면, 업계는 이제 음성 컴퓨팅의 4대 과제인 지연 시간(Latency), 유동성(Fluidity), 효율성(Efficiency), 감정(Emotion) 문제를 사실상 해결했다고 평가합니다.
그동안의 음성 비서는 사용자가 말을 하면 '클라우드 전송 → 텍스트 변환 → LLM 추론 → 음성 합성’이라는 복잡한 단계를 거쳤습니다. 이 과정에서 인간의 반응 속도(0.2초)보다 훨씬 느린 1~3초의 지연이 발생했고, 텍스트로 변환되는 과정에서 말에 담긴 감정과 뉘앙스의 70%가 증발해 버렸습니다. 진정한 대화가 아닌, '느린 무전기’였던 셈입니다.
음성 AI는 지난 2024년 5월 오픈AI의 'GPT-4o’로 대중화가 시작됐습니다. 이는 음성 모델을 LLM에 직접 통합한 네이티브 오디오 모델, 즉 모든 감각을 통합해 처리한다는 의미의 ‘옴니(Omni)’ 모델의 대표 격이었습니다.
그러나 대부분 모델은 사용자가 말하면 클라우드 서버가 음성을 텍스트로 변환하고, 언어 모델이 추론하면 음성을 합성한 뒤 텍스트를 읽어주는 방식이었습니다. 기능적으로는 작동하지만, 진정한 대화라고는 할 수 없다는 평입니다.
실제로 복잡한 과정을 거치며 단계마다 데이터가 쌓이고 처리되는 시간이 걸립니다. 인간은 대화 중 보통 0.2초(200ms) 내외로 반응하지만, 텍스트 음성 변환 방식은 1~3초가 걸립니다. 짧은 순간이지만, 대화의 몰입감이 깨질 수 있습니다.
또 음성을 텍스트로 전환하는 순간, 원래 말에 담겨 있던 뉘앙스가 상실되는 것도 문제입니다. 이 과정에서 70%의 정보가 증발한다고 합니다. "알았어"라는 말도 기쁜 톤과 화난 톤, 비꼬는 톤에 따라 의미가 완전히 다르지만, 텍스트 변환은 이를 단순히 알았어라는 세 글자로 압축해 버립니다.
끼어들기가 어렵다는 것도 자주 지적됩니다. 최근에는 개선된 편이지만, AI가 엉뚱한 이야기를 할 때 이를 끊으려고 해도 자기 말만 하는 경우도 있습니다.
우선 엔비디아의 '퍼스널플렉스-7B-v1(PersonaPlex-7B-v1)'은 말을 마칠 때까지 사용자의 말에 반응하지 않는 반이중(Half-duplex) 방식을 해결한 전이중(Full-duplex) 통신을 구현했습니다. 즉, AI가 말하는 도중에도 사용자의 말을 실시간으로 듣고 반응합니다. 상대방이 말을 가로채면 즉시 멈추고 사과하거나, 대화 중간에 “아하” “그렇군요” 같은 추임새를 넣을 수 있습니다.
인월드 AI의 'TTS-1.5’는 지연 시간을 0.12초(120ms) 미만으로 줄였습니다. 이는 인간의 평균 반응 속도보다 빠르거나 대등한 수준입니다. 플래시랩스의 '크로마 1.0(Chroma 1.0)'도 지연 시간을 제거하기 위해 개발됐습니다. 여기에 몇초 만에 음성 복제도 가능합니다.
알리바바의 '큐원3-TTS(Qwen3-TTS)‘는 로봇처럼 들리던 음성에서 탈피, 세밀한 감정 제어(Fine-grained control)’ 기능을 갖춘 오픈 소스 모델입니다. 기쁨, 슬픔, 분노, 비꼼 등 미묘한 감정 표현을 AI가 스스로 조절합니다. 특히 다국어 지원이 강력하여, 한국어를 하다가 영어를 섞어 써도 원어민 같은 억양과 감정선을 그대로 유지하며 대화를 이어갈 수 있다고 전했습니다.
MS의 '바이브보이스-ASR(VibeVoice-ASR)'은 '단기 기억 상실’을 해결했습니다. 이는 기존 음성 인식이 짧은 문장은 잘 알아듣지만, 5분만 대화가 길어져도 앞 내용을 잊거나 긴 오디오 처리에 과부하가 걸렸던 것을 해결한 것입니다.
이제는 최대 60분 분량의 장문 오디오를 끊김 없이 한번에 처리합니다. 따라서 1시간짜리 회의나 강의 내용 전체를 실시간으로 이해하고 요약할 수 있다는 점에 큰 변화로 평가받습니다.
여기에 앤드류 에팅거 흄 AI CEO는 데이터의 중요성을 강조했습니다. 진짜 감정을 이해하는 기술을 만들기 위해서는 고품질의 감정 음성 데이터를 수집하고 라벨링을 해줘야 한다는 것입니다.
지난 몇년 간 음성 AI는 사용자의 의도를 80% 정도 이해하면 우수한 것으로 평가받았습니다. 그러나 이제는 두뇌 역할을 하는 LLM의 성능을 향상되고, 음성 기능은 점점 실제 대화에 가까워지고 있습니다. 여기에 감정까지 더해지며, 기업과 소비자 모두에게 본격적으로 배포될 준비를 갖추게 됐다는 평입니다.
기업에서는 엣지 컴퓨팅 환경과 대화형 시스템은 물론, 게임의 NPC와 콜센터의 AI 상담원 등에 이를 적용할 수 있습니다. 특히, 감정 기능까지 더해지면 화난 고객 응대와 같은 업무를 처리하기 쉬워집니다.
또 음성 비서와 AI 웨어러블 등의 확대와 맞물려 개인 사용자에게도 큰 영향을 미칠 수 있습니다. 챗봇에 메시지를 타이핑하는 것보다 말로 대화하는 것이 훨씬 편하기 때문입니다.
실제로 구글에서 음성 실험을 총괄하는 릴랜드 레치스는 월스트리트 저널과의 인터뷰에서 제미나이에 자연어 음성 대화 기능을 추가한 이후 챗봇 사용량이 5배로 늘었다고 말했습니다.
또 지난 10월부터 제미나이에는 음성을 직관적으로 이해하고 번거로운 텍스트 변환 과정 없이 응답을 생성하는 네이티브 오디오 모델을 탑재했습니다. 그래서 이제는 사람들이 단순히 간단한 질문을 하는 것이 아니라 챗봇과 긴 대화를 나누고 있다고 덧붙였습니다.
이처럼 음성 AI는 AI 사용 자체를 크게 확대할 잠재력을 가지고 있습니다. 주요 기업부터 스타트업까지 음성 AI에 집중하는 것은 분명한 이유가 있습니다. 물론, 기술적 도약만큼이나 책임감 있는 사용에 대한 논의도 중요해지는 시점입니다.
에팅거 CEO는 "음성은 이제 기능이 아니라, 차세대 앱과 기기의 기본 인터페이스가 될 것"이라고 강조했습니다.