다국어 음성-텍스트 변환: 60개 이상의 언어에서 원어민 수준의 정확도

최근 음성 AI의 핵심을 파헤치려는 창업자들과 많은 대화를 나누었습니다. 대부분의 대화는 점진적인 성과—약간 개선된 단어 오류율(WER), 지연 시간의 미미한 단축, 혹은 더 빨라진 추론 루프—에 초점을 맞추고 있습니다. 하지만 최근 소니옥스(Soniox)의 창업자이자 CEO인 클레멘 시모닉(Klemen Simonic)과 나눈 대화는 달랐습니다.

음성 AI의 정확성은 단순히 영어 벤치마크를 최적화하는 것이 아닙니다. 언어, 억양, 실제 환경 조건을 넘나들며 시스템이 안정적으로 작동하도록 만드는 것이 핵심입니다.

제가 지켜본 바에 따르면, 대부분의 팀은 사소한 부분만 최적화하고 있습니다. 클레멘은 완전히 다른 문제를 해결하고 있습니다. 바로 '정확도'가 실제로 무엇을 의미하는지 재정의하는 것입니다. 통제된 환경에서의 점진적인 개선이 아니라, 60개 이상의 언어를 실시간으로 원어민 수준의 성능으로 처리하는 것입니다.

음성 인식의 “영어 우선” 편향

음성-텍스트 변환에서 가장 큰 과제는 영어의 정확도가 아니라, 여러 언어에 걸쳐 일관된 정확도를 달성하는 것입니다. 라벨링된 데이터가 15,000시간 분량 있다면 영어는 훌륭하게 작동합니다. 진정한 과제이자 대부분의 개발자가 던지는 질문은 다음과 같습니다. 라벨링된 데이터가 거의 없는 덴마크어나 아랍어 같은 소수 언어를 영어와 동일한 정밀도로 작동하게 하려면 어떻게 해야 할까요?

클레멘은 최근의 대규모 언어 모델(LLM) 열풍 속에서 우연히 이 분야에 발을 들인 것이 아닙니다. 그는 2008년부터 이 분야에서 고군분투해 왔습니다. 메타(Meta)에서 5년 동안 수십억 명의 사용자를 위한 핵심 음성 시스템을 구축한 후, 그는 업계에 근본적인 편향이 존재한다는 사실을 깨달았습니다. 대부분의 자동 음성 인식(ASR) 모델은 ‘영어 우선’ 방식으로 설계되어 있어, 다른 언어들은 2등 시민 취급을 받고 있습니다.

AI 데이터 팩토리: 라벨링된 데이터를 넘어

소니옥스(Soniox)에서 클레멘은 자신이 ‘AI 데이터 팩토리'라고 부르는 시스템을 구축했습니다. 느리고 비용이 많이 드는 수동 라벨링에 의존하는 대신, 페타바이트 규모의 오디오 데이터를 활용한 대규모 자기 지도 학습을 사용합니다.

이 접근 방식은 60개 언어를 유창하게 “말하는” 단일 범용 모델을 만들어냅니다. 가장 중요한 기술적 통찰 중 하나는 이것이 '글로벌 엔티티(Global Entity)’ 문제를 어떻게 해결하는가였습니다. 프랑스어 전용 모델이 특정 훈련 데이터 세트에서 “Elon Musk”라는 이름을 접하지 못했다면 오류를 범할 수 있습니다. 하지만 Soniox의 파운데이셔널 모델은 다국어 모델이기 때문에, 영어로 엔티티를 학습하고 그 지식을 자연스럽게 프랑스어, 이탈리아어, 일본어로 이전합니다.

Whisper 대 Soniox: 정확도가 중요한 이유

OpenAI의 Whisper를 언급하지 않고는 ASR에 대해 이야기할 수 없습니다. 이 모델은 음성 인식을 대중화했지만, 실제 운영 시스템에는 더 높은 수준의 견고성이 요구됩니다. 바로 이 격차를 Klemen이 집중적으로 공략하고 있습니다. 최근 벤치마크에서 Soniox는 Whisper 대비 상당한 개선을 보여주었으며, 특히 다음 분야에서 두드러집니다:

실시간 지연 시간: Whisper는 종종 “배치” 처리(오디오가 끝날 때까지 대기)가 필요한 반면, Soniox는 저지연 스트리밍 ASR을 제공합니다.
환각 현상 감소: 일반 모델의 흔한 문제 중 하나는 실제로 발화되지 않은 단어를 “환각”해 내는 것입니다. 소니옥스의 독자적인 아키텍처는 이러한 오류를 최소화하도록 튜닝되어 있으며, 이는 의료 및 법률 애플리케이션에 있어 매우 중요합니다.

실시간 번역의 장벽을 허물다

실시간 번역에는 여전히 근본적인 문제가 있습니다. 바로 지연 시간의 격차입니다.

우리 모두 말을 하고, 문장이 끝날 때까지 기다린 뒤, 번역 결과가 뜨기까지 또 3초를 기다려야 하는 도구를 사용해 본 적이 있습니다. 이는 대화의 흐름을 끊어버립니다.

여기서 흥미로운 점은 Soniox가 이 문제를 어떻게 다르게 접근하느냐입니다. 이 모델은 번역을 말하기 끝난 후에 이루어지는 것으로 취급하지 않고, 스트리밍 방식으로 작동하여 사용자가 말하는 동안 단편 단위로 예측하고 번역합니다. 그 결과 지연 시간은 몇 초가 아닌 단 1~2초에 불과합니다. 이러한 변화는 현실 세계에서 이러한 시스템을 활용하는 방식을 근본적으로 바꿉니다:

글로벌 비즈니스: 언어 장벽을 넘어 감정과 미묘한 뉘앙스가 그대로 전달되는 거래 성사.
‍접근성: 청각 장애인 및 난청인 커뮤니티에 1초 미만의 초정밀 자막 제공.
의료 분야: 데이터 개인정보 보호 및 거주지 규정을 준수하는 HIPAA 인증 AI를 통해 환자-의사 상호작용 기록.

미래: AGI와 자가 진화 시스템

마지막에 저는 클레멘에게 더 포괄적인 질문을 던졌습니다: 이 모든 것이 어디로 향하고 있나요? 그는 단순한 “전사”를 넘어 더 먼 미래를 바라보고 있습니다. 그는 새로운 것을 탐구하고 시간이 지남에 따라 스스로를 조직화하여 인공 일반 지능(AGI)이라는 목표에 한 걸음 더 다가갈 수 있는, 자가 진화 학습 시스템에 관심을 가지고 있습니다. 단순히 당신이 말한 내용을 기록하는 데 그치지 않고, 6개월 전에 나눈 대화의 맥락을 이해하고 이를 오늘의 상황에 적용하는 AI를 상상해 보십시오.

개발자에게 이것이 중요한 이유

실시간 애플리케이션을 구축하고 있다면, “실시간”이 제대로 구현하기 가장 어려운 부분이라는 사실을 이미 알고 계실 것입니다.

음성 인식 시스템은 통제된 환경에서는 실패하지 않습니다. 실제 운영 환경에서 실패합니다. 다양한 언어, 억양, 네트워크 상태, 그리고 잡음이 섞인 입력 상황에서 말이죠. 바로 그 지점에서 대부분의 시스템이 무너집니다.

이번 대화에서 눈에 띈 점은 문제에 대한 사고방식의 전환이었습니다. 단순히 정확도만을 고립적으로 따지는 것이 아니라, 실제 사용 환경에서 일관되고 지연 시간이 짧은 성능을 제공하는 것이 핵심입니다. 실시간 음성 채팅이 포함된 글로벌 게임 플랫폼을 구축하든, SOC 2 Type 2 보안이 필요한 원격 의료 앱을 개발하든 목표는 동일합니다. 언어가 결코 진입 장벽이 되어서는 안 된다는 것입니다.

전체 에피소드는 여기에서 확인하세요: https://www.youtube.com/watch?v=0SIK7VJ-MWo&t=29s

‍

Ready to build?

Explore: Agora’s Conversational AI Engine
Learn: The Anatomy of Voice AI Agents
Join: Our Developer Community on Discord

Learn more about Agora's video and voice solutions

Ready to chat through your real-time video and voice needs? We're here to help! Current Twilio customers get up to 2 months FREE.

Complete the form, and one of our experts will be in touch.

Try Agora for Free

Try for Free

열

앱 빌더

유연한 강의실

SDK 다운로드

지원 계획 및 가격

다국어 음성-텍스트 변환: 60개 이상의 언어에서 원어민 수준의 정확도 달성