전 세계적으로 이미 백만 명이 넘는 스트리머가 활동하고 있습니다. 하지만 다양한 억양, 말하기 속도, 전문 용어의 사용으로 인해 시청자들은 콘텐츠를 이해하는 데 어려움을 겪을 수 있습니다. 또한 스트리머가 전 세계 시청자에게 다가가고자 할 때, 자막은 큰 도움이 됩니다. 개발자 하카세 쇼조가 만든 소프트웨어 ‘라이브캡(LiveCap)’은 바로 이러한 문제를 해결하기 위해 개발되었습니다. 이 소프트웨어는 일본어와 영어를 모두 지원하며 실시간으로 자막을 생성해 시청자가 내용을 따라가도록 돕고 언어의 장벽을 해소합니다.
실시간 자막 생성은 간단해 보일 수 있지만, 실제로는 상당한 기술적 난제가 따릅니다:
- 자막이 스트리머의 목소리보다 뒤처지는 경우가 많습니다.
- 음성 인식 정확도는 환경과 말투의 영향을 쉽게 받습니다.
- 소리가 나지 않는 구간도 음성 인식 모델에 입력되어 불필요한 자원을 낭비하게 됩니다.
더 부드럽고 안정적인 경험을 제공하기 위해, LiveCap은 오디오를 처리하는 더 나은 방법이 필요했습니다.

침묵에서 음성으로의 진화
초기 버전의 LiveCap은 오디오를 인식 모델로 전송하기 전에 말의 멈춤을 감지해 문장의 끝을 판단하는 ‘침묵 감지’ 기술에 의존했습니다. 문제는 지연 현상이었습니다. 자막은 멈춤이 발생한 후에야 생성되기 시작했기 때문에, 스트리머의 말과 화면에 표시되는 내용 사이에 답답한 시간차가 발생했습니다.
해결책은 음성 활동 감지(VAD)였습니다. 이 기술은 사람의 말을 지속적으로 식별하므로 훨씬 더 효율적인 접근 방식입니다. 하지만 이 분야에서도 모든 도구가 동등한 성능을 보이는 것은 아닙니다.
초기 LiveCap은 Silero VAD를 사용했으나, 문장 끝부분이 자주 잘려 나가 부자연스럽고 혼란스러운 자막이 생성되곤 했습니다. 여러 차례의 테스트와 비교 끝에, 하카세 쇼조는 오픈소스 프로젝트인 TEN VAD로 전환했습니다.
그 결과는 놀라웠습니다. TEN VAD는 더 빠르고 정확한 감지 기능을 제공했으며, 일본어 환경에서 놀라울 정도로 안정적인 성능을 입증했습니다. LiveCap은 Silero VAD를 TEN VAD로 완전히 교체했고, 오탐률은 무려 67%에서 5% 미만으로 떨어졌습니다.
TEN VAD가 LiveCap에 어떤 힘을 실어주었나
- 더 정확한 음성 감지: TEN VAD는 일본어 문장 끝의 억양과 같은 까다로운 상황에서도 인간의 목소리를 일관되고 정확하게 감지하여 오탐률을 획기적으로 줄여줍니다.
- 초저지연: 빠른 응답 속도를 자랑하는 TEN VAD는 실시간 애플리케이션에 완벽하게 적합합니다. 음성 시작점과 종료점을 정확하게 식별하여 자막이 스트리머의 목소리와 거의 완벽하게 동기화되도록 하여 시청 경험을 향상시킵니다.
- 경량화 및 자원 효율성: 이 모델은 크기가 작고 CPU 및 메모리 소비가 최소화되어 있습니다. 침묵과 소음을 감지함으로써 관련 없는 오디오에 자원을 낭비하지 않습니다.
- 후속 작업의 기반: LiveCap의 음성 인식 모델은 5초 미만의 오디오 청크를 필요로 합니다. TEN VAD는 긴 음성을 정밀한 하위 세그먼트로 분할하여, 실시간으로 더 안정적이고 정확한 트랜스크립션을 가능하게 합니다.
“TEN VAD를 통합함으로써 LiveCap은 일본어 트랜스크립트의 자연스러움을 크게 향상시켰으며, 이는 라이브 사용 중 사용자의 불편함을 줄이고 제품에 대한 신뢰도를 높였습니다.”라고 하카세 쇼조(Hakase Shojo)는 언급했습니다. 그는 또한 VAD 관련 기술적 세부 사항이 거의 논의되지 않는다고 언급했습니다.
하지만 이 사례에서 볼 수 있듯이, 겉보기에는 단순해 보이는 이러한 기술적 세부 사항이 종종 제품 성능을 향상시키는 핵심 열쇠가 됩니다. 이러한 비하인드 스토리를 공개적으로 공유함으로써, 하카세 쇼조는 스트리머들에게 강력한 도구를 제공하는 동시에 동료 음성 AI 개발자들에게 귀중한 통찰력을 제시하고 있습니다. 바로 시나리오에 맞는 올바른 도구 선택이 기술적 과제를 해결하는 가장 빠른 길이라는 점입니다.
자막을 넘어: 기반 기술
TEN VAD의 힘은 실시간 자막 생성을 훨씬 뛰어넘습니다. 그 이점은 다양한 실시간 음성 시나리오에 적용될 수 있습니다:
- AI 고객 서비스에서는 고객 문의에 더 빠르게 응답할 수 있게 해줍니다.
- AI 튜터에서는 사용자의 아주 짧고 주저하는 발화조차도 정확하게 감지할 수 있습니다.
요약하자면, TEN VAD는 라이브 스트리밍, 대화형 AI, 음성 에이전트 등 실시간 음성 애플리케이션을 구축하기 위한 핵심 기반 기술입니다.


