GPT-4o가 보여주었듯이, 대화형 AI는 영화 Her에서 상상했던 음성 AI를 현실로 만들고 있습니다. AI 음성 상호작용과 대화는 더욱 풍부해지고, 빠르며, 사용하기 쉬워지고 있어, 다중 모달 AI 에이전트를 구축하는 데 핵심 요소로 자리 잡고 있습니다.
하지만 여전히 격차가 존재합니다: 음성 에이전트는 아직 실제 인간처럼 행동하지 않습니다.
자연스러운 대화에서는 방해, 일시 중지, 중복된 말 등이 끊임없이 발생합니다. AI 응답이 너무 빨리, 너무 늦게, 또는 전혀 나오지 않을 때 사용자는 불편함을 느낍니다.
실제 대화에서 일시 중지나 중단의 방식은 예의, 망설임, 자신감 등을 의미합니다. 단순히 무엇을 말하는 것이 아니라 어떻게 말하는 것이 중요합니다. 음성 에이전트가 진정한 인간처럼 느껴지려면 단순히 “듣고” “답변하는” 것을 넘어, 맥락을 완전히 이해하고 자연스럽게 듣고 이해하며 응답해야 합니다.
AI와의 음성 상호작용을 더 인간처럼 만들기 위해, 우리는 두 가지 새로운 최첨단 모델인 TEN 음성 활동 감지(VAD)와 TEN 대화 순서 감지(Turn Detection)를 개발했습니다. 두 모델은 Agora의 10년 이상의 실시간 음성 통신 및 초저지연 스트리밍에 대한 심층 연구를 기반으로 개발되어, 음성 에이전트가 훨씬 더 자연스럽게 느껴지도록 설계되었습니다. 두 모델은 Agora와 커뮤니티에서 지원되며, 누구나 사용할 수 있으며, 새로운 모델은 오픈소스 대화형 AI TEN 생태계의 핵심 구성 요소입니다.
- TEN VAD는 딥러닝을 기반으로 한 저지연 및 고정확도 경량 사전 훈련된 음성 활동 감지(VAD) 모델입니다. 오디오 프레임에 인간 음성이 존재하는지 여부를 감지하는 데 사용할 수 있습니다.
- TEN Turn Detection은 인간과 AI 에이전트 간의 풀 듀플렉스 음성 통신(인간 대화처럼 중첩된 음성이 가능한)을 위해 특별히 설계된 지능형 턴 감지 모델입니다. 자연스러운 턴 전환 신호를 감지하고 대화 맥락을 고려한 중단을 가능하게 합니다.
개발자는 TEN VAD와 TEN Turn Detection을 각각 단독으로 사용하거나 두 모델을 결합하여 인간과 유사한 대화 경험을 갖춘 음성 에이전트를 구축할 수 있습니다.
TEN VAD: 더 높은 정확도와 낮은 비용으로 음성 처리
TEN VAD는 경량화되고 저지연, 딥러닝 기반의 VAD 모델입니다. 이 모델은 음성 입력 데이터가 대규모 언어 모델에 입력되기 전 단계인 Speech-to-Text (STT) 시스템 전에 실행되어 인간 음성이 포함된 프레임을 탐지하고 비인간 음성을 필터링합니다. 그 기능은 단순하지만 강력합니다:
- 오디오 프레임 내 인간 음성을 정확히 탐지합니다.
- 비인간 소리(배경 소음, 침묵 등)를 필터링합니다.
이를 통해 하류 Speech-to-Text (STT) 결과의 정확도를 높일 뿐만 아니라 STT 비용을 크게 절감합니다 — 비음성 오디오를 고비용 처리 파이프라인으로 전송하는 것을 방지하기 때문입니다.
VAD는 대화 전환을 중요시한다면 필수적입니다. 정확한 대화 전환 감지는 신뢰할 수 있는 VAD를 기반으로 합니다.
성능 비교:
공개 데이터 샘플에서 WebRTC Pitch VAD 및 Silero VAD와 비교했을 때, TEN VAD는 다양한 시나리오에서 수집된 공개 데이터셋인 TEN VAD Test Sample에서 프레임별 수동 주석으로 검증된 기준 데이터와 비교해 두 모델 모두보다 우수한 성능을 보여줍니다.

또한 TEN VAD는 지연 시간 비교에서 다른 방법보다 우수한 성능을 보여줍니다. TEN VAD는 말소리와 비말소리 전환을 신속하게 탐지하는 반면, Silero VAD는 수백 밀리초의 지연으로 인해 인간-에이전트 상호작용 시스템에서 전체 지연 시간이 증가합니다.
수동으로 라벨링된 프레임 수준 VAD 주석이 포함된 TEN VAD 테스트 샘플은 단 한 번의 클릭으로 통합 및 테스트가 가능하며, 커뮤니티 개발자는 VAD 모델을 쉽게 구축하고 벤치마킹할 수 있습니다.
실제 문제 해결:
실제 사용자 사례에서 측정 결과, TEN VAD를 사용함으로써 오디오 트래픽이 62% 감소했습니다.
TEN VAD를 시도해 보고 Hugging Face 및 GitHub에서 개발을 시작하세요
TEN Turn Detection: 에이전트에 자연스러운 대화 전환 및 중단 처리 기능을 제공
TEN Turn Detection은 인간-AI 대화에서 가장 어려운 부분 중 하나인 '누가 말을 마쳤는지 판단하는 것'을 위해 설계되었습니다. 인간과 AI 에이전트 간의 동적 실시간 대화에서 AI가 문장 중간 일시 중지와 질문 또는 진술의 끝을 구분할 수 있도록 합니다. 에이전트가 너무 일찍 개입하거나 너무 오래 기다리면 대화는 인간에게 자연스럽지 않게 느껴집니다.
TEN Turn Detection은 AI 에이전트와의 완전한 양방향 상호작용을 가능하게 하여, 실시간으로 자연스러운 대화 전환 신호를 감지함으로써 대화를 더 자연스럽고 인간처럼 만듭니다.
작동 원리:
- 대화 맥락(말해지고 있는 내용)을 분석합니다
- 사용자가 여전히 생각 중인지, 말을 마쳤는지 암시하는 언어적 패턴을 탐지합니다
목표는 음성 에이전트가 언제 들어야 하고 언제 말해야 하는지 이해하도록 하여 대화가 더 자연스럽게 흐르도록 하는 것입니다.
TEN Turn Detection 모델은 오픈 소스로 제공되며, 커뮤니티 내 모든 음성 에이전트 개발자가 사용할 수 있으며 영어와 중국어를 지원합니다.
성능 비교:
우리는 TEN Turn Detection을 다중 시나리오 데이터셋에서 다른 모델과 비교했습니다. 다음은 결과입니다:

TEN Turn Detection을 체험해 보고 Hugging Face 및 GitHub에서 개발을 시작하세요
왜 TEN VAD와 TEN Turn Detection인가?
개발자가 TEN VAD와 TEN Turn Detection을 결합하면 음성 에이전트를 구축하는 더 나은 방법을 열 수 있습니다:
- 고품질: 두 모델 모두 10년 이상의 심층 연구와 산업 노하우를 바탕으로 초저지연, 높은 정확도를 제공합니다.
- 더 자연스러운 대화: TEN Turn Detection과 TEN VAD는 음성 에이전트가 실제 인간처럼 반응하도록 합니다 — 적절한 시점에 기다리고, 방해받을 때 말하며, 초저지연으로 작동합니다.
- 비용 절감: TEN VAD가 비음성 오디오를 필터링하여, 고가의 Speech-to-Text 서비스 통해 처리하는 데이터 양을 크게 줄일 수 있습니다. 실제 사용자 사례에서는 두 모델을 함께 사용함으로써 총 비용이 크게 감소했습니다.
- 사용 편의성: 두 모델은 가장 널리 채택된 음성 에이전트 프레임워크 중 하나인 TEN Framework의 확장 기능이나 플러그인으로 사용할 수 있습니다. TEN Framework를 이미 사용 중인 경우, 새로운 모델은 플러그 앤 플레이 방식으로 즉시 사용 가능합니다. 음성 및 중단 처리 기능이 더 우수한 프레임워크를 찾는 경우, 최고 수준의 VAD 및 턴 감지 기능을 갖춘 프레임워크를 고려해 볼 가치가 있습니다.
TEN VAD와 TEN Turn Detection은 TEN Framework와 완벽하게 통합되도록 설계되었습니다. 아래 데모 동영상을 확인하여 TEN Agent(TEN Framework를 기반으로 한 대화형 음성 AI 에이전트)에서 TEN Turn Detection을 사용한 전후 차이를 확인해 보세요.
TEN VAD 및 TEN Turn Detection을 TEN Agent를 사용하여 Hugging Face Spaces에서 또는 로컬 GPU에서 실행할 수 있습니다.
Hugging Face에서 실행(빠른 시작을 위해 권장)
- Hugging Face 계정에 로그인합니다.
- 데모 공간 방문: TEN Agent Demo on Hugging Face
- 오른쪽 상단 모서리에서 설정 드롭다운을 열고 “이 공간 복제”를 선택하여 Hugging Face에서 제공하는 GPU를 사용하여 전체 경험을 배포합니다.
로컬에서 자신의 GPU로 실행
- Hugging Face 계정에 로그인합니다.
- 데모 공간의 오른쪽 상단에서 설정을 클릭하여 로컬에서 실행합니다.
- Run TEN Framework Locally 가이드의 지침에 따라 전체 TEN 스택을 로컬에서 실행합니다.
이제 이 새로운 대화형 AI 트렌드에서 음성 에이전트를 진정한 인간처럼 만들어보세요!
TEN 가족의 향후 변경 사항이나 업데이트는 다음과 같은 채널에서 확인하세요.