Back to Blog

인간과 AI 간의 음성 상호작용을 혁신

AI는 음성으로 더 우수합니다. 왜일까요? 음성 인터랙션은 채팅봇으로 텍스트를 입력하는 것보다 대규모 언어 모델(LLMs)과의 상호작용이 더 빠르고, 쉽고, 직관적입니다. 이는 접근성과 효율성을 향상시켜 손이 자유로운 실시간 커뮤니케이션을 가능하게 합니다. 24/7 고객 지원부터 정신 건강 상담까지, 속도와 편의성이 중요한 모든 시나리오에서 음성 기반 AI는 LLMs에게 새로운 가능성을 열어줍니다.

음성을 통해 AI와 상호작용하는 것에 대한 모든 기대에도 불구하고, 지연, 네트워크 불안정성, 배경 소음 간섭, 정확도 부족 등의 문제로 인해 사용자는 불편을 겪어왔습니다. 이제까지요.

우리는 아고라의 대화형 AI 엔진을 소개하게 되어 기쁘게 생각합니다. 이 엔진은 어떤 AI 모델과도 저지연 음성 상호작용을 가능하게 합니다. 엔진은 소음 환경이나 네트워크 상태가 나쁜 상황에서도 인간의 말을 자연스럽게 처리하고 응답하는 음성 AI 에이전트를 빠르게 배포할 수 있습니다. 이 솔루션은 빠른 응답, 실시간 중단 처리, 배경 소음 억제, 그리고 생생한 음성 AI 경험을 위한 명확한 음성 처리 기능을 제공합니다.

AI 음성 과제 해결

AI 음성 애플리케이션의 수요가 증가함에 따라 개발자들은 다음과 같은 주요 장애물에 직면합니다:

  • 지연 및 중단 응답 시간 지연이 대화 흐름을 방해합니다.
  • 불량한 네트워크 조건이 성능과 신뢰성을 저해합니다.
  • 배경 소음이 AI 음성 인식 정확도를 방해합니다.
  • AI 모델 및 음성 옵션의 유연성 부족으로 맞춤화가 제한됩니다.
  • 복잡한 개발 과정과 제한된 플랫폼 지원으로 시장 출시 시간이 지연됩니다.

Agora의 대화형 AI 엔진은 고급 실시간 처리, 지능형 음향 알고리즘, 글로벌 네트워크 인프라를 활용해 이러한 문제를 해결합니다. 결과는 무엇인가요? 어떤 환경과 기기에서도 작동하는 더 자연스러운 음성 AI 상호작용입니다.

Agora의 대화형 AI 엔진은 무엇인가요?

아고라의 대화형 AI 엔진은 개발자가 애플리케이션에 고도로 반응적이고 지능적인 AI 음성 상호작용을 통합할 수 있도록 지원하며, 주요 음성 AI 과제를 다음과 같이 해결합니다:

  • 초고속 응답 시간과 실시간 중단 처리로 원활한 대화를 가능하게 합니다.
  • Agora의 글로벌 네트워크(SD-RTN™)는 네트워크 환경이 열악한 상황에서도 성능을 최적화합니다.
  • 강력한 배경 소음 억제 및 에코 제거 기술로 AI의 이해도를 향상시킵니다.
  • 다양한 AI 모델과 텍스트-투-스피치(TTS) 서비스 선택으로 완전한 유연성을 제공합니다.
  • 주요 플랫폼 및 기기 지원으로 빠른 통합을 통해 시장 출시 시간을 단축합니다.

작동 원리

엔진은 사용자의 음성이 음성-텍스트 기술로 처리된 후 해당 텍스트가 LLM(대규모 언어 모델)로 처리되고, LLM의 응답이 텍스트-음성 기술로 처리되어 최종적으로 AI 에이전트의 음성 응답으로 출력되는 '연쇄 모델'을 사용합니다.

Agora's chained model for voice AI (STT>LLM>TTS)

이 모델은 고가의 음성-음성 처리보다 음성 AI를 훨씬 더 비용 효율적으로 만들며, Agora의 네트워크는 지연 시간을 줄이고 더 높은 사용자 경험 품질(QoE)을 최적화합니다.

핵심 대화형 AI 엔진 기능

모든 AI 모델, 모든 음성: 어떤 AI 모델(LLM)과도 연결하고 텍스트-음성 변환(TTS) 서비스 및 음성을 선택할 수 있습니다.

초저지연: 대부분의 AI 음성 어시스턴트의 표준 지연 시간보다 최대 3배 빠른 응답을 제공합니다.

지능형 중단 처리: AI가 사용자의 중단을 실시간으로 감지하고 응답하여 자연스럽고 끊김 없는 대화를 생성합니다.

배경 소음 억제: 배경 소음과 에코를 차단하여 소음이 많은 환경에서도 AI가 음성을 정확히 처리합니다.

빠른 통합: 주요 플랫폼 및 기기 유형을 모두 지원하여 AI 음성 에이전트를 몇 분 만에 구축할 수 있습니다.

선택적 주의력 잠금: AI가 배경의 다른 화자의 방해 요소를 필터링하여 주요 화자에게만 집중하도록 합니다.

글로벌 실시간 네트워크: 지능형 라우팅을 활용하여 패킷 손실과 지연 시간을 줄여 전 세계에서 안정적인 음성 AI 상호작용을 보장합니다.

사용 사례: AI 음성 기술의 잠재력 발휘

Agora의 대화형 AI 엔진은 고객 서비스부터 게임까지 다양한 응용 분야에 설계되었습니다. 다음은 몇 가지 사용 사례입니다:

  • 24/7 고객 지원 – AI 기반 음성 에이전트를 배포하여 일반적인 문의 처리, 문제 해결, 실시간 고객 지원을 제공합니다.
  • 가상 쇼핑 어시스턴트 – 질문에 답변하고 추천을 제공하여 고객이 구매 과정을 안내합니다.
  • 라이브 AI 호스트 – 실시간 콘텐츠 모더레이션 기능을 갖춘 상호작용형 AI 기반 이벤트 호스트를 제공합니다.
  • 정신 건강 지원 – 사용자의 말을 듣고 응답하며 전문 자원과 연결해주는 대화형 AI 기반 웰니스 도구를 제공합니다.
  • 라이브 튜터링 – 학생들을 위한 온디맨드 AI 기반 교육 지원을 제공합니다.
  • 게임용 AI 기반 NPC – 더 몰입감 있는 게임 경험을 위해 현실감 있는 상호작용형 AI 캐릭터를 생성합니다.
  • 직원 온보딩 – AI 안내를 통해 신규 입사자가 온보딩 과정을 원활하게 진행할 수 있도록 지원합니다.

대화형 AI를 IoT 기기에 통합하기

또 다른 주요 활용 사례는 교육용 로봇과 캐릭터 장난감부터 스마트 홈 기기까지 연결된 기기에 음성 AI 에이전트를 직접 통합하는 것입니다. Agora의 ConvoAI Device Kit 은 Agora 파트너인 Beken이 개발한 통합 하드웨어 칩셋과 모듈을 결합한 대화형 AI 엔진을 통해 이 과정을 가능하게 합니다. 하드웨어에 음성 AI를 추가하는 올인원 솔루션으로, 연결된 기기를 동적 실시간 대화가 가능한 지능형 상호작용형 동반자로 변환할 수 있습니다.

오늘 바로 체험해 보세요

Agora의 대화형 AI 엔진은 이제 이용 가능하며, 개발자가 AI 음성 애플리케이션을 빠르게 구축, 테스트 및 배포할 수 있도록 합니다.

원활한 통합을 통해 몇 분 만에 지능형 AI 음성 상호작용을 구현할 수 있습니다. 고객 지원 보조 도구, AI 튜터, 게임 NPC 등을 개발하든, Agora의 대화형 AI 엔진은 필요한 속도, 명확성, 유연성을 제공합니다.

웹 데모에서 음성 AI 에이전트 예시를 확인하세요: Talk to Conversational AI

시작해 보시겠어요? Quickstart Guide를 확인하세요.

RTE Telehealth 2023
Join us for RTE Telehealth - a virtual webinar where we’ll explore how AI and AR/VR technologies are shaping the future of healthcare delivery.

Learn more about Agora's video and voice solutions

Ready to chat through your real-time video and voice needs? We're here to help! Current Twilio customers get up to 2 months FREE.

Complete the form, and one of our experts will be in touch.

Try Agora for Free

Sign up and start building! You don’t pay until you scale.
Try for Free