Back to Blog

‘Convo AI World Japan’ 현장: 대화형 AI의 미래

대화형 AI가 단순히 효율성뿐만 아니라 감정, 문화, 신뢰를 고려하여 설계된다면 어떤 일이 일어날까요?

2025년 11월 5일, 아고라(Agora)와 V-Cube가 공동 주최한 Convo AI World Japan 행사에서는 전 세계 기술 리더, 창업가, 투자자들이 한자리에 모여 대화형 AI, 아바타, 다중 모달 지능이 어떻게 진화하고 있는지, 그리고 일본의 관점이 국경을 넘어 왜 그토록 중요한 의미를 지니는지 탐구했습니다.

실시간 번역과 스트리밍 아바타부터 로봇 공학의 유산과 문화적 스토리텔링에 이르기까지, 이번 행사는 아시아 전역의 지역적 강점들이 어떻게 융합되어 전 세계 AI 경험의 다음 큰 도약에 영향을 미치고 있는지 보여주었습니다. 일본에서 이루어진 논의는 단순히 규모만을 쫓기보다는 의미에 초점을 맞췄습니다. 즉, AI가 어떻게 자연스럽고, 존중하며, 인간적인 방식으로 사람들의 말을 듣고, 응답하며, 소통하는가에 대한 것이었습니다.

다음은 각 세션의 요약과 훌륭한 연사들이 발표에서 다룬 내용입니다:

세션 1: 개회사 - AI 시대에서 일본의 역할 재정의

토니 왕(Tony Wang), 아고라(Agora) 공동 창업자 겸 CRO

토니 왕은 글로벌 AI 논의에서 흔히 제기되는 주장을 새로운 관점에서 재해석하며 행사의 막을 열었습니다. 그는 일본이 주도권을 잡기 위해 미국이나 중국을 규모 면에서 앞설 필요는 없다고 주장했습니다. 대신, 일본은 AI 분야의 리더십이 어떤 모습이어야 하는지를 재정의할 수 있다고 말했습니다.

일본의 강점은 감정, 장인정신, 신뢰, 그리고 스토리텔링에 있습니다. 애니메이션, 만화, 게임, 음악, 디자인에 이르기까지 일본의 문화 유산은 오랫동안 전 세계의 상상력을 형성해 왔습니다. 이러한 강점을 바탕으로 일본은 단순히 산출물을 최적화하는 데 그치지 않고, 인간의 미묘한 뉘앙스를 경청하고 적응하며 존중하는 공감형 다중 모달 AI를 구축할 수 있는 독보적인 입지를 갖추고 있습니다.

“우리는 이제 반복이 완벽을 이기고, 호기심이 신중함을 대체하며, 기계보다 의미가 더 중요해지는 시대에 접어들고 있습니다. 미래는 제품-시장 적합성(Product-Market Fit)이 아닌 감정-시장 적합성(Emotion-Market Fit)으로 승패가 결정될 것이기 때문입니다.”

세션 2: AWS AI 솔루션 및 실제 활용 사례

야마다 만타로, AWS 솔루션 아키텍트

야마다 만타로는 특히 미디어, 엔터테인먼트, 게임, 디지털 콘텐츠 분야에서 AI 도입이 실험 단계에서 수익 중심의 생산 규모 배포로 빠르게 전환되고 있는 방식을 살펴보았습니다.

이러한 변화의 중심에는 조직이 단일 API를 통해 여러 파운데이션 모델에 접근할 수 있게 해주는 Amazon Bedrock이 있습니다. 이러한 통합된 접근 방식은 통합의 복잡성을 줄여주며, 기술 팀과 비기술 팀 모두 막대한 인프라나 모델 관리 부담 없이 AI 기능을 더 빠르게 출시할 수 있게 해줍니다.

그는 다음과 같은 실제 적용 사례를 공유했습니다.

  • 개인화된 대화 주제와 수업 흐름을 생성하는 영어 학습 플랫폼
  • 대규모로 하이라이트 영상, 요약본 및 다국어 콘텐츠를 제작하는 미디어 기업
  • 구조화된 프롬프팅을 통해 일관된 캐릭터 성격을 유지하는 게임 스튜디오 및 아바타 플랫폼
  • 3D 자산, 환경 디자인, 신속한 프로토타이핑에 생성형 AI를 활용하는 크리에이티브 팀

“AI는 단순히 개발자의 생산성을 높이는 데 그치지 않습니다. 작가, 디자이너, 프로듀서, 마케터의 업무 방식을 혁신하고 있습니다.”

세션 3: 스트리밍 아바타 시대로의 진입

알리시아 첸(Alicia Tseng), Akool 제품 총괄

알리시아 첸은 오늘날 대화형 AI가 직면한 가장 큰 과제 중 하나인 ‘지연 시간’에 대해 언급했습니다. 기존의 대화 방식은 느린 STT → LLM → TTS 파이프라인에 의존하기 때문에 어색한 침묵과 기계적인 대화 흐름이 발생합니다.

Akool은 인간의 리듬에 맞춰 대화가 이루어지도록 하는 초저지연 스트리밍 아바타 엔진을 구축하여 이 문제를 해결했습니다. 현재 아쿨은 전 세계 수백만 명의 사용자를 지원하며, 이미지, 비디오, 오디오, 라이브 아바타를 아우르는 풀스택 플랫폼으로 진화하고 있습니다. 수백 가지 아바타, 150개 이상의 언어, 대규모 동시 접속을 지원합니다.

그녀는 다양한 산업 분야의 실제 적용 사례를 소개했습니다:

  • 글로벌 컨퍼런스의 이벤트 가이드 및 홀로그램
  • 부동산 분야의 가상 임대 상담원
  • 민감한 대화를 가능하게 하는 보험 아바타
  • 통신 소매점의 매장 내 어시스턴트
  • 초기 증상을 모니터링하는 헬스케어 아바타
  • 공항에서 여행객을 돕는 항공사 아바타
  • 수천 명의 직원과 직접 소통하는 CEO 아바타

“AI의 미래는 인간을 대체하는 것이 아니라, 인간의 능력을 증폭시키는 데 있습니다. Akool과 Agora는 함께 챗봇을 표현력이 풍부하고 감정이 담긴 실시간 경험으로 변화시키고 있습니다.”

세션 4: 패널 토론 - 대화형 AI와 아바타의 미래

패트릭 페리터(Patrick Ferriter)의 사회로 진행된 이 패널 토론에는 아바타, 인프라, 다중 모달 AI 분야에서 활동하는 리더들이 한자리에 모여 향후 전망을 논의했습니다.

순수한 사실주의보다 감성적인 디자인

AKA Virtual의 공동 창립자 겸 CEO인 지아 쉔(Jia Shen)은 일본에서 왜 스타일리시하고 캐릭터 중심의 아바타가 초현실적인 아바타보다 종종 더 좋은 성과를 내는지 설명했습니다. 사용자들은 판단받는 느낌이 덜하고 더 개방적인 태도를 보이게 되므로, 이러한 디자인은 특히 치료, 교육, 엔터테인먼트 분야에서 효과적입니다.

실시간 AI를 위한 인프라

Dify.ai의 엔지니어링 책임자 용러 양(Yongle Yang)은 빠른 워크플로우와 반자율적 에이전트 모델을 활용한 대화형 시스템 구축에 대해 논의했습니다. 실시간 인프라를 통해 개발자들은 자체 데이터를 기반으로 반응성이 뛰어난 AI 인터페이스를 배포할 수 있습니다.

더 빠르고 스마트한 멀티모달 AI

Wavespeed.ai의 CTO인 Zeyi Cheng은 거의 실시간에 가까운 확산 모델의 발전을 강조하며, 이를 통해 막대한 제작 노력 없이도 자동화된 광고 제작, 대화형 비디오 아바타, 인터랙티브 콘텐츠를 구현할 수 있다고 설명했습니다.

앞으로의 전망

패널리스트들은 다음과 같은 몇 가지 단기적인 변화를 지적했습니다:

  • 저렴하고 널리 보급된 아바타
  • 물리적 지능과 대화형 지능을 결합한 AI 기반 로봇
  • 돌봄, 소통, 일상 지원을 위한 AI 동반자
  • AI 네이티브 도구를 활용해 창작하는 차세대 크리에이터들

다양한 관점에서 한 가지 주제가 두드러졌습니다: 대화형 AI는 표현력이 풍부하고, 감정이 담겨 있으며, 깊이 상호작용하는 형태로 진화하고 있습니다.

세션 5: 일본어 음성 AI에서 감정적 연결의 재정의

제이슨 첸(Jason Chen), Jarvis 마케팅 총괄

제이슨 첸은 대화형 AI의 가장 어려운 과제 중 하나인, 긴 대화 동안 일본어 음성 상호작용을 자연스럽게 만드는 방법을 탐구했습니다. 일본어는 음정, 예의, 문맥, 대화 중간에 끼어드는 상황 처리 등에서 정밀함을 요구하는데, 이는 많은 음성 시스템이 취약한 부분입니다.

Jarvis는 복잡한 수동 조정 없이도 감정 표현, 정확한 음정, 기억력, 대화 중간에 끼어드는 상황 처리, 소음에 대한 내구성을 제공하는 통합 플랫폼을 통해 이 문제를 해결합니다. Jarvis의 AI는 긴 대화에서도 일관된 개성을 유지하며, 대본에 따라 진행되는 것이 아니라 실제 대화처럼 느껴집니다.

애니메이션 IP부터 관광 및 기업 도입에 이르기까지, Jarvis는 음성 AI를 단순한 콘텐츠에서 동반자로 변화시키고 있습니다.

“일본에는 대화형 수준의 음성 AI가 필요하며, Jarvis는 음성, 추론, 기억을 하나로 통합하여 인간 중심의 경험을 제공함으로써 이를 재정의하고 있습니다.”

세션 6: Tripo - 누구나 쉽게 만드는 3D 콘텐츠

프랭크 장, Tripo 일본 유통업체 대표

Tripo는 3D 제작이 마침내 2D AI의 속도를 따라잡고 있음을 보여주었습니다. 텍스트나 단일 이미지를 단 몇 초 만에 깔끔하고 바로 제작에 활용할 수 있는 3D 모델로 변환함으로써, Tripo는 지오메트리 품질, 토폴로지, 자산 정리 과정에서 오랫동안 존재해 온 병목 현상을 해소합니다.

블렌더(Blender), 마야(Maya), 언리얼(Unreal), 유니티(Unity)와 같은 주요 툴을 지원하는 트리포는 크리에이터들이 자산을 생성하고 편집한 후 기존 파이프라인으로 직접 내보낼 수 있게 해줍니다. 특히 눈에 띄는 순간으로는 파손된 건담 장난감 부품을 스캔부터 출력까지 단 몇 분 만에 재구성해낸 사례가 있었습니다.

생산성을 높이고 비용을 절감함으로써, Tripo는 스튜디오, 브랜드, 개인 크리에이터 모두에게 고품질 3D 제작을 가능하게 하고 있습니다.

“AI의 다음 도약은 단순한 속도가 아닙니다. 크리에이터에게 상상력을 즉시 3D 현실로 구현할 수 있는 힘을 주는 것입니다.”

미래 전망

Convo AI World Japan은 대화형 AI의 강력한 변화를 강조했습니다. 차세대 경험은 지능뿐만 아니라 감정, 문화, 실시간 반응성을 통해 정의될 것입니다. AI가 일상생활에 더욱 깊이 스며들면서, 음성, 영상, 아바타, 환경을 넘나들며 자연스럽게 소통하는 능력이야말로 사용자에게 진정으로 공감을 불러일으키는 요소가 될 것입니다.

일본은 명확한 청사진을 제시합니다. 먼저 경청하고, 의도를 파악해 응답하며, 시간이 지남에 따라 신뢰를 쌓아가는 대화형 AI입니다.

이러한 경험을 구축하려면 모델 이상의 것이 필요합니다. 표현력이 풍부하고 지연 시간이 짧은 상호 작용을 위해 설계된 실시간 인프라가 필수적입니다. 아고라의 대화형 AI 엔진이 데모나 실습 평가를 통해 음성, 영상, AI 기반 대화를 위한 완벽하고 즉시 사용 가능한 스택을 어떻게 제공하는지 확인해 보세요.

Convo AI World Japan은 아고라의 Convo AI World 이벤트 시리즈의 일환으로, 제품 리더, 개발자, AI 혁신가들이 한자리에 모여 대화형 AI 구현에 대해 소통하는 자리입니다.

RTE Telehealth 2023
Join us for RTE Telehealth - a virtual webinar where we’ll explore how AI and AR/VR technologies are shaping the future of healthcare delivery.

Learn more about Agora's video and voice solutions

Ready to chat through your real-time video and voice needs? We're here to help! Current Twilio customers get up to 2 months FREE.

Complete the form, and one of our experts will be in touch.

Try Agora for Free

Sign up and start building! You don’t pay until you scale.
Try for Free