最近爆火的互动播客，要解决哪些技术难题？ - 专栏

嘿，你也听播客么？

有机构统计过，去年 1 月美国最热门的播客单月受众就超过了 2370 万人，那时疫情还未影响人们的生活。随着 RTC 技术的普及，还有人们生活方式的变化，播客也演进出了新的形态。今年 1 月，播客在 RTC 技术，以及 Elon Musk “流量”的加持下，以“互动播客”的新形态火了起来。这段时间国内外对“互动播客”场景的追捧者越来越多。

“互动播客”的创新与亮点

“互动播客”是全新的线上兴趣/话题式语聊互动场景，不论是名人/大V，还是普通网友都可以随时开启或参与一场海阔天空的互动交流，而且听众可以随时“举手”上麦参与实时互动交流。

image1770×1426 75.8 KB

听上去，“互动播客”跟休闲语聊房很像，其实从内容、用户关系、信息分发等方面有很多差别：

image1754×1044 44.6 KB

网上已经有很多人剖析过其背后的“产品成功学”了。那么从“播客”到“互动播客”背后的技术发生了哪些变化？好的音频互动体验，需要在哪些环节进行优化？

新形态播客的技术变化

一、实时互动技术赋予“内容平权”

很多人说，“互动播客”的成功很大一部分功劳在“内容平权”，也就是说任何人都可以在平台上创建播客房间发起主题讨论，或者随时加入到播客房间进行互动交流。不过，要实现“内容平权”，也需要有技术的支持。为什么这么说呢？

首先“互动播客”相对于播客，最重要的就是让主持人、嘉宾和每一位听众都可以实时互动进行语音交流，赋予听众更强的互动性与参与感。而想要连麦互动，不仅需要超低延时传输，网络框架还需支持双向传输，但 CDN 只支持单向传输，所以无法实现连麦互动。这时需要借助像声网Agora SD-RTN™ 这样覆盖全球的实时传输网络，能通过低延时的数据传输，与全球的用户进行互动。这是其背后技术中网络层面的变化。

image1770×1412 78.3 KB

二、Nova音频引擎，提供专业设备级优质音频体验

另一方面，传统的播客节目为了保证音质和听感，会购买专业设备，并选择合适的环境录制，以避免周围的噪声、回声。而在“互动播客”中，用户可以随时随地拿起手机在房间中与人畅谈或收听节目，不用专业设备也能有相同的音质体验。这是由于从编解码、3A 算法等一套软件算法替代了专业设备的作用，让非专业用户也能有好的音质和体验。

在编解码方面，声网在 SDK 中已经集成了针对音频实时互动优化的自研编解码器 Agora Nova™。为了能在纯语音场景下提供更好的音质体验，Nova™没有与其它语音编解码器一样采用8kHz 或 16kHz 采样率，而是使用 32kHz 采样率，可捕捉到更多语音细节。同时，经过理论推导和大量实验验证，设计了一套精简的语音高频分量编码系统，优化 Nova™的编码复杂度。在抗丢包能力的保障上，我们也在保证编码效率的前提下选择了最平衡的方案，经过实验验证，这种方案即又保证了编码压缩效率，又保证了丢包时的恢复率。在主、客观评价体系下，Agora Nova™ 的语音编码质量高于 Opus。

在3A（降噪、回声消除、自动增益）方面，声网SDK可够智能识别出各类环境，全面消除回声，并提供超一流的双讲表现。同时，声网SDK在降噪模块能精确检测出噪声信号，并动态调整降噪算法类型和参数，在不损伤语音音质的情况下，有效消除各类噪音。音频的自动增益，即使在嘈杂环境下用户也能体验优异，最大程度保证了音频质量，保证互动播客的清晰体验。

由于在互动播客场景下，用户可能会来自全球各地。那么为了保证全球用户都可获得一致的流畅体验。声网通过多维度的网络估计模型，可智能识别网络链路情况、用户网络环境，然后根据用户网络环境、设备性能、网络链路情况的自适应码率、帧率。同时配合优秀的抖动缓冲机制和抗丢包算法，可保证在80% 丢包情况下，仍能进行流畅的音频通话。

不仅如此，声网Agora通过协同调节人声的音调、音色、动态、韵律、空间效果等，实现对人声的美化，同时支持通过对人声的某一个或多个频段进行时域和空域处理，从而达到提升音质和调整人声音色的目的。

基于以上包括网络传输、编解码、降噪与回声消除、码率自适应、弱网对抗等一系列完备的技术，我们推出了“互动播客场景解决方案”。

声网互动播客场景解决方案

全球覆盖的低延时互动

互动播客场景方案的传输基于声网Agora SD-RTN™实现。SD-RTN™在全球部署节点，覆盖了 200+国家与地区，可为实时音频、视频提供“专线”级别的质量与互动体验。基于智能路由策略以及自研传输协议 Agora AUT，全球优质网络传输覆盖率超过99%。

全球一致的高音质体验

声网自研的 NOVA™ 语音引擎与业界主流编解码器相比，在相同码率下，音频采集与有效频率范围更优，可保证声音的高保真度。NOVA™ 在采样率一定的情况下，码率更小，减少对用户带宽的压力，保证用户在任意弱网条件下保持良好的音频体验。

同时，声网采用业界领先的软件3A 算法，可智能适应各类环境，在不损伤语音音质的情况下，有效消除各类噪音、回声。最大程度保证音频互动体验。

十倍弹性网络架构设计，轻松应对流量突发暴增

声网为实时传输设计的 SD-RTN™网络采用超高弹性网络架构设计，在网络架构设计上能够应对10倍以上的负荷。可以从容应对很多上市公司、大流量平台、爆款客户突发的流量暴增。

安全合规，符合全球性信息安全与隐私保护法规要求

声网Agora已满足ISO 27001、ISO 27017、ISO27018等相关标准的全部要求，并通过且获得了挪威船级社(DNV)颁发的全球范围认证。我们的网络架构和基础设施符合SOC2标准，确保所有的物理和虚拟访问都得到有效管理、监控和控制。同时声网还聘请包括Trustwave Holdings在内的全球隐私保护及安全专家进行审核，通过了第三方隐私保护审计、以及安全专家在网络渗透、应用程序漏洞和合规性评估等多项审计测试，全面符合GDPR、CCPA、COPPA、HIPAA，以及中国数据安全法（草案），个人信息保护法（草案）等国际国内相关法规要求。

在隐私保护方面，声网完全不会访问或存储用户的任何个人身份信息（PII），只会收集提供服务中必要的运营信息——这些数据包括IP地址（识别用户的地理位置以符合区域法规和网络连接）、计量数据（因为声网是按使用时长收费的）和体验质量数据（通过水晶球帮助客户进行体验质量监测）。

在信息安全方面，声网为应用开发者提供了身份验证、数据加密以及网络地理围栏等诸多缺省和可配置的安全选项，以保护开发者的音视频媒体流数据。Agora SDK 提供内置 AES 加密算法供客户直接选择使用。加密密钥由客户的应用程序管理，并在Agora网络外部的终端用户设备之间进行传输。

声网还与多家全球备受信赖的安全组织合作，从而保障及时发现漏洞并告知客户，帮助客户快速开展必要的修复工作。

互动音频最佳实践支持

在过去 7 年间，声网服务了几千家客户，包括唱吧、口袋狼人杀、荔枝、陌陌等，积累了多种实时音视频互动场景的最佳实践，有充足的实战经验和各类预案保证。

XLA体验质量保证

2020年7月，声网基于近万亿分钟的用户体验数据及海量用户主观体验评价，定义并推出了实时互动行业首个体验质量标准XLA。如有指标没有达标，声网最高可进行100%赔付，这一承诺也展现了声网在实时互动领域的技术实力和服务质量，目前市场上还没有其他服务提供商能够针对实时音视频服务提出类似承诺保障。

不止于“快速实现”

事实上，今年 2 月我们的社区中就已经有开发者自己用 Agora Web SDK ，用 2 天的时间实现并开源了一个应用（点击这里了解更多）。他表示，在应用中，实现音频互动功能大约只用了 7 行代码。

目前比较成熟的互动播客场景的架构如下图所示。用户可以通过直播间列表或其它一级入口进入播客直播间。在直播间中，会有一个虚拟的讲台（频道），主持人与嘉宾在频道中进行对话。

如果将这个过程翻译为 API 调用逻辑，如下图所示：

image1754×1282 93.5 KB

这是我们最常见的互动播客的玩法。不过随着用户的使用，我们也看到了很多其它的玩法。而开发者完全可以基于 Agora API 中的不同参数组合，来为不同的玩法提供最佳的音质。我们来例举几个典型玩法对应的参数组合：

Elon Musk 式的典型嘉宾对谈玩法

在这种情况下，嘉宾相对固定，不会有频繁上下麦的情况。而且所有嘉宾都是语音聊天。所以我们可以将Audio Profile 设定为 Speech Standard。AudioScenariosheding 设置为 Default。这时将会默认采用 32 kHz 采样率，语音编码, 编码码率最大值为 18 Kbps。

RtcEngine.setAudioProfile（Constants.AUDIO_PROFILE_SPEECH_STANDARD, Constants.AUDIO_SCENARIO_DEFAULT）

开放式交流

可能有些人曾经看到过这样的房间：房主讲房间作为一个开放交流的地方，所有听众都可以申请上台连麦。这种情况下就会出现频繁上下麦。所以这时候，我们可以将AudioProfile 设定为 Music Standard，将AudioScenario 设置为 ChatroomEntertainment。

RtcEngine.setAudioProfile（Constants.AUDIO_PROFILE_MUSIC_STANDARD, Constants.AUDIO_SCENARIO_CHATROOM_ENTERTAINMENT）

线上演唱会

可能是想组织一场只有“歌舞节目”的晚会，在春节期间，有用户开始组织朋友在互动播客中办起了线上演唱会。为了保证音质，我们需要音乐编码的支持。这时我们可以将 AudioProfile 设定为 MusicHighQuality，以提供高音质支持；将AudioScenario 设置为 GameStreaming，以保证在高音质下仍能提供较好的实时互动体验。

RtcEngine.setAudioProfile（Constants.AUDIO_PROFILE_MUSIC_HIGH_QUALITY, Constants.AUDIO_SCENARIO_GAME_STREAMING）

这里我们只是举了三个例子，围绕互动播客场景还有很多玩法正在涌现。如果你有新的想法，但还不知道如何基于 Agora API 实现，可以在 RTCDeveloper.com 发帖留言与我们交流。如需了解场景方案的更多细节，欢迎拨打 400 632 6626 详询。

1080×328 47.6 KB