视频回放&资料上线丨RTC Dev Meetup 语音处理在实时互动领域的技术实践和应用 - 专栏

wecom-temp-836418ec0c3d6609bcb889c9b806b3072560×1340 138 KB

PPT合集已经上线链接: 百度网盘请输入提取码提取码: wrc7

实时互动作为下一代技术基础能力，正在渗透各行各业。尤其是受疫情的影响，人们越来越习惯在线、远程的工作、学习甚至生活。同时社交直播、游戏电竞、金融、保险、医疗等场景也被搬到了线上，实时互动正在支撑着这些人、物及空间之间创新的沟通和交互方式。

在实时互动场景中，语音处理是非常重要的一个部分，比如实时语音识别和实时语音翻译，可以将连续的音频流实时转换成文本，并进行实时翻译，应用在直播实时字幕、会议实时记录等场景，可以大大提高用户体验和沟通效率。

本次，我们邀请了语音处理方面的技术专家，为大家分享语音处理在实时互动领域的最佳技术实践和业务应用。

4:281077×103 3.29 KB

活动信息

活动时间： 4 月 28 日（星期四） 14:00 —— 16:30

活动地点： 线上直播

活动日程

fesvvewff998×674 80.7 KB

活动嘉宾

嘉宾一：
kcycii

黄硕，百度自然语言处理部主任研发架构师

嘉宾 简介：

黄硕，百度自然语言处理部主任架构师。十余年搜索、推荐和人工智能技术研发经验，先后在百度、腾讯、Facebook 等多家公司从事搜索、个性化推荐、自然语言处理技术研发工作，在人工智能技术应用方面有丰富的实战经验；曾主导百度搜索个性化技术研发并在十多个产品线应用投产，并深度参与百度深度学习框架在企业中的推广应用。目前在百度自然语言处理部负责 NLP 基础技术研发、AI 技术产业化应用等方向。

分享主题：百度文心大模型在语音文本审核中的应用

内容简介：

深度学习预训练大模型最近几年发展迅速，颠覆了很多以往使用传统机器学习技术解决的领域。得益于大模型技术在百度的发展，语音文本审核这项互联网传统业务在技术上也有了较大的发展。本次分享将在大模型相对传统模型的整体效果、通用性、个性化需求适配以及服务性能上进行介绍和展开，希望让听众了解大模型的优势，以及审核技术最新的一些发展趋势和业务应用效果。

视频回放：

嘉宾二：
vjhkkk
马志强，寰语科技语音识别研究主管

嘉宾简介 ：

马志强，寰语科技语音识别研究主管，主要负责语音识别核心技术研究和相关产品落地工作，具备语音识别、语音转写及语音翻译技术研发经验，熟练掌握 ASR 技术、NMT 技术、深度学习技术等，在多语种、低资源、端到端语音识别方向有着丰富的实践经验，对 AI 语音识别技术的产业应用有着深入的理解，负责并推动了 ASR 技术在语音助手、语音交互、AI 字幕等场景上线应用。

分享主题：语音识别技术研究进展和应用落地分享

内容简介：

语音识别技术研究进展和应用落地分享，第一部分简要介绍 AI 语音识别技术的发展态势和技术研究现状以及面临的挑战问题；第二部分重点介绍语音识别技术的发展历程及其技术原理，重点讲解 ASR 技术的最新研究进展和技术突破，特别是在语音助手、AI 字幕场景的系统性创新工作；第三部分主要介绍 ASR 技术的应用落地情况，以及 AI 语音在各个领域场景所取得的应用成果。

视频回放：

嘉宾三：

vhkvi

周元剑，依图 AI SaaS 技术负责人

嘉宾 简介：

从依图公司成立至今，一直在其任职，参与过多款AI产品研发和多个大型智能化项目建设落地。现担任依图 AI SaaS 技术负责人，目前主要聚焦在语音识别、内容审核方向。

分享主题： 实时音视频中语音处理的挑战

内容简介：

依图 ASR 和 NLP 的能力表现；ASR 场景有挑战的地方；依图在通用场景如何解决的这些问题；实时音视频领域遇到的典型问题；多语言模型的面临的挑战等。

视频回放：

<iframe frameborder="0" width="640" height="498" src="https://player.bilibili.com/player.html?aid=213802414&bvid=BV1ea411a7aA&cid=714240355&page=1" allowfullscreen=""></iframe>

5:141080×123 3.07 KB

活动信息：

活动时间： 5 月 14 日（星期四） 14:00 —— 16:30

活动地点： 线上直播

活动日程：

svdss1034×710 80.5 KB

活动嘉宾：

嘉宾一：
jhgf
谭旭，微软亚洲研究院主管研究员

嘉宾 简介：

谭旭，微软亚洲研究院主管研究员，研究领域包括深度学习、自然语言/语音/音乐、AI 内容生成等，在学术会议上发表论文 80 余篇。研发的机器翻译系统在 WMT 机器翻译比赛中获得多项冠军，研发的预训练语言模型 MASS、AI 音乐项目 Muzic 受到学界广泛关注。在语音合成和识别方面的研究成果（LRSpeech，FastSpeech 1/2，AdaSpeech，FastCorrect 1/2等）帮助微软 Azure 语音合成和识别服务提升产品体验。

分享主题：FastCorrect：语音识别快速纠错模型

内容简介：

语音识别纠错通过检测并纠正语音识别结果中存在的错误，进一步提升识别准确率。目前，大部分纠错模型采用了基于注意力机制的自回归结构，延迟较高，影响模型线上部署。本次报告介绍一种低延迟、高精度的纠错模型 FastCorrect 系列，通过利用编辑对齐以及多个候选结果，在取得 10% 的词错误率下降的同时，将模型加速 6-9 倍，相关研究论文已被 NeurIPS 2021 和 EMNLP 2021 收录。

视频回放：

嘉宾二：
sdfgh

嘉宾简介 ：

冯建元，美国伊利诺伊理工学院博士，伊利诺伊大学芝加哥分校特聘研究员，Agora 音频体验算法专家，十年算法研究从业经验。先后主导过多个实时音频领域的开发项目包括国内首个 AI 音频编解码器 Sliver、实时美声音效系统、实时声纹变声、实时空间音频渲染等产品研发。极客时间《搞定音频技术》栏目讲师。目前负责 Agora 超高音质音频系统的设计与研发。

分享主题 ：Any to Any 实时变声的实现与落地

内容简介：

随着 ASR、TTS 技术的演进, 语音识别的准确性和语音合成的自然度都有了极大的提升。这为高质量的实时变声的实现提供了可能。传统的变声利用包括变调效果器、均衡器等音效模块来调整语音的音色，但这种效果器的方式必须依赖手动调节通用性差、且变声效果不稳定。

而基于 ASR-TTS 架构的 AI 变声算法可以做到“Any to Any”（把任何人变成任何人）的自动变声同时又不会影响语音的可懂度。同时在 RTC 领域要求变声要有较高的实时性，端到端的延迟必须小于 1s，这对模型的算力和部署都提出了挑战。这次分享我们会围绕以下几个方面进行分享和讨论：

基于传统音效的变声算法的困境
实时变声算法的设计与思考
实时变声如何落地与应用

视频回放：

嘉宾三：
hvuku
李田，数美科技 NLP 技术负责人

嘉宾 简介：

李田，埃塞克斯大学大数据及文本分析硕士，现负责数美科技天净业务体系 NLP 技术落地，曾先后负责金融评分体系、语音产品孵化和优化、端到端音频事件监测，语音转录，文本语义模型，文本翻译，模型加速等体系的开发和建设。拥有多年人工智能、机器学习、算法领域经验，在处理语音、文本、图像等场景下的实战经验颇丰。

分享主题： 如何解决 Iterative 半监督训练在 ASR 训练中难以落地

内容简介：

半监督训练在 ASR 领域的应用
半监督训练在 ASR 领域的进展和问题
我们半监督方案解决的问题
Improved NIPL 解决方案

视频回放：

合作伙伴

640-21080×375 36 KB

抽奖福利

cgkk909×387 128 KB