视频回放&资料上线丨RTC Dev Meetup 语音处理在实时互动领域的技术实践和应用

PPT合集已经上线:point_right:链接: 百度网盘 请输入提取码 提取码: wrc7

实时互动作为下一代技术基础能力,正在渗透各行各业。尤其是受疫情的影响,人们越来越习惯在线、远程的工作、学习甚至生活。同时社交直播、游戏电竞、金融、保险、医疗等场景也被搬到了线上,实时互动正在支撑着这些人、物及空间之间创新的沟通和交互方式。

在实时互动场景中,语音处理是非常重要的一个部分,比如实时语音识别和实时语音翻译,可以将连续的音频流实时转换成文本,并进行实时翻译,应用在直播实时字幕、会议实时记录等场景,可以大大提高用户体验和沟通效率。

本次,我们邀请了语音处理方面的技术专家,为大家分享语音处理在实时互动领域的最佳技术实践和业务应用。


活动信息

:mantelpiece_clock: 活动时间: 4 月 28 日 (星期四) 14:00 —— 16:30

:house: 活动地点: 线上直播

活动日程

活动嘉宾

嘉宾一:
kcycii

黄硕,百度自然语言处理部 主任研发架构师

:man_technologist:t2: 嘉宾 简介:

黄硕,百度自然语言处理部主任架构师。十余年搜索、推荐和人工智能技术研发经验,先后在百度、腾讯、Facebook 等多家公司从事搜索、个性化推荐、自然语言处理技术研发工作,在人工智能技术应用方面有丰富的实战经验;曾主导百度搜索个性化技术研发并在十多个产品线应用投产,并深度参与百度深度学习框架在企业中的推广应用。目前在百度自然语言处理部负责 NLP 基础技术研发、AI 技术产业化应用等方向。

:studio_microphone: 分享主题:百度文心大模型在语音文本审核中的应用

:page_with_curl: 内容简介:

深度学习预训练大模型最近几年发展迅速,颠覆了很多以往使用传统机器学习技术解决的领域。得益于大模型技术在百度的发展,语音文本审核这项互联网传统业务在技术上也有了较大的发展。本次分享将在大模型相对传统模型的整体效果、通用性、个性化需求适配以及服务性能上进行介绍和展开,希望让听众了解大模型的优势,以及审核技术最新的一些发展趋势和业务应用效果。

:video_camera: 视频回放:

<iframe frameborder="0" width="640" height="498" src="https://player.bilibili.com/player.html?aid=641350164&bvid=BV1hY4y1b7UD&cid=714109051&page=1" allowfullscreen=""></iframe>

嘉宾二:
vjhkkk
马志强,寰语科技语音识别研究主管

:man_technologist:t2: 嘉宾简介

马志强,寰语科技语音识别研究主管,主要负责语音识别核心技术研究和相关产品落地工作,具备语音识别、语音转写及语音翻译技术研发经验,熟练掌握 ASR 技术、NMT 技术、深度学习技术等,在多语种、低资源、端到端语音识别方向有着丰富的实践经验,对 AI 语音识别技术的产业应用有着深入的理解,负责并推动了 ASR 技术在语音助手、语音交互、AI 字幕等场景上线应用。

:studio_microphone: 分享主题:语音识别技术研究进展和应用落地分享

:page_with_curl: 内容简介:

语音识别技术研究进展和应用落地分享,第一部分简要介绍 AI 语音识别技术的发展态势和技术研究现状以及面临的挑战问题;第二部分重点介绍语音识别技术的发展历程及其技术原理,重点讲解 ASR 技术的最新研究进展和技术突破,特别是在语音助手、AI 字幕场景的系统性创新工作;第三部分主要介绍 ASR 技术的应用落地情况,以及 AI 语音在各个领域场景所取得的应用成果。

:video_camera: 视频回放:

<iframe frameborder="0" width="640" height="498" src="https://player.bilibili.com/player.html?aid=383773657&bvid=BV1qZ4y1y72r&cid=714165965&page=1" allowfullscreen=""></iframe>

嘉宾三:

vhkvi

周元剑,依图 AI SaaS 技术负责人

:man_technologist:t2: 嘉宾 简介:

从依图公司成立至今,一直在其任职,参与过多款AI产品研发和多个大型智能化项目建设落地。现担任依图 AI SaaS 技术负责人,目前主要聚焦在语音识别、内容审核方向。

:studio_microphone: 分享主题实时音视频中语音处理的挑战

:page_with_curl: 内容简介:

依图 ASR 和 NLP 的能力表现;ASR 场景有挑战的地方;依图在通用场景如何解决的这些问题;实时音视频领域遇到的典型问题;多语言模型的面临的挑战等。

:video_camera: 视频回放:

<iframe frameborder="0" width="640" height="498" src="https://player.bilibili.com/player.html?aid=213802414&bvid=BV1ea411a7aA&cid=714240355&page=1" allowfullscreen=""></iframe>

活动信息:

:mantelpiece_clock: 活动时间: 5 月 14 日 (星期四) 14:00 —— 16:30

:house: 活动地点: 线上直播

活动日程:

活动嘉宾:

嘉宾一:
jhgf
谭旭,微软亚洲研究院主管研究员

:man_technologist:t2: 嘉宾 简介:

谭旭,微软亚洲研究院主管研究员,研究领域包括深度学习、自然语言/语音/音乐、AI 内容生成等,在学术会议上发表论文 80 余篇。研发的机器翻译系统在 WMT 机器翻译比赛中获得多项冠军,研发的预训练语言模型 MASS、AI 音乐项目 Muzic 受到学界广泛关注。在语音合成和识别方面的研究成果(LRSpeech,FastSpeech 1/2,AdaSpeech,FastCorrect 1/2等)帮助微软 Azure 语音合成和识别服务提升产品体验。

:studio_microphone: 分享主题FastCorrect:语音识别快速纠错模型

:page_with_curl: 内容简介:

语音识别纠错通过检测并纠正语音识别结果中存在的错误,进一步提升识别准确率。目前,大部分纠错模型采用了基于注意力机制的自回归结构,延迟较高,影响模型线上部署。本次报告介绍一种低延迟、高精度的纠错模型 FastCorrect 系列,通过利用编辑对齐以及多个候选结果,在取得 10% 的词错误率下降的同时,将模型加速 6-9 倍,相关研究论文已被 NeurIPS 2021 和 EMNLP 2021 收录。

:video_camera: 视频回放:

<iframe frameborder="0" width="640" height="498" src="https://player.bilibili.com/player.html?aid=641639858&bvid=BV1JY4y1t7io&cid=722202340&page=1" allowfullscreen=""></iframe>

嘉宾二:
sdfgh

:man_technologist:t2: 嘉宾简介

冯建元,美国伊利诺伊理工学院博士,伊利诺伊大学芝加哥分校特聘研究员,Agora 音频体验算法专家,十年算法研究从业经验。先后主导过多个实时音频领域的开发项目包括国内首个 AI 音频编解码器 Sliver、实时美声音效系统、实时声纹变声、实时空间音频渲染等产品研发。极客时间《搞定音频技术》栏目讲师。目前负责 Agora 超高音质音频系统的设计与研发。

:studio_microphone: 分享主题Any to Any 实时变声的实现与落地

:page_with_curl: 内容简介:

随着 ASR、TTS 技术的演进, 语音识别的准确性和语音合成的自然度都有了极大的提升。这为高质量的实时变声的实现提供了可能。传统的变声利用包括变调效果器、均衡器等音效模块来调整语音的音色,但这种效果器的方式必须依赖手动调节通用性差、且变声效果不稳定。

而基于 ASR-TTS 架构的 AI 变声算法可以做到“Any to Any”(把任何人变成任何人)的自动变声同时又不会影响语音的可懂度。同时在 RTC 领域要求变声要有较高的实时性,端到端的延迟必须小于 1s,这对模型的算力和部署都提出了挑战。这次分享我们会围绕以下几个方面进行分享和讨论:

  1. 基于传统音效的变声算法的困境
  2. 实时变声算法的设计与思考
  3. 实时变声如何落地与应用

:video_camera: 视频回放:

<iframe frameborder="0" width="640" height="498" src="https://player.bilibili.com/player.html?aid=299156487&bvid=BV1LF411L7gq&cid=722237028&page=1" allowfullscreen=""></iframe>

嘉宾三:
hvuku
李田,数美科技 NLP 技术负责人

:man_technologist:t2: 嘉宾 简介:

李田,埃塞克斯大学大数据及文本分析硕士,现负责数美科技天净业务体系 NLP 技术落地,曾先后负责金融评分体系、语音产品孵化和优化、端到端音频事件监测,语音转录,文本语义模型,文本翻译, 模型加速等体系的开发和建设。拥有多年人工智能、机器学习、算法领域经验,在处理语音、文本、图像等场景下的实战经验颇丰。

:studio_microphone: 分享主题: 如何解决 Iterative 半监督训练在 ASR 训练中难以落地

:page_with_curl: 内容简介:

  1. 半监督训练在 ASR 领域的应用
  2. 半监督训练在 ASR 领域的进展和问题
  3. 我们半监督方案解决的问题
  4. Improved NIPL 解决方案

:video_camera: 视频回放:

<iframe frameborder="0" width="640" height="498" src="https://player.bilibili.com/player.html?aid=981710204&bvid=BV1Mt4y147Jx&cid=722251433&page=1" allowfullscreen=""></iframe>

合作伙伴

抽奖福利

相关专栏
RTC Dev Meetup
17 文章
本专栏仅用于分享音视频相关的技术文章,与其他开发者和声网 研发团队交流、分享行业前沿技术、资讯。发帖前,请参考「社区发帖指南」,方便您更好的展示所发表的文章和内容。