腾讯天籁亮相 ICASSP 2022,实时音频通信创新技术引关注

会议动态来源:腾讯会议2022-10-31

10月27-28日,国际语音技术领域顶级会议 ICASSP 2022 采用线上线下相结合形式于深圳举行。腾讯会议天籁实验室携前沿的实时音频通信创新技术重磅亮相ICASSP大会,与全球众多行业专家、学者探讨技术、产业发展趋势,交流最新成果。

作为IEEE(电气电子工程师学会)主办的全球规模最大、最全面的信号处理及其应用方面的顶级会议,ICASSP在国际上享有盛誉并具有广泛的学术影响力。

天籁实验室作为腾讯会议旗下顶尖的实时音频处理团队,研究工作覆盖多样化拾音环境、声学干扰、网络质量、终端设备能力参差不齐等不同场景下的声学挑战,在本次 ICASSP 上分享了基于个人移动及会议室远场拾音场景下的前瞻性探索研究,打造“听得见、听得清、听得真”的极致音频体验。


一、基于声纹的个性化语音增强技术

随着混合式办公的普及,降噪技术在不同场景下的研究也愈发引起了关注,比如在嘈杂的机场或咖啡厅里进行线上会议,噪声消除对提升沟通质量至关重要。

天籁实验室此前基于上千小时的语音噪声数据,通过深度学习和AI算法,已经成功消除300多种环境噪声,并已成功应用在腾讯会议上。

在此基础上,天籁团队首创性推出了基于声纹的个性化语音增强技术,率先应用在腾讯会议iOS客户端上,能够模拟人类听觉注意机制,构建起一个在多人会话和复杂的背景噪音中、只关注目标说话人声音的自动化系统,仿佛一个“会找主人的麦克风”,能够在环境噪声消除的基础上,抑制周围人声的干扰,突显主讲人的声音信号。

 


该项技术已在ICASSP、DNS等会议上发表多篇论文,在 ICASSP 2022 DNS 比赛中获得个性化语音增强 Track 2 总分第一,在音质和识别率两个核心单项指标上都分别达到了最好的水平。


二、Penguins低码率高清语音编解码器

Penguins是腾讯首个自主知识产权的音频编解码解决方案,由腾讯会议天籁实验室与腾讯AI Lab联合研发。Penguins低码率高清语音编解码器,有效解决因弱网引起的延时、卡顿、听不清等问题,可将编码效率提升300%,实现6-10kps下高质量语音通话,覆盖宽带和超宽带语音业务。当前该技术已应用于腾讯会议驾驶模式中。


 

三、智能语音识别与翻译

会议场景下,实时语音转文字有助于辅助内容理解,提升协作效率。

为此,基于天籁团队的语音增强的前处理技术,以及与腾讯内部ASR,OCR oteam联合打造的多模态、多语种、快速实时字幕和离线纪要识别能力,腾讯会议推出了实时多语种字幕和转写功能,并能实现实时语音翻译,提供“快”、“准”、“稳”的体验。保证即便在噪声干扰下,也能准确识别,尤其是中英混,长段落发言也能快速识别。更可以实现多模态,定制化识别。在快速识别过程中,吐字过程平稳输出,且实时根据上下文自动修正。


四、腾讯天籁inside音频解决方案

腾讯天籁inside音频解决方案着力于解决远场双工通信的挑战,在空间拾音播音、噪声消除、回声消除等方面突破创新,可实现全空间均匀覆盖式均匀拾音,让会议室硬件设备如同装上“顺风耳”一般,打造高清、纯净、流畅的音频体验。

 


天籁实验室的研究成果也获得了众多权威认可,凭借在实时音频通信技术方面的前瞻性探索与丰富的应用实践,连续两年获得中国国际大数据产业博览会的“领先科技成果”奖。

此外,天籁实验室也积极在技术公益领域探索,发起“腾讯天籁行动”,将技术用于人工耳蜗降噪、AI辅听和字幕识别优化等场景,解决社会问题,将社会责任真正融入产品及服务之中。目前,腾讯天籁行动已获得2022年IDC亚太区智慧城市大奖(中国区)、第二十届中国互联网大会“互联网创新之星”等多项荣誉。

未来,天籁实验室将持续打磨技术、产品,为广大用户提供“听得清、听得真”的音频体验,欢迎广大合作伙伴与我们共创数字时代的美好未来。

订阅获取最新咨讯

点击“订阅获取最新资讯”按钮即表示您已同意腾讯会议通过邮件向您推送最新产品信息。查看腾讯会议隐私政策

阅读更多新闻