聆听天籁的背后,为你解读天籁AI语音辅听/增强算法

重磅功能来源:腾讯会议2022-03-03

3月3日爱耳日,中国联通联合腾讯会议旗下天籁实验室发布“畅听王卡升级版”,在语音通话和实时字幕双场景下,让听障用户不仅“听得清”,同时也能“看得清”。


在这背后,依托于天籁实验室专为听障人群打造的天籁AI语音辅听/增强算法,创造性地采用了“用增强语音的方式来做语音增强”,从腾讯会议实践出发,一路向善,不断地将技术价值向外延伸。



01

听得清=零噪声?


你可能也曾遇到过这样的场景:


在一个嘈杂的餐厅中,同桌的两人在专注地交谈,尽管周围噪声很大,但两人耳中只听到对方的说话声,似乎完全听不到谈话内容以外的各种噪音。


这是声学领域里常见的“鸡尾酒效应”。


事实上,不同频率声音的言语能量和可懂度有所不同,那怎么样的声音才能被“听得清”,继而能被“听得懂”呢?


不妨来听听这样一组声音。


语音A(原始带噪语音)



在波形上,能直观感受到有很强的风噪干扰。

在听感上,由于噪声干扰,语音可懂度非常低。




语音B(简单降噪逻辑处理后语音)



将语音A进行降噪处理后,波形变得非常干净。然而,声音的可懂度并没有提高。

简单降噪逻辑处理后的语音

音频:


00:00

00:02



简单的降噪逻辑虽然能够对噪声进行抑制,但这种做法破坏了语音结构,导致声音忽高忽低,语音的可懂度却没有获得提升。因此,语音增强和降噪,并不能划等号。



而对于听障人群来说,这个问题尤为关键。


相对来说,听障用户可感知的语音成分非常少,只能通过有限频段的感知,来获得语音的感知。若只采用简单的“降噪”思维来处理,往往会造成一种“噪声处理地太干净,但我反而听不清你在说什么”的窘境。


02

用增强语音的方式来做语音增强


这仿佛是个鱼与熊掌不可兼得的问题。


但回归人类听觉本质,问题似乎就能迎刃而解。


尽管人们对声音信号的感知和处理过程仍待探索,但有一件事情是清楚的:越能从接收的信号中准确提取语音成份,可懂度就越好。“于是我们想到了从“语音”,而非“噪声”的角度来切入处理。”天籁实验室研究人员说。


针对于听障用户的体验痛点,天籁实验室的研究人员创造性提出了用“增强语音”的方式来做“语音增强”的思路,并研发出天籁AI语音辅听/增强算法——cSENN (一种基于语音上下文关系深度学习的语音增强方法)。


天籁AI语音辅听/增强算法



通过天籁自主研发的AI算法识别出带噪语音里面的语音的成分,先用一种合理的方式将其保护起来,再对声学的噪声进行有效的抑制。


这个做法,在对背景干扰声做了有效的抑制的同时,也能保持较高的语音可懂度,让用户听得更清。


不妨来听听语音A经过天籁算法增强后的效果。


语音C(天籁技术增强后语音)



从波形上看,似乎跟简单“降噪”处理的效果差不多,但是明显地,增强后的语音保留得更好、输出语音平稳,同时把噪声抑制到理想水平。

天籁语音增强技术处理后语音

音频:


00:00

00:02



这项技术,也在腾讯天籁行动,被应用于中国联通畅听王卡中。


在“畅听王卡升级版”中,在天籁AI语音辅听/增强算法的加持下,用户将在语音沟通、实时字幕双场景下均获得更好的体验,实现典型噪音场景下单一字节言语识别率提升66%,和实时字幕别准确率提高5.5-9.9个百分点。


以下是一段实录视频:在上行发送端非常嘈杂的情况下,下行接收端的通话质量和字幕效果均表现优异。

注:下行端采取手机外放方式录屏,音频质量有影响


,时长


00:50



03

源自腾讯会议,一路向善


听得清、听得真,是腾讯会议致力于给用户提供的音频体验。


作为腾讯会议旗下的顶尖音频实时通信和处理研发团队,天籁实验室从腾讯会议的大量实践场景出发,此前基于上千小时的语音噪声数据,通过深度学习和AI算法,已经成功消除300多种环境噪声,并已成功应用在腾讯会议上。


此前,腾讯会议推出的个性化语音增强功能,也是天籁实验室在“用增强语音的方式来做语音增强”思路下的一个成功实践,能够在环境噪声消除的基础上,进一步消除周围人声的干扰,凸显主讲人的声音信号,仿佛一个“会找主人的麦克风”,打造更加干净、纯粹的沟通体验。


该技术的准确率在微软组织的ICASSP 2022 DNS个性化语音增强比赛评测中排名第一,MOS分相对微软提供的基准线高出0.57,相对处理前的语音MOS分高出1.41。






“腾讯天籁行动”正是天籁AI技术在听障领域应用的“技术价值外溢”, 为两亿腾讯会议用户提供会议降噪,在亿级产品上进行了成熟验证后,保障良好的视频会议体验的同时,践行腾讯科技向善理念,在技术公益领域探索,将技术用于人工耳蜗降噪、AI辅听和字幕识别优化等场景,解决社会问题,将社会责任真正融入产品及服务之中。


未来,天籁实验室也将持续保持开放,也期望有更多的伙伴加入我们,共同为广大用户打造更加纯净、高质的音频体验。


技术合作接入请联系:TEALab@tencent.com





天籁实验室

打造下一代实时音频端到端解决方案


订阅获取最新咨讯

点击“订阅获取最新资讯”按钮即表示您已同意腾讯会议通过邮件向您推送最新产品信息。查看腾讯会议隐私政策

阅读更多新闻