腾讯天籁荣获2022年度声学楼论坛音频行业技术创新大奖

会议动态来源:腾讯会议2022-11-10

11月5-6日,2022国际音频技术博览会暨声学楼十七周年年会在深圳顺利举行,众多行业技术专家齐聚现场,通过主旨演讲等多种方式,为上千位专业技术观众带来行业前瞻性展望。

声学楼论坛作为国内音频技术领域专业等级最高、历史最悠久、用户量最多、覆盖面最广、深受行业关注与高度认同的声学技术交流平台之一,致力于展现全球声学领域的最新技术与应用,与中国音频产业共同成长十七年。

腾讯会议天籁实验室主任商世东受邀出席活动并分享了团队基于个人移动及会议室远场拾音场景下的前瞻性探索成果。

作为腾讯会议旗下顶尖的实时音频处理团队,天籁实验室的研究工作聚焦在拾音环境、声学干扰、网络质量、终端设备能力参差不齐下的多场景声学挑战,为用户打造“听得见、听得清、听得真”的极致音频体验。


一、基于声纹的个性化语音增强技术

基于声纹的个性化语音增强技术由天籁团队首创性推出,能够模拟人类听觉注意机制,构建起一个在多人会话和复杂的背景噪音中、只关注目标说话人声音的自动化系统,仿佛一个“会找主人的麦克风”,能够在环境噪声消除的基础上,抑制周围人声的干扰,突显主讲人的声音信号。

此前,基于上千小时的语音噪声数据,通过深度学习和AI算法,天籁团队研究成果已成功消除300多种环境噪声,并已成功应用在腾讯会议上。



二、Penguins低码率高清语音编解码器

Penguins低码率高清语音编解码器,有效解决因弱网引起的延时、卡顿、听不清等问题,这是腾讯首个自主知识产权的音频编解码解决方案,由腾讯会议天籁实验室与腾讯AI Lab联合研发。

该项技术可将编码效率提升300%,实现6-10kps下高质量语音通话,覆盖宽带和超宽带语音业务。当前该技术已应用于腾讯会议驾驶模式中。



三、智能语音识别与翻译

会议场景下,实时语音转文字有助于辅助内容理解,提升协作效率。

为此,基于天籁团队的语音增强的前处理技术,以及与腾讯内部ASR,OCR oteam联合打造的多模态、多语种、快速实时字幕和离线纪要识别能力,腾讯会议推出了实时多语种字幕和转写功能,并能实现实时语音翻译,提供“快”、“准”、“稳”的体验。保证即便在噪声干扰下,也能准确识别,尤其是中英混,长段落发言也能快速识别。更可以实现多模态,定制化识别。在快速识别过程中,吐字过程平稳输出,且实时根据上下文自动修正。


下面一起来看看效果演示:



四、腾讯天籁inside音频解决方案

为解决会议室场景下远场双工通信的挑战,腾讯天籁inside音频解决方案在空间拾音播音、噪声消除、回声消除等方面突破创新,可实现全空间均匀覆盖式均匀拾音,为会议室“装上顺风耳”,并首创采用了时钟协同深度学习回声消除技术,有效解决多源多径回声消除难题,实现双讲通透无剪切,无回声泄露,无近端语音抑制,打造高清、纯净、流畅的音频体验。



凭借在实时音频通信方面的突出研究成果,腾讯天籁也荣获了2022年度声学楼论坛音频行业技术创新大奖。

未来,天籁实验室将持续打磨技术、产品,为广大用户提供“听得清、听得真”的音频体验,欢迎广大合作伙伴与我们共创数字时代的美好未来。

订阅获取最新咨讯

点击“订阅获取最新资讯”按钮即表示您已同意腾讯会议通过邮件向您推送最新产品信息。查看腾讯会议隐私政策

阅读更多新闻