近日,2023年度“深圳人工智能奖”名单正式揭晓,腾讯会议天籁实验室凭借两项重磅研究成果《Penguins智能语音编解码器关键技术研究与应用》、《腾讯会议天籁音频技术通信平台》分别获得人工智能科技进步奖和人工智能行业应用奖。
“深圳人工智能奖”是由深圳市人工智能学会主办,为持续推进人工智能前沿基础理论和前沿技术研究,发挥人工智能技术在各行业领域的赋能作用,2023年9月至2024年4月,深圳市人工智能学会开展了2023 年度第三届“深圳人工智能奖”评选活动,历时8个月,经过专家评审团的严格评审和层层筛选,腾讯会议天籁实验室的两项研究成果从众多参选项目中脱颖而出,分别荣获得“深圳人工智能科技进步奖”和“深圳人工智能行业应用奖”。
本次天籁实验室荣获“深圳人工智能科技进步奖”的研究成果来自于腾讯首款自研的神经网络语音编解码器——Penguins。
在实时通信领域,如视频会议、网络通话、游戏连麦场景中,很容易受到网络信号差等因素的挑战,影响了用户体验。
传统的语音编解码器,包括AVS、ITU-T等标准语音编码器,在码率降低到10kbps以下时,语音质量下降明显,影响用户体验。为应对此挑战,腾讯会议天籁实验室联合腾讯AI Lab,推出的腾讯首款自研神经网络语音编解码器——Penguins。作为新一代的AI Codec,实现了6kbps下的高质量通话,在主观质量上也非常接近原始参考信号,媲美OPUS在20kbps的质量,主观质量对标传统编码的中高码率情况下,编码效率提升200-300%。
Penguins的研发,凝聚了腾讯会议天籁实验室长达5年的投入,从算法研究、工程化、产品化层面都做了开拓创新,将AI与传统技术紧密融合,形成了全新的方法论,打破了传统香农定律的性能极限,引入了大数据并在可控算力增量下提供了新的性能上界,从而对下一代通信系统,尤其是信源编码器部分,提供了新的技术基础和方法论。
2023年第85次AVS会议上正式立项了AVS3语音编码项目,由腾讯会议天籁实验室牵头,协同腾讯标准事务中心主导发起,并负责推进维护。随后在第 87 次 AVS 工作会议上,以Penguins为原型,腾讯侧提交的技术方案被选择为AVS3P10实时语音编码的RM0基线。经过多方测试验证,RM0代表了目前AI Codec的最高水平!这代表着,AVS3音频编解码标准又向前迈进了坚实的一步!
在今年3月举行的第88次AVS工作会议上,AVS3P10实时语音编码进入委员会草案阶段并输出CD1.0版本;这一里程碑的达成,标志着AVS3P10标准交付件趋于稳定。
除了网络的影响,线上会议也很容易周围环境声学因素的干扰,听不清是常有之事,导致双向沟通效率与质量的下降。
天籁实验室基于深度学习和AI算法,开拓性综合了前处理与后处理,在成功消除300多种环境噪声基础上,首创性推出基于声纹的个性化语音增强技术,进一步消除周围人声的干扰,凸显主讲人的声音信号。现在,该技术已成功应用在腾讯会议上。
该技术已多次在业界顶级比赛中证明实力:
➢ 在由微软举办的ICASSP 2023深度学习降噪挑战赛(DNS Challenge)中,天籁实验室联合西工大谢磊老师团队在头戴式设备(有线耳机、蓝牙耳机等)和非头戴式设备(扬声器、设备内置麦克风等)的个性化增强任务挑战中,项目组同时取得两个赛道的冠军!
➢ 2023语音信号质量增强挑战赛(SSIC)中,天籁实验室荣获SSIC全部两个赛道的冠军,并在降噪、混响、卡顿、响度、音质修复等多个子项均达到了领先水平!
➢ 2022年,天籁实验室在ICASSP DNS 2022 全频带实时个性化语音增强track 2比赛获得总分第一!
多次蝉联冠军,是天籁实验室在语音和音频方向多年研究能力的沉淀,也是团队服务腾讯会议亿级用户的实力体现。如今,该项技术荣获2023年度“深圳人工智能行业应用奖”,再次证明了领先技术与行业实践完美融合。
未来,天籁实验室将持续探索实时音频通信前沿技术,并将更多的研究成果应用到腾讯会议后续的音频质量提升中,进一步改善用户体验,打造“听得清、听得真”的极致体验。