腾讯天籁主导的AVS3语音编码项目,已获得显著进展!

会议动态来源:腾讯会议2023-08-31

AVS公众号发布了《AVS3语音编码项目研究进展》,在8月的第86次AVS标准会议上,由腾讯会议天籁实验室牵头,协同腾讯标准事务中心产业与技术标准组,针对AVS3语音编码项目提交的技术方案,测试结果显示,在纯净语音场景、网络损伤场景等多场景下,能够实现极低码率下的高质量通话,向实现AVS3音频标准落地更近了一步!

关于AVS:

AVS是国内多媒体领域最重要的标准化组织。2002年6月,国家原信息产业部科学技术司批准成立了数字音视频编解码技术标准工作组(AVS),面向我国的信息产业需求,联合国内企业和科研机构,制(修)订数字音视频的压缩、解压缩、处理和表示等共性技术标准。其中,AVS音频组负责组织制定音频编码技术标准。当前,AVS标准已经演进到第三代。

腾讯天籁主导立项AVS3语音编码项目

如今,实时语音通信技术(RTC: Real-time Communication)已广泛应用于在线会议、互动娱乐、社交等众多领域。在日常的视频会议、网络通话、游戏连麦场景中,经常受到来自复杂声学环境、接入设备的性能、网络信号差等因素的挑战,影响了用户体验。因此,在语音编码中,实现高质量、低延时、低带宽、高抗性是关键的一环。

今年的第85次AVS会议上,正式立项了AVS3语音编码项目,并通过AVS音频组发出技术征集书;该项目预计明年中完成。该项目由腾讯会议天籁实验室主导发起,并负责推进维护。目前,腾讯侧提交的技术方案已获得显著进展。

Penguins

腾讯首款自研神经网络语音编解码器

本次AVS会议,腾讯侧提交的技术方案,来自于腾讯首款自研神经网络语音编解码器Penguins。

传统的语音编解码器,包括AVS、ITU-T等标准语音编码器,在码率降低到10kbps以下时,语音质量下降明显,影响用户体验。

为应对此挑战,腾讯会议天籁实验室联合腾讯AI Lab,推出的腾讯首款自研神经网络语音编解码器——Penguins。作为新一代的AI Codec,实现了6kbps下的高质量通话,在主观质量上也非常接近原始参考信号,媲美OPUS在20kbps的质量。

Penguins作为新一代AI codec,不仅能够将编解码效率提升300%,还充分考虑到了用户体验与使用场景,尽可能地降低码率和算力,维持与现有编码器同等音质的同时,普惠更多的接入机型。当前,Penguins已经在腾讯会议(驾驶模式、弱网模式等)和QQ等多个产品中规模应用,支持亿级用户的顺畅沟通。

此外,在保证高质量的前提下,更低码率的新一代编码器,在网络不佳时,会体现出极大的竞争力,比如降低网络损伤情况下的卡顿率,提升通话的流畅度和清晰度等。因此,Penguins可以相对传统编码器,可适应更多复杂的场景。

随着实时音视频通信技术的应用场景不断深入,对音频编解码也将提出更高的要求。腾讯首款自研神经网络语音编解码器Penguins,已经在多个场景下证明了,基于AI等新方法论的加持和工程方面的极致优化,低码率、高质量语音编码器具备很好的实用性。

后续,围绕AVS3语音编码标准项目的要求,我们将联合AVS音频组的专家,一起推动AVS3语音编码项目,进一步提升行业领域应对语音通信挑战的能力。让我们一起期待AVS3语音编码标准的落地!

更多AVS3语音编码项目研究进展,也欢迎到AVS公众号了解。

订阅获取最新咨讯

点击“订阅获取最新资讯”按钮即表示您已同意腾讯会议通过邮件向您推送最新产品信息。查看腾讯会议隐私政策

阅读更多新闻