从一项技术,到一代标准!

会议动态来源:腾讯会议2024-06-27

以前线上开会、打语音电话时,多多少少经历过这种尴尬:

-坐高铁过隧道的时候,信号总容易断

-每次走进电梯,声音免不了会卡住一小会

自上线以来,腾讯会议就决定了和隧道、停车场、电梯等弱网环境硬磕到底,并推出了腾讯首款自研神经网络语音编解码器Penguins AI语音引擎,提升弱网环境下的通话质量。

如今,这项经过亿级用户稳定使用验证的前沿技术,也走出了“厂门”,为行业技术迭代贡献一份力量:

腾讯主导的新一代实时语音编码行业标准AVS3P10完成定稿,即将正式对外发布。此次AVS音频组AVS3P10标准采纳的腾讯侧方案,就是以腾讯会议Penguins AI语音引擎为原型

点击查看AVS官方报道

作为全球首个系统性引入人工智能并实现真正意义上的低码率下高质量语音编码标准,表现达到国际一流水准。仅需1/3的编码码率,就能实现和现有主流标准同等清晰的音质。经过多轮交叉验证,AVS项目组得出结论:AVS3P10代表了目前AI Codec的最高水平

读起来有点神秘?

简单来说:即使网络卡如2G,也能顺畅开会!

你开会时说的每句话,在传输时都要经历这些环节:

①语音转化为数字信号→②在发送端“编码”→③传输过去→④到接收端“解码”→⑤将数字信号转换成声波。

想要能随时随地能听歌、打语音、看视频,起到“压缩”作用的编解码是其中关键。如果不经“压缩”就直接传输,音频体积很大,传输时拥塞是难免的。

现在,评价一项编解码技术是否足够牛,重点就看压缩率和质量保障:

把音频体积压缩数十倍后,看音频质量有没有损伤、会不会影响理解。

过去几十年,行业奔着极致效果不断突破,也形成了一系列编解码标准。

然而,它们仍然会受到物理世界的基本限制:

根据香农定律,当码率降到一定水平时,同一种编解码技术无论如何优化,都难以在保持信号质量的同时进一步压缩数据。

当码率降到10kbps以下,即使是当前行业最主流的编解码标准,也难以把关键细节恢复出来。

如果不能进一步提升压缩率,到了类2G的的弱网环境:比如隧道、电梯、地库里,仍然会卡顿、听不清。

虽然,「卡」的原因不在腾讯会议——

但相比起被动接受,我们选择主动压缩自己。

从2020年起,我的工程师同事们就在向着这个难题发起冲击:

如何让编解码效率再上一个台阶,网络再差也能流畅开会?

为了解决这件事,腾讯会议天籁实验室和腾讯AI Lab自研了音频编解码器Penguins。它的本质,是一套能更高效捕捉核心特征以及重建语音信号的算法。

通过引入AI深度学习网络,在发送端,将语音信号建模,只编码核心特征参数;到接收端,通过AI预测和还原,重建高质量的语音信号,恢复出同等清晰的最终波形。

有了Penguins编解码器,仅需1/3的数据量,就能传输同等质量的声音,大幅降低对网络的要求。主观质量对标传统编码的中高码率情况下,编码效率提升200-300%

这几年,Penguins逐步落地到腾讯会议的驾驶模式、弱网模式中,也被QQ等更多鹅厂自研产品pick,至今已服务亿级用户。

实际上,弱网环境下的通话挑战,除了线上会议场景,在更多音频传输的场景中也存在。

我们希望,让好技术走出去,服务于行业,共同成长。

从去年3月起,腾讯会议天籁实验室联合腾讯知识产权部在AVS音频组主动提议并参与标准制定,即AVS3P10实时语音编码标准。随后,腾讯提交基于Penguins候选技术,经过AVS音频组交叉验证后采纳。本月,AVS3P10实时语音编码标准已正式完成标准化工作。

以Penguins为原型的新一代实时语音编码行业标准AVS3P10,得到的评价是:标准制定速度最快,标准交付质量最高,测试非常充分。

AVS是国内多媒体领域最重要的标准化组织。2002年6月,国家原信息产业部科学技术司批准成立了数字音视频编解码技术标准工作组(AVS),面向我国的信息产业需求,联合国内企业和科研机构,制(修)订数字音视频的压缩、解压缩、处理和表示等共性技术标准。经过多年发展,AVS对推动技术创新、推动行业生态建设做出了卓越贡献。

其中,AVS音频组负责组织制定音频编码技术标准。当前,AVS标准已经演进到第三代。

编解码技术、音频降噪算法、语音增强技术…过去这些年,腾讯会议天籁实验室持续打磨一场会背后的每个技术细节,已经形成了一套全球领先的实时音频通信端到端解决方案。

我们希望,这些更好的技术不仅能服务每一位腾讯会议的用户,也为更多场景带来改变。

订阅获取最新咨讯

点击“订阅获取最新资讯”按钮即表示您已同意腾讯会议通过邮件向您推送最新产品信息。查看腾讯会议隐私政策

阅读更多新闻