2020年,突如其来的疫情让数字通信成为了人与人沟通的重要手段,海量的沟通需求为实时音视频通信(RTC)的稳定性和通讯效果带来了极大考验。
为此,腾讯会议旗下腾讯天籁实验室发布《音频联合信源信道编码技术白皮书》,可以有效解决弱网条件下声音卡顿、不连续等问题,让用户在使用腾讯会议时,享受到优质的音频体验。
腾讯天籁
腾讯天籁是腾讯会议旗下腾讯天籁实验室推出的新一代实时音频解决方案,也是腾讯会议背后的关键技术,致力于让用户在实时音视频会议中可以“听得见、听得清、听得真”。
腾讯会议通过嵌入腾讯天籁技术,解决了实时音视频会议场景下的各种挑战,包括接入设备的差异性、接入场景的复杂化、通话环境的多样化、多人同场地通话、噪声消除,以及网络环境的稳定性等等。
目前,腾讯天籁技术已经在腾讯会议、企业微信群直播应用中落地,助力相关应用在音视频体验方面取得了良好的用户口碑。未来,腾讯天籁技术也将接入腾讯旗下金融、政务、教育等行业场景下的实时音视频需求。
为了带大家更好地了解联合信源信道编码技术,会议君邀请到了腾讯天籁实验室的音频专家Dennis来做进一步的介绍。
Q
联合信源信道编码技术要解决的问题是什么?
Dennis:主要解决用户在实时音视频通信中的卡顿等问题,比如用户在使用腾讯会议时,当网络条件不好时,可能会觉得对方声音有点卡顿,或者是声音不连续,这会极大地影响双方沟通的效率和体验。究其原因,就是语音数据包在传输过程中发生了丢包;信息的缺失导致了声音不连续,就会导致卡顿、听不清的现象。
Q
可是现在5G技术逐渐普及了,为什么传输效果还不能保证呢?
Dennis:这得从RTC的处理链条开始说起,RTC是一个复杂的链式系统,以单侧的发送端到接收端通信为例,要经过采集、前处理、编码、传输、解码、增强、回放等多个阶段,每个阶段都会影响最终体验。
从端到端的角度,影响通话体验的因素,可以分成信源和信道(链路)两个部分。
信源部分,主要干扰因素是声学侧的噪声、回声等物理特征;一般地,通过优化音频信号处理方案(包括结合深度学习技术等)可以进行质量保证。
而如果说,信源决定最终体验的上界,信道则决定了体验“打折”后的上界。换言之,采集端非常好的质量,只有完整地传输到接收端,用户才能获得高质量体验;否则,如果中间数据包丢失了,就会发生上面提到声音卡顿等现象。
Q
那要怎么解决传输过程中的丢包问题呢?
Dennis:在揭晓谜底前,我先给大家打个比方。
比如我们网购一件小商品,等了2天收到货后发现有小瑕疵,跟客服沟通免费换货。这时我们需要将有瑕疵的商品寄回给商家,最后商家再将无质量问题的商品再发回给用户整个过程总共要6天时间,是不是效率上偏低了?这个故事实际就是在描述RTC场景中,解决网络丢包造成的声音卡顿问题的“带外”方案。
所谓的“带外”策略,就是一旦发生了包丢失,需要通过带外FEC和ARQ重传,恢复出丢失包。这里涉及发送和接收两端的“交互”作用,一来一回,再加上IP网络的不确定性,延时会比较大。延时是影响体验的重要因素,若延时过大,双向通话的连续性不存在了。
“带外”策略
除此之外,还有另外一种解决方案——“带内”策略。第T+1包除了封装第T+1帧的内容之外,还包含第T帧的内容;这样,数据包自带了“纠错”能力。这样,收到第T+1包时,先恢复第T帧数据;如果发现第T帧信息丢失,顺便也恢复了第T帧信息。
“带内”策略
与“带外”策略相比,“带内”策略可以大量节约发送和接收两端的“交互”时长,有效地降低端到端的通话时延,提升体验。
然而,“带内”策略也不能完美地解决所有问题。采用“带内”策略时,每个数据包含了当前帧和历史帧信息,这要占用带宽成本,因此不能无限制地加,而当网络条件进一步恶化时(比如,丢包率进一步增加),光靠“带内”策略恢复的质量也并不理想。
Q
有把两种策略的优势都结合在一起的办法吗?
Dennis:有的,这就是腾讯天籁的联合信源信道编码技术,我们采用的是cFEC+ cPLC结合的方式。
cFEC
首先,我们优化了“带内”策略。前面提到,不能无限制加“带内”策略,于是我们转为提升带宽利用率,让“带内”策略更好地发挥作用。我们称之为腾讯天籁cFEC方案。
通过算法人员的优化,用户在使用腾讯会议时,在更高丢包率情况下,仍然可以享受高质量语音通话。
上图是cFEC与业界公认的OPUS原生FEC的效果比较。所有测试条件下,MOS质量分,cFEC均有显著优势。
我们以40%丢包率为例,来看看自研cFEC技术,相对现有技术,在抗性提升的效果。下面分别有男女声两个音频,每个音频的前一段为OPUS原生技术处理结果,后一段为cFEC处理结果。
女声-40%丢包率下,cFEC与OPUS原生技术效果对比
男声-40%丢包率下,cFEC与OPUS原生技术效果对比
从主观体验看,cFEC处理后的语音质量和连续性是非常显著的。
第二,腾讯天籁针对IP网络常见的“突发丢包”进行了优化。一般地,中国人的说话速度是每秒钟4-5个字。因此,如果连续丢包100ms以上,半个字的内容无法正常收听,这会影响双向通话的体验。虽然,我们使用了各种“带外”和“带内”方法,对于“突发丢包”,仍然是无法保障体验的。
腾讯天籁提出的cPLC方案,通过对声音信号进行分析和深度学习网络,一旦发生这种连续丢包的情况,仍然可以恢复出一定质量语音,保障了双向通话的持续性。
上图展示了离散丢包和突发丢包场景下,cPLC与业界公认的OPUS原生PLC的补偿效果。
实验结果表明,在所有测试条件下,cPLC在质量上均优于OPUS原生PLC技术。特别地,在突发丢包场景下,cPLC的优势更为明显。
Q
感谢Dennis,那现在音频联合信源信道编码技术已经应用了吗?效果如何呢?
Dennis:有了腾讯天籁研发的新技术后,我们的工程师将各种“带外”、“带内”方法有机结合,作为联合信源信道编码技术,目前已在腾讯会议中应用。
通过测试,在各种网络传输条件下,保障了用户语音通信的体验。特别地,通过新的技术,进一步降低了通话时延40-60ms,进一步提升了用户体验。
基于腾讯天籁技术,腾讯会议不断优化用户使用体验,让用户听得见、听得清、更听得真。