用于音频编码中的DTX拖尾的方法和装置制造方法及图纸

技术编号:12248692 阅读:77 留言:0更新日期:2015-10-28 13:50
提供了用于音频编码的发送节点和接收节点及其中的方法。所述节点可操作以对话音进行编码/解码并且在话音非活动期间应用不连续传输(DTX)方案,该DTX方案包括发送/接收静音插入描述符(SID)帧。发送节点中的方法包括:从多个(N个)拖尾帧中确定代表背景噪声的帧集合Y,以及还向接收节点发送N个拖尾帧,所述N个拖尾帧至少包括所述帧集合Y。该方法还包括:与发送N个拖尾帧相关联地向接收节点发送第一SID帧,其中,第一SID帧包括向接收节点指示所确定的拖尾帧集合Y的信息。该方法使接收节点能够基于最适合于该目的的拖尾帧生成舒适噪声。

【技术实现步骤摘要】
【国外来华专利技术】
本文所述的解决方案大体上涉及音频编码,具体地,涉及与音频编码中的不连续传输(DTX)相关联的拖尾帧。
技术介绍
诸如3GPPAMR(3GPP TS 26.071)和 AMR-WB (3GPP TS 26.171)等的当前音频或话音编码标准以及各种ITU-T话音编码标准(例如,ITU-T推荐G.729、ITU-T推荐G.718)包括不连续传输方案(DTX),该不连续传输方案(DTX)在话音非活动期间暂停话音传输,并且取而代之地以与用于编码的活动话音的比特率和帧传输率相比明显降低的比特率和帧传输率来发送静音插入描述符(SID)帧。DTX的目的是提高传输效率,这进而减少了话音通信的成本和/或增加了给定通信系统中同时可能的电话连接的数量。当前最先进的利用DTX的通信系统在活动话音段期间发送常规话音编码帧。在诸如话音暂停等的非活动段期间,这些系统更确切地发送SID帧,接收机根据SID帧生成所谓的舒适噪声作为非活动信号的替代信号。为了实现最佳可能的DTX效率,可能期望仅在活动话音期间而非在非活动段期间(例如,在话音暂停期间)发送话音编码帧。为了对话音和非活动进行区分,在编码侧或发送侧使用语音活动检测器(VAD) ο在与活动话音段相对应的帧期间,提升(raise) 了 VAD标记。该构思实际上并且特别是在话音存在于背景噪声中的情形中,遭受VAD分类错误。也即是说,非活动时段被分类为活动话音时段,反之亦然。VAD的主要问题之一是话音结束点的检测,S卩,信号从活动话音改变为非活动的精确时间点。该问题的主要原因在于,在话音实际停止之前,很多话音偏移缓慢地衰减,使得聊天进发(talk spurt)结束可能非常好地被背景噪声覆盖。该问题的结果可能是这种话音偏移被分类为非活动,这可能导致未将相应的信号帧作为活动话音而是作为静音信号来编码、发送和重构,其中,针对该静音信号生成舒适噪声。这意味着话音偏移(话音时段的结束)可能被感知为截断的,这导致重构的话音的质量甚至可理解性显著下降。换言之,这可能导致较差的用户体验。诸如AMR和AMR-WB等的当前最先进的编解码器通过将利用舒适噪声合成的DTX操作的开始延迟到VAD检测偏移之后多个帧来解决该问题。这是使用编码器处的DTX控制逻辑来完成的,DTX控制逻辑延长或添加将输入信号作为活动话音编码(即使VAD标记指示非活动也是如此)的时间段。该时段被称作拖尾时段,并且在AMR和AMR-WB的情况下,拖尾时段的长度为7个帧。拖尾时段不仅用作用于避免话音后段(或偏移)截断的方式,而且还用作用于SID帧参数分析的方式。在AMR和AMR-WB的情况下,未发送(充分长的)聊天进发之后的第一 SID帧参数,而是由解码器根据在拖尾时段期间接收和存储的话音帧参数来计算该第一SID帧参数(3GPP TS 26.092 ;3GPP TS 26.192)。基于在拖尾时段期间接收的话音帧参数进行SID帧参数的计算的目的是节省传输资源(如果不这样的话,传输资源将花费在SID帧传输上)并且最小化潜在的传输错误对第一 SID帧参数的影响。在所述的最先进解决方案中描述的拖尾时段的主要问题是它折衷了 DTX方案的效率。将拖尾帧作为活动话音进行编码,而不论它们是否可能是非活动帧。如果话音在非活动时段之间包括频繁的单独聊天进发,则以高比特率将相当大量的帧作为话音帧而不是舒适噪声帧进行编码。如果缩短拖尾时段以提高DTX方案的效率,则可能出现相关问题。拖尾时段越短,它未正确地表示非活动噪声信号的可能性越大。这进而可能导致在聊天进发结束之后立即进行的舒适噪声合成的可听下降。在AMR和AMR WB中,编码器和解码器使用状态机来跟踪DTX拖尾帧,其中,状态机需要在编码器和解码器中是同步的。
技术实现思路
将期望在音频解码器侧生成代表音频编码器侧的背景噪声的舒适噪声。此外,期望仅使用最少的资源以高效的方式进行该操作。因此,本文所提出的解决方案的目的是使得能够生成代表编码器侧的背景噪声的舒适噪声并且使用有限数量的资源来进行该操作。本文所提出的解决方案提高了利用DTX进行话音传输的效率,而不会折衷聊天进发结束时的舒适噪声合成的质量。根据第一方面,提供了一种由发送节点或编码节点执行的方法。所述发送节点能够操作以对诸如话音等的音频进行编码并且与例如通信网络中的其他节点或实体进行通信。所述发送节点还能够操作以在话音非活动期间应用DTX方案,所述DTX方案包括发送SID帧。所述方法包括:从多个(N个)拖尾帧中确定代表背景噪声的帧集合Y。所述方法还包括:向接收节点发送所述N个拖尾帧,所述N个拖尾帧包括所述帧集合Y。所述方法还包括:与发送所述N个拖尾帧相关联地向所述接收节点发送第一 SID帧,其中所述SID帧包括向所述接收节点指示所确定的拖尾帧集合Y的信息。上述方法还包括:使所述接收节点能够基于所述拖尾帧集合Y来生成舒适噪声。根据第二方面,提供了一种由接收节点或解码节点执行的方法。所述解码节点能够操作以对诸如话音等的音频进行解码并且与例如通信网络中的其他节点或实体进行通信。所述解码节点还能够操作以在话音非活动期间应用DTX方案,所述DTX方案包括接收SID帧并且生成舒适噪声。所述方法包括:从发送节点接收N个拖尾帧。此外,与所述N个拖尾帧相关联地接收第一 SID帧。基于所接收的SID帧中的信息从所接收的多个(N个)拖尾帧中确定拖尾帧集合Y。此外,基于所述拖尾帧集合Y来生成舒适噪声。根据第三方面,提供了一种发送或编码节点。所述发送节点能够操作以对诸如话音等的音频进行编码并且能够操作以与例如通信网络中的其他节点或实体进行通信。所述发送节点还能够操作以在话音非活动期间应用DTX方案,所述DTX方案包括发送SID帧。所述发送节点包括处理装置(例如,采取处理器和存储器的形式),所述存储器包含能够由所述处理器执行的指令。所述处理装置能够操作以从多个(N个)拖尾帧中确定代表背景噪声的帧集合Y。所述处理装置还能够操作以向接收节点发送所述N个拖尾帧,所述N个拖尾帧包括所述帧集合Y ;以及还与发送所述N个拖尾帧相关联地向所述接收节点发送第一 SID帧,其中所述SID帧包括向所述接收节点指示所确定的拖尾帧集合Y的信息。根据第四方面,提供了一种接收节点或解码节点。所述接收节点能够操作以对诸如话音等的音频进行解码并且能够操作以与其他节点或实体进行通信。所述接收节点还能够操作以在话音非活动期间应用DTX方案,所述DTX方案包括接收SID帧。所述接收节点包括处理装置(例如,采取处理器和存储器的形式),所述存储器包含能够由所述处理器执行的指令。所述处理装置能够操作以:从发送节点接收N个拖尾帧;以及还与所述N个拖尾帧相关联地接收第一 SID帧。所述处理装置还能够操作以:基于所接收的SID帧中的信息从所述多个(N个)拖尾帧中确定拖尾帧集合Y;以及基于所述拖尾帧集合Y来生成舒适噪声。根据第五方面,提供了一种计算机程序,包括计算机程序代码,当所述计算机程序代码在发送节点中运行时,所述计算机程序代码使所述发送节点执行根据第一方面所述的方法。根据第六方面,提供了一种计算机程序,包括计算机程序代码,当所述计算机程序代码在接收节点中运行时,所述计算机程序代码使所述接收节点执行根据第本文档来自技高网
...

【技术保护点】
一种由发送节点(900、1000)执行的方法,所述节点能够操作以对话音进行编码并且在话音非活动期间应用不连续传输DTX方案,所述DTX方案包括发送静音插入描述符SID帧,所述方法包括:‑从N个DTX拖尾帧中确定(703a)代表背景噪声的帧集合Y;‑向接收节点发送(704a)所述N个拖尾帧,所述N个拖尾帧至少包括所述帧集合Y;‑与发送所述N个拖尾帧相关联地向所述接收节点发送(705a)第一SID帧,其中所述第一SID帧包括向所述接收节点指示所确定的拖尾帧集合Y的信息,从而使所述接收节点能够基于所述拖尾帧集合Y来生成舒适噪声。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:斯蒂芬·布鲁恩托马斯·詹森托夫特戈德马丁·绍尔斯戴德
申请(专利权)人:瑞典爱立信有限公司
类型:发明
国别省市:瑞典;SE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1