音频处理方法、装置、设备、存储介质及计算机程序产品制造方法及图纸

技术编号:35063123 阅读:16 留言:0更新日期:2022-09-28 11:18
本申请提供了一种音频处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品;方法包括:对音频信号进行多通道信号分解处理,得到音频信号的N个子带信号,其中,N为大于2的整数,N个子带信号的频段依次递增;对每个子带信号进行信号压缩处理,得到每个子带信号的子带信号特征;对每个子带信号的子带信号特征进行量化编码处理,得到每个子带信号的码流。通过本申请,能够提高音频编码效率。能够提高音频编码效率。能够提高音频编码效率。

【技术实现步骤摘要】
音频处理方法、装置、设备、存储介质及计算机程序产品


[0001]本申请涉及数据处理技术,尤其涉及一种音频处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

技术介绍

[0002]音频编解码技术是包括远程音视频通话在内的通信服务中的一项核心技术。语音编码技术,简单讲,就是使用较少的网络带宽资源去尽量多的传递语音信息。从香农信息论的角度来讲,语音编码是一种信源编码,信源编码的目的是在编码端尽可能的压缩我们想要传递信息的数据量,去掉信息中的冗余,同时在解码端还能够无损(或接近无损)的恢复出来。
[0003]然而,对于如何在保证音频质量的情况下,有效提高音频编码的效率,相关技术尚无有效的解决方案。

技术实现思路

[0004]本申请实施例提供一种音频处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够在保证音频质量的情况下,提高音频编码效率。
[0005]本申请实施例的技术方案是这样实现的:
[0006]本申请实施例提供一种音频处理方法,包括:
[0007]对音频信号进行多通道信号分解处理,得到所述音频信号的N个子带信号,其中,所述N为大于2的整数,所述N个子带信号的频段依次递增;
[0008]对每个所述子带信号进行信号压缩处理,得到每个所述子带信号的子带信号特征;
[0009]对每个所述子带信号的子带信号特征进行量化编码处理,得到每个所述子带信号的码流。
[0010]本申请实施例提供一种音频处理方法,包括:
[0011]对N个码流进行量化解码处理,得到每个所述码流对应的子带信号特征;
[0012]其中,所述N为大于2的整数,所述N个码流是对音频信号经过多通道信号分解处理后得到的N个子带信号分别进行编码得到的;
[0013]对每个所述子带信号特征进行信号解压处理,得到每个所述子带信号特征对应的估计子带信号;
[0014]对多个所述估计子带信号进行信号合成处理,得到所述多个码流对应的合成音频信号。
[0015]本申请实施例提供一种音频处理装置,包括:
[0016]分解模块,用于对音频信号进行多通道信号分解处理,得到所述音频信号的N个子带信号,其中,所述N为大于2的整数,所述N个子带信号的频段依次递增;
[0017]压缩模块,用于对每个所述子带信号进行信号压缩处理,得到每个所述子带信号
的子带信号特征;
[0018]编码模块,用于对每个所述子带信号的子带信号特征进行量化编码处理,得到每个所述子带信号的码流。
[0019]本申请实施例提供一种音频处理装置,包括:
[0020]解码模块,用于对N个码流进行量化解码处理,得到每个所述码流对应的子带信号特征;
[0021]其中,所述N为大于2的整数,所述N个码流是对音频信号经过多通道信号分解处理后得到的N个子带信号分别进行编码得到的;
[0022]解压模块,用于对每个所述子带信号特征进行信号解压处理,得到每个所述子带信号特征对应的估计子带信号;
[0023]合成模块,用于对多个所述估计子带信号进行信号合成处理,得到所述多个码流对应的合成音频信号。
[0024]本申请实施例提供一种用于音频处理的电子设备,所述电子设备包括:
[0025]存储器,用于存储可执行指令;
[0026]处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的音频处理方法。
[0027]本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的音频处理方法。
[0028]本申请实施例提供一种计算机程序产品,包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现本申请实施例提供的音频处理方法。
[0029]本申请实施例具有以下有益效果:
[0030]通过将音频信号分解为多个子带信号,对子带信号进行差异化的信号处理,并对减小了特征维度的子带信号特征进行量化编码,从而在保证音频质量的情况下,提高音频编码效率。
附图说明
[0031]图1是本申请实施例提供的不同码率下的频谱比较示意图;
[0032]图2是本申请实施例提供的音频编解码系统的架构示意图;
[0033]图3是本申请实施例提供的电子设备的结构示意图;
[0034]图4是本申请实施例提供的音频处理方法的流程示意图;
[0035]图5是本申请实施例提供的音频处理方法的流程示意图;
[0036]图6是本申请实施例提供的端到端的语音通信链路示意图;
[0037]图7是本申请实施例提供的基于子带分解和神经网络的语音编解码方法的流程示意图;
[0038]图8A是本申请实施例提供的滤波器组示意图;
[0039]图8B是本申请实施例提供的基于滤波器组得到4通道的子带信号的原理示意图;
[0040]图8C是本申请实施例提供的基于滤波器组得到3通道的子带信号的原理示意图;
[0041]图9A是本申请实施例提供的普通卷积网络的示意图;
[0042]图9B是本申请实施例提供的空洞卷积网络的示意图;
[0043]图10是本申请实施例提供的频带扩展的示意图;
[0044]图11是本申请实施例提供的通道分析的网络结构图;
[0045]图12是本申请实施例提供的通道合成的网络结构。
具体实施方式
[0046]为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
[0047]在以下的描述中,所涉及的术语“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
[0048]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
[0049]对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
[0050]1)神经网络(NN,Neural Network):是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
[0051]2)深度学习(DL,Deep Learning):是机器学习(ML,Machine Learning)领域中一个新的研究方向,深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法,其特征在于,所述方法包括:对音频信号进行多通道信号分解处理,得到所述音频信号的N个子带信号,其中,所述N为大于2的整数,所述N个子带信号的频段依次递增;对每个所述子带信号进行信号压缩处理,得到每个所述子带信号的子带信号特征;对每个所述子带信号的子带信号特征进行量化编码处理,得到每个所述子带信号的码流。2.根据权利要求1所述的方法,其特征在于,每个所述子带信号的子带信号特征的特征维度与每个所述子带信号的频段非正相关,第N个子带信号的子带信号特征的特征维度小于第一个子带信号的子带信号特征的特征维度。3.根据权利要求1所述的方法,其特征在于,所述多通道信号分解处理是通过多层二通道子带分解实现的;所述对音频信号进行多通道信号分解处理,得到所述音频信号的N个子带信号,包括:对所述音频信号进行第一层的所述二通道子带分解处理,得到所述第一层的低频子带信号以及所述第一层的高频子带信号;对第i层的子带信号进行第i+1层的所述二通道子带分解处理,得到所述第i+1层的低频子带信号以及所述i+1层的高频子带信号;其中,所述第i层的子带信号为所述第i层的低频子带信号,或所述第i层的高频子带信号和所述第i层的低频子带信号,所述i为递增的自然数且取值范围为1≤i<N;将最后一层的子带信号以及每一层中未进行所述二通道子带分解处理的高频子带信号,作为所述音频信号的子带信号。4.根据权利要求3所述的方法,其特征在于,所述对所述音频信号进行第一层的所述二通道子带分解处理,得到所述第一层的低频子带信号以及所述第一层的高频子带信号,包括:对所述音频信号进行采样处理,得到采样信号,其中,所述采样信号包括采样得到的多个样本点;对所述采样信号进行所述第一层的低通滤波处理,得到所述第一层的低通滤波信号;对所述第一层的低通滤波信号进行下采样处理,得到所述第一层的低频子带信号;对所述采样信号进行所述第一层的高通滤波处理,得到所述第一层的高通滤波信号;对所述第一层的高通滤波信号进行下采样处理,得到所述第一层的高频子带信号。5.根据权利要求1所述的方法,其特征在于,所述对每个所述子带信号进行信号压缩处理,得到每个所述子带信号的子带信号特征,包括:针对任意所述子带信号执行以下处理:调用所述子带信号对应的第一神经网络模型;通过所述第一神经网络模型对所述子带信号进行特征提取处理,得到所述子带信号的子带信号特征;其中,所述第一神经网络模型的结构复杂度与所述子带信号的子带信号特征的维度正相关。6.根据权利要求5所述的方法,其特征在于,所述通过所述第一神经网络模型对所述子带信号进行特征提取处理,得到所述子带信号的子带信号特征,包括:
通过所述第一神经网络模型对所述子带信号执行以下处理:对所述子带信号进行卷积处理,得到所述子带信号的卷积特征;对所述卷积特征进行池化处理,得到所述子带信号的池化特征;对所述池化特征进行下采样处理,得到所述子带信号的下采样特征;对所述下采样特征进行卷积处理,得到所述子带信号的子带信号特征。7.根据权利要求1所述的方法,其特征在于,所述对每个所述子带信号进行信号压缩处理,得到每个所述子带信号的子带信号特征,包括:对前k个子带信号分别进行特征提取处理,得到所述前k个子带信号分别对应的子带信号特征;对后N

k个子带信号分别进行频带扩展处理,得到所述后N

k个子带信号分别对应的子带信号特征;其中,所述k为整数且取值范围为1<k<N。8.根据权利要求7所述的方法,其特征在于,所述对后N

k个子带信号分别进行频带扩展处理,得到所述后N

k个子带信号分别对应的子带信号特征,包括:针对所述后N

k个子带信号中的任意所述子带信号执行以下处理:基于所述子带信号包括的多个样本点进行频域变换处理,得到所述多个样本点分别对应的变换系数;将所述多个样本点分别对应的变换系数划分为多个子带;对每个所述子带包括的变换系数进行均值处理,得到每个所述子带对应的平均能量,并将所述平均能量作为每个所述子带对应的子带谱包络;将所述多个子带分别对应的子带谱包络确定为所述子带信号对应的子带信号特征。9.根据权利要求8所述的方法,其特征在于,所述基于所述子带信号包括的多个样本点进行频域变换处理,得到所述多个样本点分别对应的变换系数,包括:获取参考音频信号的参考子带信号,其中,所述参考音频信号是与所述音频信号相邻的音频信号,所述参考子带信号与所述子带信号的频段相同;基于所述参考子带信号包括的多个样本点以及所述子带信号包括的多个样本点,对所述子带信号包括的多个样本点进行离散余弦变换处理,得到所述子带信号包括的多个样本点分别对应的变换系数。10.根据权利要求1所述的方法,其特征在于,所述对每个所述子带信号的子带信号特征进行量化编码处理,得到每个所述子带信号的码流,包括:对每个所述子带信号的子带信号特征进行量化处理,得到所述子带信号特征的索引值;对所述子带信号特征的索引值进行熵编码处理,得到所述子带信号的子码流。11.一种音频处理方法,其特征在于,所述方法包括:对N个码流进行量化解码处理,得到每个所述码流对应的子...

【专利技术属性】
技术研发人员:王蒙肖玮康迂勇黄庆博史裕鹏
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1