音频编码方法技术

技术编号:39717350 阅读:11 留言:0更新日期:2023-12-17 23:24
本申请提供了一种音频编码方法

【技术实现步骤摘要】
音频编码方法、音频解码方法、装置、可读存储介质


[0001]本申请涉及人工智能技术,尤其涉及一种音频编码方法

音频解码方法

装置

电子设备

计算机可读存储介质及计算机程序产品


技术介绍

[0002]人工智能
(AI

Artificial Intelligence)
是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知

推理与决策的功能

人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习
/
深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值

[0003]音频编解码技术是人工智能领域的重要应用之一,音频编解码技术是包括远程音视频通话在内的通信服务中的一项核心技术

语音编码技术,简单讲,就是使用较少的网络带宽资源去尽量多的传递语音信息

从香农信息论的角度来讲,语音编码是一种信源编码,信源编码的目的是在编码端尽可能的压缩我们想要传递信息的数据量,去掉信息中的冗余,同时在解码端还能够无损
(
或接近无损
)
的恢复出来

[0004]相关技术中,在解码的过程中,为了保证音频解码的效率,音频解码的质量会大打折扣

专利技术内容
[0005]本申请实施例提供一种音频编码方法

音频解码方法

装置

电子设备

计算机可读存储介质及计算机程序产品,能够在保证音频解码的效率的情况下,提高音频解码的质量

[0006]本申请实施例的技术方案是这样实现的:
[0007]本申请实施例提供一种音频编码方法,包括:
[0008]对音频信号进行特征提取处理,得到所述音频信号的音频特征;
[0009]利用至少一个残差单元,对所述音频特征进行残差处理,得到所述音频信号的编码特征;
[0010]对所述音频信号的编码特征进行信号编码处理,得到所述音频信号的音频码流

[0011]本申请实施例提供一种音频解码方法,包括:
[0012]对音频码流进行信号解码处理,得到所述音频码流对应的编码特征;
[0013]其中,所述音频码流是对音频信号进行音频编码得到的;
[0014]利用至少一个残差单元,对所述音频码流对应的编码特征进行残差处理,得到所述音频码流对应的音频特征;
[0015]对所述音频码流对应的音频特征进行特征重建处理,得到所述音频码流对应的合成音频信号

[0016]本申请实施例提供一种音频编码装置,包括:
[0017]特征提取模块,用于对音频信号进行特征提取处理,得到所述音频信号的音频特征;
[0018]编码模块,用于利用至少一个残差单元,对所述音频特征进行残差处理,得到所述音频信号的编码特征;
[0019]信号编码模块,用于对所述音频信号的编码特征进行信号编码处理,得到所述音频信号的音频码流

[0020]本申请实施例提供一种音频解码装置,包括:
[0021]信号解码模块,用于对音频码流进行信号解码处理,得到所述音频码流对应的编码特征;
[0022]其中,所述音频码流是对音频信号进行音频编码得到的;
[0023]解码模块,用于利用至少一个残差单元,对所述音频码流对应的编码特征进行残差处理,得到所述音频码流对应的音频特征;
[0024]特征重建模块,用于对所述音频码流对应的音频特征进行特征重建处理,得到所述音频码流对应的合成音频信号

[0025]本申请实施例提供一种电子设备,所述电子设备包括:
[0026]存储器,用于存储计算机可执行指令;
[0027]处理器,用于执行所述存储器中存储的计算机可执行指令时,实现本申请实施例提供的音频编码方法或音频解码方法

[0028]本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令,被处理器执行时,实现本申请实施例提供的音频编码方法或音频解码方法

[0029]本申请实施例提供一种计算机程序产品,包括计算机可执行指令,所述计算机可执行指令被处理器执行时实现本申请实施例提供的音频编码方法或音频解码方法

[0030]本申请实施例具有以下有益效果:
[0031]通过对音频码流对应的编码特征进行残差处理,以保证对音频码流进行全面学习的同时,还能够更好地利用编码特征的浅层信息,从而提高音频码流的音频特征的特征表征能力,进而提高音频解码的质量

附图说明
[0032]图1是本申请实施例提供的不同码率下的频谱比较示意图;
[0033]图2是本申请实施例提供的音频编解码系统的架构示意图;
[0034]图
3A


3B
是本申请实施例提供的电子设备的结构示意图;
[0035]图
4A


4F
是本申请实施例提供的音频编码方法的流程示意图;
[0036]图
5A


5D
是本申请实施例提供的音频解码方法的流程示意图;
[0037]图
6A
是本申请实施例提供的未采用分组卷积的通道示意图;
[0038]图
6B
是本申请实施例提供的采用分组卷积的通道示意图;
[0039]图
6C
是本申请实施例提供的语音通信链路示意图;
[0040]图
7A
是本申请实施例提供的音频编解码方法的流程示意图;
[0041]图
7B
是本申请实施例提供的低复杂度低码率神经网络语音压缩方法的流程示意图;
[0042]图8是本申请实施例提供的滤波器组示意图;
[0043]图
9A
是本申请实施例提供的普通卷积网络的示意图;
[0044]图
9B
是本申请实施例提供的空洞卷积网络的示意图;
[0045]图
10
是本申请实施例提供的频带扩展的示意图;
[0046]图
11
是本申请实施例提供的第三神经网络的示意图;
[0047]图
12A
是本申请实施例提供的编码块中使用的残差块结构示意图;
[0048]图
12B
是本申请实施例提供的残差单元结构示意图;
[0049]图
13
是本申请实施例提供的第四神经网络的示意图;...

【技术保护点】

【技术特征摘要】
1.
一种音频解码方法,其特征在于,所述方法包括:对音频码流进行信号解码处理,得到所述音频码流对应的编码特征;其中,所述音频码流是对音频信号进行音频编码得到的;利用至少一个残差单元,对所述音频码流对应的编码特征进行残差处理,得到所述音频码流对应的音频特征;对所述音频码流对应的音频特征进行特征重建处理,得到所述音频码流对应的合成音频信号
。2.
根据权利要求1所述的方法,其特征在于,所述利用至少一个残差单元,对所述音频码流对应的编码特征进行残差处理,得到所述音频码流对应的音频特征,包括:对所述音频码流对应的编码特征进行特征解码处理,得到所述音频码流对应的残差特征;通过所述至少一个残差单元,对所述音频码流对应的残差特征进行特征残差处理,得到所述音频码流对应的音频特征
。3.
根据权利要求2所述的方法,其特征在于,当所述至少一个残差单元为多个级联的残差单元时,所述通过所述至少一个残差单元,对所述音频码流对应的残差特征进行特征残差处理,得到所述音频码流对应的音频特征,包括:通过所述多个级联的残差单元的第一个残差单元,对所述残差特征进行残差处理;将所述第一个残差单元输出的残差结果输出到后续级联的残差单元,通过后续级联的残差单元继续进行残差处理以及残差结果的输出;将所述最后一个残差单元输出的残差结果作为所述音频码流对应的音频特征
。4.
根据权利要求3所述的方法,其特征在于,所述通过所述多个级联的残差单元的第一个残差单元,对所述残差特征进行残差处理,包括:通过所述多个级联的残差单元的第一个残差单元执行以下处理:对所述残差特征进行卷积处理,得到所述第一个残差单元的卷积结果;将所述第一个残差单元的卷积结果与所述残差特征进行相加处理,得到所述第一个残差单元输出的残差结果;所述通过后续级联的残差单元继续进行残差处理以及残差结果的输出,包括:通过所述多个级联的残差单元的第
j
个残差单元执行以下处理:对第
j
‑1个残差单元输出的残差结果进行卷积处理,得到所述第
j
个残差单元的卷积结果;将所述
j
个残差单元的卷积结果与所述第
j
‑1个残差单元输出的残差结果进行相加处理,得到所述第
j
个残差单元输出的残差结果;将所述第
j
个残差单元输出的残差结果输出到第
j+1
个残差单元;其中,
j
为依次递增的正整数,1<
j

J

J
为所述残差单元的数量
。5.
根据权利要求4所述的方法,其特征在于,每个所述残差单元包括空洞卷积算子;所述对所述残差特征进行卷积处理,包括:
通过所述第一个残差单元包括的空洞卷积算子,对所述残差特征进行空洞卷积处理
。6.
根据权利要求5所述的方法,其特征在于,所述对所述残差特征进行空洞卷积处理,包括:对所述残差特征的输入通道进行分组处理,得到多个组别,其中,每个所述组别包括所述残差特征中的至少两个通道对应的第一元素;对每个所述组别内的第一元素进行空洞卷积处理
。7.
根据权利要求5所述的方法,其特征在于,每个所述残差单元还包括至少一个因果卷积算子;所述通过所述第一个残差单元包括的空洞卷积算子,对所述残差特征进行空洞卷积处理之后,所述方法还包括:通过所述第一个残差单元包括的至少一个因果卷积算子,对得到的空洞卷积结果进行因果卷积处理,将得到的因果卷积结果作为所述第一个残差单元的卷积结果
。8.
根据权利要求7所述的方法,其特征在于,所述对得到的空洞卷积结果进行因果卷积处理,包括:对所述空洞卷积结果的输入通道进行分组处理,得到多个组别,其中,每个所述组别包括所述空洞卷积结果中的至少两个通道对应的第二元素;对每个所述组别内的第二元素进行因果卷积处理
。9.
根据权利要求2‑8任一项所述的方法,其特征在于,用于音频解码的第一神经网络包括多个级联的解码块,每个所述解码块包括特征解码块以及至少一个残差单元;所述对所述音频码流对应的编码特征进行特征解码处理,得到所述音频码流对应的残差特征,包括:通过所述多个级联的解码块中的特征解码块,对所述音频码流对应的编码特征进行特征解码处理,得到所述音频码流对应的残差特征;所述对所述音频码流对应的残差特征进行特征残差处理,得到所述音频码流对应的音频特征,包括:通过所述多个级联的解码块中的至少一个残差单元,对所述音频码流对应的残差特征进行残差处理,得到所述音频码流对应的音频特征
。10.
根据权利要求9所述的方法,其特征在于,所述通过所述多个级...

【专利技术属性】
技术研发人员:肖玮
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1