一种基于压缩感知的音频编解码方法技术

技术编号:32129239 阅读:20 留言:0更新日期:2022-01-29 19:24
本发明专利技术公开了一种基于压缩感知的音频编解码方法,本发明专利技术音频编码中的待量化信号类型是压缩感知的稀疏分解后的降维信号,解码输出端需要进行稀疏分解的音频信号重构操作,编解码过程中采用区间能量方式进行自适应压缩感知编码。基于子带能量的自适应压缩感知能量加权,采用子带能量统计的方式对音频信号进行自适应压缩感知能量加权;自适应压缩感知稀疏分解,采用基于音频信号特征的稀疏变换矩阵和观测矩阵,本发明专利技术解决了实际音频通信系统中的低复杂度、低存储量的音频编码问题。低存储量的音频编码问题。低存储量的音频编码问题。

【技术实现步骤摘要】
一种基于压缩感知的音频编解码方法


[0001]本专利技术涉及一种基于压缩感知的音频编解码方法,属于声音处理


技术介绍

[0002]数据压缩是信息论研究中的一个重要课题,在信息论中被称为信源编码。近年来,数据压缩已不仅限于编码方法的研究与探讨,已逐步形成较为独特的体系。它主要研究数据的表示、传输和转换方法,目的是减少数据所占据的存储空间和传输时所需用的时间。
[0003]近年研究表明,音频信号在一定的变换域上同样具有一定的稀疏性,所以可以将压缩传感与音频信号相结合来探求音频信号处理领域的各种新方法。传统的音频信号处理都基于奈奎斯特采样定理,采样频率至少8kHz,甚至更多。而在具体的音频信号处理过程还需进一步压缩,例如:进行音频识别首先进行高速采样然后再提取少量的特征参数,最后进行识别,浪费了很多采样和存储资源。如何对音频信号重新建模以获得更少的采样但又不影响音频的质量,是当前音频信号处理领域中的研究热点。目前国内外将压缩感知用于音频信号处理领域的研究还比较少,处于起步阶段,主要涉及近似稀疏的声音信号在不同的基下的重构性能研究、基于正弦编码框架的压缩感知应用、压缩感知在噪声环境下的语音识别性能改进和信息隐藏等理论研究,他们将感知压缩应用到不同的音频应用领域,很少针对音频信号的特殊性综合分析音频信号在不同正交变换域或原子字典中的稀疏特性及其压缩重构特性的性能影响。同时,这些前期的研究表明,音频信号(包括语音信号)在频域、KLT、小波和DCT等很多变换域中是具有稀疏特性的,这一点已经应用于各种音频编码或语音识别等相关音频信号处理算法中。本专利技术将压缩传感与音频信号相结合,发挥压缩传感测量采样值少,节约采样、存储和传输资源的特性,研究音频信号处理中音频压缩领域的新的研究方法以及新的应用领域。

技术实现思路

[0004]专利技术目的:为了克服现有技术中存在的不足,本专利技术提供一种基于压缩感知的音频编解码方法,解决了实际音频通信系统中的低复杂度、低存储量的音频编码问题。
[0005]技术方案:为实现上述目的,本专利技术采用的技术方案为:
[0006]一种基于压缩感知的音频编解码方法,编码方法包括以下步骤:
[0007]步骤1,获取输入音频信号。
[0008]步骤2,基于子带能量的自适应压缩感知能量加权,采用子带能量统计的方式对音频信号进行自适应压缩感知能量加权。
[0009]步骤3,自适应压缩感知稀疏分解,根据能量将音频信号划分到不同的能量区间,各区间按区间能量分配相应的观测数,根据所属能量区间观测数和能量自适应分配观测个数。然后当观测个数确定后,按非自适应压缩感知理论构造随机的完全观测,根据完全观测各分量能量自适应选取相应个数的观测及对应的观测矩阵来重构原信号。
[0010]步骤4,采用基于音频信号特征的稀疏变换矩阵和观测矩阵,采用数据分类统计训
练的方式得到适用于音频信号特征的稀疏描述和观测矩阵,并采用两种方式进行音频信号的稀疏描述分解。首先根据不同的信号类别,获得MDCT变换的低频系数和高频系数对不同音频信号的稀疏描述程度,建立局部的音频信号稀疏描述模型。然后采用数据训练方式构造过完备的稀疏分解冗余字典,引入K奇异分解学习算法构造过完备冗余字典,从音频信号的MDCT变换展开出发,通过求解指数衰减型自相关函数的积分方程,构建音频信号的自适应冗余字典,并由字典的代数结构设计了基于非线性逼近的信号稀疏表示算法,建立音频信号的压缩感知的稀疏分解模型,进而得到编码量化参数。
[0011]步骤5,将音频信号输入自适应压缩感知心理声学模型得到心理声学参数。
[0012]步骤6,将心理声学参数和编码量化参数进行系数量化。
[0013]步骤7,将系数量化后的心理声学参数和编码量化参数进行熵编码。
[0014]步骤8,将熵编码后的心理声学参数和编码量化参数进行码流打包,形成编码数据流。
[0015]优选的:解码方法包括为编码方法的逆过程,首先获取编码数据流,进行数据反量化,多帧信号组合还原形成解码音频数据流。
[0016]优选的:对于解码端的音频信号重构,结合音频信号特点,仅仅采用l1重构、码本预测重构和l1联合码本重构方法进行音频信号的压缩感知重构特性,并在无编码量化误差情况下考察信号重构信噪比。
[0017]优选的:离散信号x0∈R
n
在正交基Ψ={ψ
i

i
∈R
n
,i=1,2,...,n}上是k稀疏的,即:
[0018]x0=Ψ
‑1θ
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0019]其中稀疏系数向量θ=Ψx0=(θ1,θ2,...,θ
n
)
T
只有k个非零系数,即||θ||0=k。
[0020]将k稀疏信号x0通过投影产生m个观测值y=(y1,y2,...,y
m
)
T
即:
[0021]y=Φx0=ΦΨ
‑1θ=Tθ
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0022]此时通过求解l1最优化问题由y重构x0或θ的解:
[0023][0024]其中,m<n,Φ为观测矩阵,T为恢复矩阵。
[0025]优选的:公式(3)的求解采用正交匹配方法或匹配跟踪方法获取。
[0026]本专利技术相比现有技术,具有以下有益效果:
[0027]1、通过对音频信号稀疏性冗余字典描述,获得自适应字典训练算法并与压缩感知重建算法结合,提出压缩率较高的基于压缩感知的音频编解码技术框架。
[0028]2、自适应压缩感知方法在音频编解码器中的应用研究,并结合心理声学模型提升音频编解码器压缩率和音质。
附图说明
[0029]图1为本专利技术的结构示意图。
具体实施方式
[0030]下面结合附图和具体实施例,进一步阐明本专利技术,应理解这些实例仅用于说明本
专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0031]一种基于压缩感知的音频编解码方法,如图1所示,编码方法包括以下步骤:
[0032]获取输入音频信号。
[0033]本专利技术的压缩感知系统结构和传统的音频编解码框架类似,主要的区别在于音频编码中的待量化信号类型是压缩感知的稀疏分解后的降维信号,解码输出端需要进行稀疏分解的音频信号重构操作,编解码过程中采用区间能量方式进行自适应压缩感知编码,自适应压缩感知音频编解码分成两个部分:
[0034]基于子带能量的自适应压缩感知能量加权,由于人耳对于音频信号不同的频率成分有不同的敏感度,同时不同频带成分之间本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于压缩感知的音频编解码方法,其特征在于,编码方法包括以下步骤:步骤1,获取输入音频信号;步骤2,基于子带能量的自适应压缩感知能量加权,采用子带能量统计的方式对音频信号进行自适应压缩感知能量加权;步骤3,自适应压缩感知稀疏分解,根据能量将音频信号划分到不同的能量区间,各区间按区间能量分配相应的观测数,根据所属能量区间观测数和能量自适应分配观测个数;然后当观测个数确定后,按非自适应压缩感知理论构造随机的完全观测,根据完全观测各分量能量自适应选取相应个数的观测及对应的观测矩阵来重构原信号;步骤4,采用基于音频信号特征的稀疏变换矩阵和观测矩阵,采用数据分类统计训练的方式得到适用于音频信号特征的稀疏描述和观测矩阵,并采用两种方式进行音频信号的稀疏描述分解;首先根据不同的信号类别,获得MDCT变换的低频系数和高频系数对不同音频信号的稀疏描述程度,建立局部的音频信号稀疏描述模型;然后采用数据训练方式构造过完备的稀疏分解冗余字典,引入K奇异分解学习算法构造过完备冗余字典,从音频信号的MDCT变换展开出发,通过求解指数衰减型自相关函数的积分方程,构建音频信号的自适应冗余字典,并由字典的代数结构设计了基于非线性逼近的信号稀疏表示算法,建立音频信号的压缩感知的稀疏分解模型,进而得到编码量化参数;步骤5,将音频信号输入自适应压缩感知心理声学模型得到心理声学参数;步骤6,将心理声学参数和编码量化参数进行系数量化;步骤7,将系数量化后的心理声学参数和编码量化参数进行熵编码;步骤8,将熵编码后的心理声学参数和编码量化参数进行码流打包,形成编码数据流。2.根据权利要求1所述基于压缩感知的音频编解码方法,其特征在于:解码方法包括为编码方法的...

【专利技术属性】
技术研发人员:林志斌刘晓峻卢晶狄敏
申请(专利权)人:南京大学江苏南大电子信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1