当前位置: 首页 > 专利查询>周学武专利>正文

音频压缩方法、解压缩方法及其计算机设备和存储介质技术

技术编号:35153061 阅读:74 留言:0更新日期:2022-10-05 10:32
本发明专利技术适用于音频处理技术领域,提供了一种音频压缩方法、解压缩方法及其计算机设备和存储介质,音频压缩方法包括:获取音频数据;计算音频数据对应的梅尔频率倒谱系数;根据梅尔频率倒谱系数,通过预设的音素识别模型确定音频数据对应的音素流,从而将音频数据压缩为音素流,音素流为包含音频数据对应音素特征信息的字符串。本方案通过计算音频数据对应的梅尔频率倒谱系数可以提取人的听力能够听到频段的音频数据,滤除无效音频数据,减少数据量,同时通过音素识别模型识别音频数据对应的音素特征信息,以得到的音素流作为压缩后的音频数据,音素可以看成对音频信息的矢量化,其相比于波形特征的矢量化更抽象,相比于现有技术有效提高压缩比。效提高压缩比。效提高压缩比。

【技术实现步骤摘要】
音频压缩方法、解压缩方法及其计算机设备和存储介质


[0001]本专利技术属于音频处理
,尤其涉及一种音频压缩方法、解压缩方法及其计算机设备和存储介质。

技术介绍

[0002]对于音频的传输或存储,一般都需要对音频数据进行压缩以及解压缩,其中,音频压缩指的是对原始数字音频信号流(PCM编码)运用适当的数字信号处理技术,在不损失有用信息量,或所引入损失可忽略的条件下,降低(压缩)其码率,也称为压缩编码,同时压缩编码必须具有相应的逆变换,称为解压缩或解码。
[0003]目前,现有技术中对于音频压缩的方案一般主要是利用语音波形的相关性,使用线性预测编码(LPC)及类似技术,实现语音信号的压缩和重建。
[0004]但是,现有的音频压缩方案对音频数据的压缩比较低。

技术实现思路

[0005]本专利技术实施例的目的在于提供一种音频压缩方法,旨在解决现有的音频压缩方案对音频数据的压缩比较低的问题。
[0006]本专利技术实施例是这样实现的,所述音频压缩方法包括:
[0007]获取音频数据;
[0008]确定所述音频数据对应的梅尔频率倒谱系数;
[0009]根据所述梅尔频率倒谱系数,通过预设的音素识别模型确定所述音频数据对应的音素流,从而将所述音频数据压缩为所述音素流,所述音素流为包含所述音频数据对应音素特征信息的字符串。
[0010]本专利技术实施例的另一目的在于提供一种音频解压缩方法,所述音频解压缩方法,包括:
[0011]获取音频压缩数据和所述音频数据的声纹特征,所述音频压缩数据为上述的音频压缩方法压缩得到的音频压缩数据;
[0012]根据所述音频压缩数据和所述声纹特征,通过预设的音频重建模型确定所述音频数据。
[0013]本专利技术实施例的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述的音频压缩方法的步骤,或者执行上述的音频解压缩方法的步骤。
[0014]本专利技术实施例的另一目的在于提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述的音频压缩方法的步骤,或者执行上述的音频解压缩方法的步骤。
[0015]本专利技术实施例提供的一种音频压缩方法,其通过计算音频数据对应的梅尔频率倒谱系数可以提取人的听力能够听到频段的音频数据,滤除无效音频数据,减少数据量,同时
通过音素识别模型识别音频数据对应的音素特征信息,以得到的音素流作为压缩后的音频数据,音素可以看成对音频信息的矢量化,其相比于波形特征的矢量化更抽象,相比于现有技术中主要利用语音波形的相关性来压缩音频,有效提高压缩比。
附图说明
[0016]图1为本专利技术实施例提供的一种音频压缩方法的流程图;
[0017]图2为本专利技术实施例提供的一段音频数据的示意图;
[0018]图3为本专利技术实施例提供的一种音素识别模型训练步骤的流程图;
[0019]图4为本专利技术实施例提供的一种根据所述梅尔频率倒谱系数,通过预设的音素识别模型确定所述音频数据对应的音素流的流程图;
[0020]图5为本专利技术实施例提供的一种音频解压缩方法的流程图
[0021]图6为一个实施例中计算机设备的内部结构框图。
具体实施方式
[0022]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0023]可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。
[0024]如图1所示,在一个实施例中,提出了一种音频压缩方法,所述音频压缩方法包括:
[0025]步骤S202,获取音频数据。
[0026]在本申请实施例中,对获取音频数据的具体方法不做限制,这里获取的音频数据为转换为数字信号的音频数据,例如可以从音频数模转换器获取。音频数模转换器可以持续采集和转换音频信号,形成一16位或者8位的序列,称为PCM(Pulse Code Modulation)信号序列,为了方便处理,可以只取一个音频声道,并将此PCM信号序列,分割成固定的有限长度的数据帧,称为PCM帧,如图2所示,PCM帧的长度可以根据处理器的缓存能力自由定义,本实施例中我们可以选取50ms长度的采样点作为一帧的长度,同时为了更准备地识别,前后帧之间可以保留5ms的交叠区,这样,在16位精度,16KSPS采样率的场景,每一帧的数据长度L
F
为:
[0027]帧缓冲区可定义为:short AudioFrame(音频帧)[800]。
[0028]步骤S204,确定所述音频数据对应的梅尔频率倒谱系数。
[0029]在本申请实施例中,由于人耳对不同频率的声波有不同的听觉敏感度。从200Hz到5000Hz的语音信号对语音的清晰度影响对大。两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,所以通过确定音频数据对应的梅尔频率倒谱系数,相当于在音频数据中提取了人耳听力相关的
音频信息,进而可以提取声纹和识别音素。
[0030]在本申请实施例中,对确定音频数据对应的梅尔频率倒谱系数的具体方法不做限制,例如,可以通过以下方法计算得到:
[0031]对每一PCM帧进行傅里叶变换,并取幅值,得到线性谱:
[0032]F
k
=FT(AudioFrame);
[0033]其中,AudioFrame为PCM帧数据,FT指对PCM数据傅里叶变换处理,F
k
为傅里叶变换后得到的音频频谱。
[0034]对线性谱进行梅尔刻度的加权求和,得到梅尔倒频谱:
[0035][0036]其中,B
k
为第k组梅尔遮罩系数,其中f
m
‑1为第k组滤波器的最低频率,f
m+1
为第k组滤波器最高频率。
[0037]对梅尔倒频谱取log10,得到F
bank

[0038]F
bank
=log(F
mel
);
[0039]其中,Fbank为梅尔倒频谱的对数表示形式
[0040]对F
bank
取离散余弦变换,得到梅尔频率倒谱系数:
[0041]c
x
(n)=iDCT(F
bank
)。
[0042]其中,iDCT为反离散余弦变换,c
x...

【技术保护点】

【技术特征摘要】
1.一种音频压缩方法,其特征在于,所述音频压缩方法包括:获取音频数据;确定所述音频数据对应的梅尔频率倒谱系数;根据所述梅尔频率倒谱系数,通过预设的音素识别模型确定所述音频数据对应的音素流,从而将所述音频数据压缩为所述音素流,所述音素流为包含所述音频数据对应音素特征信息的字符串。2.根据权利要求1所述的一种音频压缩方法,其特征在于,根据所述梅尔频率倒谱系数,通过预设的音素识别模型确定所述音频数据对应的音素流,包括:根据所述梅尔频率倒谱系数确定所述音频数据中的音频特征信息,所述音频特征信息至少包括音素特征信息;对所述音频特征信息进行分类处理,从所述音频特征信息中获取所述音素流。3.根据权利要求1所述的一种音频压缩方法,其特征在于,所述预设的音素识别模型的训练方法,包括:获取若干音频样本以及所述音频样本对应的标注音素流;通过所述音素识别模型对所述音频样本进行音素识别,确定所述音频样本对应的预测音素流;根据所述标注音素流和所述预测音素流,通过损失函数确定所述音素识别模型的预测误差。4.根据权利要求3所述的一种音频压缩方法,其特征在于,所述音素识别模型包括Wavenet网络模型。5.根据权利要求1所述的一种音频压缩方法,其特征在于,所述音频压缩方法还包括:将所述音频数据的音量信息进行量化,并统计所述音频数据中量化后的所述音量...

【专利技术属性】
技术研发人员:周士杰周学武
申请(专利权)人:周学武
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1