应用音频帧频谱平坦度简化声学模型分析的方法及其装置制造方法及图纸

技术编号：4263355 阅读：567 留言：0更新日期：2012-04-11 18:40

应用音频帧频谱平坦度简化声学模型分析的方法及其装置。其应用音频帧频谱平坦度来简化对一声音信号的声学模型分析。如果该声音信号包含多个音频帧（ａ？ｐｌｕｒａｌｉｔｙ？ｏｆ？ｆｒａｍｅｓ），则先计算该声音信号在频域上的能量，接着据以计算出多个频谱平坦度，并据以使用短区块或长区块的演进式离散余弦变换来变换每一音频帧。如果该声音信号包含左、右声道信号，则本发明专利技术先对该声音信号执行声学模型分析，以计算该左、右声道信号在频域上的能量，接着据以计算出该左、右声道信号的频谱平坦度，并据以使用同异信号变换或左、右声道编码来变换该左、右声道信号。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种简化声学模型分析的方法，尤其涉及一种用于一音频压縮系统，且利用音频帧频谱平坦度(spectral flatness)来简化声学模型分析的方法。
技术介绍
随着电子音视频产品的快速发展，应用于电子音视频产品的图像压縮技术愈来愈显得重要，其中，以动态图像压縮标准(Motion Picture ExpertsGroup, MPEG)来作图像压縮更是一种主流。请参考图1，图1为已知应用动态图像压縮标准的一音频编码器(audioencoder)的操作流程10的示意图。首先，一模拟声音信号经过脉冲编码调制(pulse-codemodulation, PCM)(步骤100)后变换成一数字声音信号。此数字声音信号经过子带滤波(subband filter)(步骤102)以将声音分成数个频域上的子频带，再经过演进式离散余弦变换(modified discrete cosinetransform， MDCT)(步骤104)及同异信号变换(middle/side transform,M/S transform)(步骤106)将声音信号变换成频域(frequencydomain)值后，送入再量化(requantize)模块进行量化(步骤108)，最后产生格式化的数据流(format bitstream)(步骤110)。为了达成有效率的压縮，必须对声音信号作分析，以得到一些重要的参数。因此，声音信号经过脉冲编码调制后，除了进行子带滤波，也另外进行了快速傅利叶变换(FastFourier Transform, FFT)(步骤112)，再通过声学模型分析(Psy...

【技术保护点】
一种应用音频帧频谱平坦度简化声学模型分析的方法，包含有：计算一声音信号所包含的多个音频帧在频域上的能量；根据该多个音频帧在频域上的能量，计算出该多个音频帧的多个频谱平坦度；以及根据该多个频谱平坦度，使用短区块或长区块的演进式离散余弦变换来变换该多个音频帧的每一音频帧。

【技术特征摘要】
一种应用音频帧频谱平坦度简化声学模型分析的方法，包含有计算一声音信号所包含的多个音频帧在频域上的能量；根据该多个音频帧在频域上的能量，计算出该多个音频帧的多个频谱平坦度；以及根据该多个频谱平坦度，使用短区块或长区块的演进式离散余弦变换来变换该多个音频帧的每一音频帧。2. 如权利要求1所述的方法，其中根据该多个频谱平坦度使用短区块或长区块的演进式离散余弦变换来变换该多个音频帧的每一音频帧，包含有比较该多个音频帧的其中的一音频帧与其前一个音频帧的频谱平坦度，以产生一第一差值；比较该音频帧与其后一个音频帧的频谱平坦度，以产生一第二差值；比较该第一差值与该第二差值，以产生一第三差值；以及根据该第三差值，决定使用短区块或长区块的演进式离散余弦变换来变换该音频帧。3. 如权利要求2所述的方法，其中根据该第三差值决定使用短区块或长区块的演进式离散余弦变换来变换该音频帧，在该第三差值大于一预设值时，使用短区块的演进式离散余弦变换来变换该音频帧，而在该第三差值小于该预设值时，使用长区块的演进式离散余弦变换来变换该音频帧。4. 如权利要求2所述的方法，其中比较该多个音频帧的其中的该音频帧与其前一个音频帧的频谱平坦度以产生该第一差值，是比较该音频帧与其前一个音频帧的频谱平坦度的对数值，以产生该第一差值；而比较该音频帧与其后一个音频帧的频谱平坦度以产生该第二差值，是比较该音频帧与其后一个音频帧的频谱平坦度的对数值，以产生该第二差值。5. 如权利要求1所述的方法，其中计算一音频帧在频域上的能量包含有定义该音频帧为a[t] ， t = 0 N-l ;以快速傅立叶变换(FFT)将该音频帧a[t]变换后，得到其频域上的序列A[n]+B[n]承i，n = 0 N/2-1 ;计算出该音频帧a[t]的一能量序列A_ene[n] = A[n]*A[n]+B[n]*B[n] ， n = 0 N/2-1 。6. 如权利要求1所述的方法，其中计算一音频帧在频域上的能量包含有定义该音频帧为a[t] ， t = 0 N-l ;以子带滤波(subband filter)将该音频帧a[t]分为M个子频带，每个子频带的序列标记为A[O] [k] ， A[l] [k] ， A[2] [k]......A[M-1] [k] ， k = 0 (N/M-l);计算出该音频帧a[t]的一能量序列A—ene[m]=達(A[m] *A[m] +A[m] [l]*A[m][1]..........)，m = 0 M-l。7. 如权利要求6所述的方法，其中该音频帧a[t]的频谱平坦度通过该能量序列A—ene[m]以下式求得: <formula>formula see original document page 2</formula>...

【专利技术属性】
技术研发人员：何宜伦，
申请(专利权)人：扬智科技股份有限公司，
类型：发明
国别省市：71[中国|台湾]

全部详细技术资料下载我是这个专利的主人