应用音频帧频谱平坦度简化声学模型分析的方法及其装置。其应用音频帧频谱平坦度来简化对一声音信号的声学模型分析。如果该声音信号包含多个音频帧(a?plurality?of?frames),则先计算该声音信号在频域上的能量,接着据以计算出多个频谱平坦度,并据以使用短区块或长区块的演进式离散余弦变换来变换每一音频帧。如果该声音信号包含左、右声道信号,则本发明专利技术先对该声音信号执行声学模型分析,以计算该左、右声道信号在频域上的能量,接着据以计算出该左、右声道信号的频谱平坦度,并据以使用同异信号变换或左、右声道编码来变换该左、右声道信号。
【技术实现步骤摘要】
本专利技术涉及一种简化声学模型分析的方法,尤其涉及一种用于一音频压縮系统,且利用音频帧频谱平坦度(spectral flatness)来简化声学模型分析的方法。
技术介绍
随着电子音视频产品的快速发展,应用于电子音视频产品的图像压縮技术愈来愈显得重要,其中,以动态图像压縮标准(Motion Picture ExpertsGroup, MPEG)来作图像压縮更是一种主流。 请参考图1,图1为已知应用动态图像压縮标准的一音频编码器(audioencoder)的操作流程10的示意图。首先, 一模拟声音信号经过脉冲编码调制(pulse-codemodulation, PCM)(步骤100)后变换成一数字声音信号。此数字声音信号经过子带滤波(subband filter)(步骤102)以将声音分成数个频域上的子频带,再经过演进式离散余弦变换(modified discrete cosinetransform, MDCT)(步骤104)及同异信号变换(middle/side transform,M/S transform)(步骤106)将声音信号变换成频域(frequencydomain)值后,送入再量化(requantize)模块进行量化(步骤108),最后产生格式化的数据流(format bitstream)(步骤110)。为了达成有效率的压縮,必须对声音信号作分析,以得到一些重要的参数。因此,声音信号经过脉冲编码调制后,除了进行子带滤波,也另外进行了快速傅利叶变换(FastFourier Transform, FFT)(步骤112),再通过声学模型分析(PsychoacousticModel Analysis)(步骤114)以得到相关参数,如区块类型(blocktype)、同异信号类型(middle/side type, M/S type)及遮蔽阈值(masking threshold)。其中,区块类型是进行演进式离散余弦变换时的重要参数,同异信号类型是决定是否使用同异信号变换的重要参数,遮蔽阈值则为再量化模块进行量化时的参考参数。 在执行演进式离散余弦变换前需要先判断要用何种区块类型进行变换,亦即,该声音信号是适合用长区块(long block)或短区块(short block)的演进式离散余弦变换。当声音信号为短期稳定(short-term stationary)的信号,则使用长区块的演进式离散余弦变换;而当声音信号有转调(transition)发生时,则使用短区块的演进式离散余弦变换,以避免回声杂讯(pre-echo noise)的发生。 请参考图2,图2为已知决定区块类型的一流程20的示意图。声音信号经过脉冲编码调制(步骤200)后会先执行长区块的声学模型分析(步骤202),接下来判断该声音信号是否要使用短区块的演进式离散余弦变换(步骤204)。如果是,则重新执行一次短区块的演进式离散余弦变换(步骤206),并执行短区块的声学模型分析(步骤207);若否,则进行同异信号变换或其它的声音编码(步骤208)。因此,不论声音信号是属于何种区块类型,现有技术皆会在步骤202预设地执行长区块的声学模型分析,当在步骤204中判断声音信号须使用短区块的演进式离散余弦变换时,则在步骤207重新执行一次短区块的声学模型分析。在此种情况下,步骤202的运算为多余,因而造成运算量的增加。再者,在步骤204中,通常是以感知熵(perc印tual entropy)来作为判断是否该使用短区块的演进式离散余4弦变换的依据,当感知熵大于一预设值时,则使用短区块的演进式离散余弦变换来变换该声音信号。 另外,同异信号变换是在声音信号的左、右声道信号的频谱特性接近时,可以去除左、右声道的相关性后再压縮,以增加压縮效率。例如,声音信号的左声道信号为L[n],右声道信号为R[n],则定义其同信号(middlesignal)M[n] = V 2X (L[n]+R[n])/2,其异信号(side signal)S[n] = V 2X (L[n]-R[n])/2。由上面两个式子可以知道,同信号就是左、右声道信号相同的部分,而异信号就是左、右声道信号相异的部分,因此,通过同异信号变换可以减少数据量,增加压縮效率。所以,判断声音信号是否适用于同异信号变换,只要检视其的左、右声道信号的频谱特性是否接近即可。 请参考图3,图3为已知判断左、右声道信号的性质的一流程30的示意图。在现有技术中,是先执行左、右声道信号的声学模型分析(步骤300),接下来再判断左、右声道信号是否适合使用同异信号变换(步骤302)。如果是,重新以同异信号变换来变换左、右声道信号(步骤304),并执行同异信号的声学模型分析(步骤305);若否,则进行其它的声音编码(步骤306),例如送入再量化模块进行量化。因此,当左、右声道信号适合使用同异信号变换时,则步骤300中先执行左、右声道信号的声学模型分析就显得多余,而造成运算量不必要的增加。 因此,有鉴于上述的流程20与流程30可能会造成运算量不必要的增加,并且影响系统效率,其确有改进的必要性。
技术实现思路
因此,本专利技术的主要目的即在于提供一种应用音频帧频谱平坦度简化声学模型分析的方法及其相关装置,以增加压縮的效率。 本专利技术公开一种应用音频帧频谱平坦度简化声学模型分析的方法,包含计算该声音信号所包含的多个音频帧在频域上的能量;根据该多个音频帧在频域上的能量,计算出该多个音频帧的多个频谱平坦度;以及根据该多个频谱平坦度,使用短区块或长区块的演进式离散余弦变换来变换该多个音频帧的每一音频帧。 本专利技术另公开一种用于一音频压縮系统的音频变换装置,用来执行前述的音频变换方法。 本专利技术另公开一种应用音频帧频谱平坦度简化声学模型分析的方法,包含计算该声音信号所包含的左、右声道信号在频域上的能量;根据该左、右声道信号在频域上的能量,计算出该左、右声道信号的频谱平坦度;以及根据该左、右声道信号的频谱平坦度,使用同异信号变换或左、右声道编码来变换该左、右声道信号。 本专利技术另公开一种用于一音频压縮系统的音频变换装置,用来执行前述的音频变换方法。附图说明 图1为已知应用动态图像压縮标准的一音频编码器的操作流程的示意图。 图2为已知决定区块类型的一流程的示意图。 图3为已知判断左、右声道信号的性质的一流程的示意图。 图4为本专利技术实施例用以决定使用短区块或长区块的演进式离散余弦变换来变换一音频帧的一流程的示意图。 图5为本专利技术实施例比较多个音频帧的频谱平坦度的一流程的示意图。 图6为三个音频帧的频谱平坦度的示意图。 图7为本专利技术实施例用以决定使用同异信号变换或左、右声道编码来变换该左、右声道信号的一流程的示意图。图8为本专利技术实施例一电子装置的示意图。主要元件符号说明10、20、30、40、50、70流程100、102、104、106、108、110、步骤112、114200、202、204、206、207、208步骤300、302、304、305、306步骤400、402、404、406、408步骤500、502、504、506、508、510、步骤512、514700、702、704、706、708步骤80电子装置■声学模型分析单元802计算单元8本文档来自技高网...
【技术保护点】
一种应用音频帧频谱平坦度简化声学模型分析的方法,包含有:计算一声音信号所包含的多个音频帧在频域上的能量;根据该多个音频帧在频域上的能量,计算出该多个音频帧的多个频谱平坦度;以及根据该多个频谱平坦度,使用短区块或长区块的演进式离散余弦变换来变换该多个音频帧的每一音频帧。
【技术特征摘要】
一种应用音频帧频谱平坦度简化声学模型分析的方法,包含有计算一声音信号所包含的多个音频帧在频域上的能量;根据该多个音频帧在频域上的能量,计算出该多个音频帧的多个频谱平坦度;以及根据该多个频谱平坦度,使用短区块或长区块的演进式离散余弦变换来变换该多个音频帧的每一音频帧。2. 如权利要求1所述的方法,其中根据该多个频谱平坦度使用短区块或长区块的演进式离散余弦变换来变换该多个音频帧的每一音频帧,包含有比较该多个音频帧的其中的一音频帧与其前一个音频帧的频谱平坦度,以产生一第一差值;比较该音频帧与其后一个音频帧的频谱平坦度,以产生一第二差值;比较该第一差值与该第二差值,以产生一第三差值;以及根据该第三差值,决定使用短区块或长区块的演进式离散余弦变换来变换该音频帧。3. 如权利要求2所述的方法,其中根据该第三差值决定使用短区块或长区块的演进式离散余弦变换来变换该音频帧,在该第三差值大于一预设值时,使用短区块的演进式离散余弦变换来变换该音频帧,而在该第三差值小于该预设值时,使用长区块的演进式离散余弦变换来变换该音频帧。4. 如权利要求2所述的方法,其中比较该多个音频帧的其中的该音频帧与其前一个音频帧的频谱平坦度以产生该第一差值,是比较该音频帧与其前一个音频帧的频谱平坦度的对数值,以产生该第一差值;而比较该音频帧与其后一个音频帧的频谱平坦度以产生该第二差值,是比较该音频帧与其后一个音频帧的频谱平坦度的对数值,以产生该第二差值。5. 如权利要求1所述的方法,其中计算一音频帧在频域上的能量包含有定义该音频帧为a[t] , t = 0 N-l ;以快速傅立叶变换(FFT)将该音频帧a[t]变换后,得到其频域上的序列A[n]+B[n]承i,n = 0 N/2-1 ;计算出该音频帧a[t]的一能量序列A_ene[n] = A[n]*A[n]+B[n]*B[n] , n = 0 N/2-1 。6. 如权利要求1所述的方法,其中计算一音频帧在频域上的能量包含有定义该音频帧为a[t] , t = 0 N-l ;以子带滤波(subband filter)将该音频帧a[t]分为M个子频带,每个子频带的序列标记为A[O] [k] , A[l] [k] , A[2] [k]......A[M-1] [k] , k = 0 (N/M-l);计算出该音频帧a[t]的一能量序列A—ene[m]=達(A[m] *A[m] +A[m] [l]*A[m][1]..........),m = 0 M-l。7. 如权利要求6所述的方法,其中该音频帧a[t]的频谱平坦度通过该能量序列A—ene[m]以下式求得: <formula>formula see original document page 2</formula>...
【专利技术属性】
技术研发人员:何宜伦,
申请(专利权)人:扬智科技股份有限公司,
类型:发明
国别省市:71[中国|台湾]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。