当前位置: 首页 > 专利查询>SSI株式会社专利>正文

数字音频信号的连续可变时间标度改变技术制造技术

技术编号:3046983 阅读:191 留言:0更新日期:2012-04-11 18:40
一种用于数字音频信号的时间标度改变的方法产生不同播放率的、而相同音调的输出信号作为输入数字音频信号。该方法使输入信号中的样本块与输出信号中的样本块重叠以压缩信号。针对各可能重叠来计算相关函数,且选择产生最大相关度的重叠。对于计算相关函数有效的计算方法计算输入和输出样本块的离散频率变换、计算相关、然后对于在最优重叠处具有最大值的相关函数进行频率变换反变换。一种针对多声道数字音频信号的时间缩放改变的方法独立地处理每个声道,听者合成不同的声道并感知高质量的多声道信号。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术是关于数字音频信号处理。更特别地,它关于使用经改进同步化重叠及增加(SOLA)算法(synchronized overlap-and-add algorithm)来不改变音调地改进音频信号的输出率的方法。
技术介绍
多种应用需要改进音频信号的播放率。落于时间标度改变(TSM)的范围内的技术包括压缩(即,加速)和解压(即,减缓)两者。音频压缩应用包括加速无线电脱口秀来允许较多广告,允许使用者或碟片操作员来针对舞曲而选择节拍,加速口述材料的播放率,加速音频信息的播放率,且把音频和视频播放率同步化。不管输入信号(语言、音乐、或经组合语言和音乐)的类型,TSM的目标是保留输入信号的音调,同时改变其节拍。明显地,增加或减少播放率需要改变音调。同步化重叠及增加技术于1985年由S.Roucos和A.M.Wilgus在IEEE国际论集ASSP的“针对语言的高品质时间标度改变”第493-496页中被介绍,且仍是许多新近发展技术的基础。该方法被示出在图1A中。通过数字采样模拟音频信号来获得一系列时域样本x(t)而获得数字输入信号10。输入信号10被分成重叠的窗口、块、或帧12,各包括N个样本且彼此以Sa个样本(“a”是用于分析)来偏离。经缩放输出14包括相同重叠窗口的样本y(t),且彼此以不同数目的样本Ss(“s”是用于合成化)来偏移。通过以与在输入10中不同的时间滞后(lag)来对输入窗口12进行连续地重叠来产生输出14。时间标度比率α被界定为Sa/Ss;针对压缩α>1,且针对解压α<1。说明于图1B中如线性交叉隐现的加权函数被用来组合经重叠窗口。为了把输入块16与输出块18重叠,在输入块16的经重叠区中的样本由线性增加的函数来缩放,而输出块18中的样本由线性减少的函数来缩放,以产生新的输出信号20。请注意到SOLA方法以不改变个别窗口的速率地来改变信号的整体速率,由此保留音调。为了把所产生的信号14的品质最大化,帧不以预定分开距离重叠。实际偏移量典型地在给定范围内被选择,来把两经重叠帧间的相似度最大化,以确定最优声音品质。对于在预定搜寻范围内的各潜在重叠偏移量,相似度被计算,且所选择偏移量是有相似度的最高数值。例如,可通过相乘在各偏移量的x(t)和y(t)来计算两帧间的相关函数。此技术产生高品质的信号(即,对听者听起来自然)、及高可理解性(即,可由听者容易地了解)。现有技术中已知多种品质和可理解性测量,如总谐音扭曲(THD)。基本SOLA架构允许在窗口大小选择、相似度、计算方法、和针对重叠偏移量的搜寻范围上的多种改进。授予Vogten等人的美国专利第5,479,564号公开根据局部音调周期来选择输入信号的窗口的方法。已知为WSOLA-SD的依赖讲话者方法在授予Satyamurti等人的美国专利第5,828,995号中被公开。WSLOA-SD根据音调周期来选择输入信号的帧大小。这些和其他依赖音调方法的缺点是它们只能使用于语言信号,而不能用于音乐。再者,它们需要判定信号是语音或非语音的额外步骤,其可随信号的不同部分而改变,且决定语音信号的音调。语言信号的音调经常不恒定,以多个基础音调周期来改变。对于所产生音调的估计需要人工的平滑来在该多个周期间连续地移动,使人工信号加入最后的输出信号。典型上,根据所计算相似度来选择在现有输出帧内的、对于新的输入帧进行重叠的位置。然而,一些SOLA方法使用相似度来选择输入块的重叠位置。授予Hejna,Jr.等人的美国专利第5,175,769号公开用来选择在预定范围内的输入块的位置的方法。Hejna,Jr.的方法需要几个与原来SOLA方法不同的计算步骤。然而,它引入完全跳过输入信号的部分的可能性,特别是在高压缩比率(即,α≥2)。描述在都授予Suzuki等人的美国专利第5,341,432号和第5,630,013号中的语言速率改变方法判定两连续输入帧的最优重叠,然后被重叠来产生输出信号。在输入帧被连续重叠到输出帧上的传统SOLA方法中,各输出帧可为所有前面经重叠帧的总和。然而,用Suzuki等人的方法,输入帧只彼此重叠,防碍多个帧的重叠。在有些情形中,此受限的重叠可能减少所产生信号的品质。因此选择在输出信号内的偏移量是最可靠方法,特别是高压缩比率。方法的计算成本随着输入采样速率和压缩比率而改变。高采样速率因其产生高品质的输出信号而被期望。另外,高压缩比率需要输入样本的高处理率。例如,CD品质音频对应于44.1kHz采样速率;在α=4的压缩比率,每秒必须处理大约176,000个输入样本来产生CD品质输出。为了以该输入采样速率和高压缩比率来处理信号,方法的计算效率很重要。计算在重叠输入和输出样本块间的相似度是算法则的最需要的计算部分。通过针对两块的每一可能偏移量来相乘输入和输出块的对应样本,来计算为潜在相似度的相关函数。对于含有N个样本的输入帧,需要N2个乘法运算。对于在1000等级上的N的高输入采样速率,针对各输入帧来实施N2个运算是行不通的。结果,SOLA上的趋势是简化计算来缩减所实施运算的次数。一个解决方法是使用绝对误差计量,其只需要减法运算,而非需要乘法运算的相关函数。授予Bialick的美国专利第4,864,620号公开使用平均幅度差值函数(AMDF)来选择最优重叠的方法。AMDF把针对各可能偏移量的输入和输出样本间的差值的绝对值平均,且选择有最低数据值的偏移量。授予Lin等人的美国专利第5,832,442号公开使用在重叠中的相等平均绝对误差的方法。当绝对误差方法明显需要较少计算时,它们不如在定位最优偏移量中所接受的相关函数那样可靠和易于接受。正确度的程度因计算效率而牺牲。现有SOLA方法的绝大多数通过选择用来判定最优重叠偏移量的受限的搜寻范围来缩减复杂度。例如,授予Satyamurti的美国专利第5,806,023号的公开方法,其中最优重叠被选择于预定搜寻范围内。上述的Bialick专利使用输入信号音调周期来判定搜寻范围。在可从WWW.cs.ust.hk/~rren/sound-tech/RSM_Paper_Long.htm获得的“用于音波信号的时间标度改变的边缘检测方法”中,介绍一种经改进SOLA技术。仍然,Ren的方法使用小型搜寻窗口(在此情形中小于输入帧的幅度的等级),来找出最优偏移量。它也使用边缘检测且因此特定于信号的类型,针对不同类型信号来产生不同重叠。限定最优重叠偏移量的搜寻范围的现有技术方法在图2的例子中被说明。在输出块24y(t)内与输入块22x(t)重叠的最优位置被找出。输出块y(t)具有S0+H+L个样本的长度,且输入块x(t)具有S0个样本的长度。在此情形中,计算相似度的搜寻范围是H+L个样本;即,潜在滞后值的范围是等于被比较的两样本块间的长度上的差值。重叠滞后的三个可能值被说明-L、O、和+H。在此方法中,相似度26在其计算的滞后值的范围内具有矩形包络形状。此意味在平均跨越所有可能信号时,相似度的最大值的位置在被估计的滞后值的范围内具有相等或平坦的机率分布。此特性不依赖所使用相似度的类型,而是针对所有潜在滞后值而比较来自两段落的相等数目样本的结果。通过限制搜寻范围,所有现有技术在快速改变或复杂混合信号期间容易不正确地预测重叠偏移量。本文档来自技高网...

【技术保护点】
一种是针对包括输入样本的数字音频输入信号的时间标度改变方法,以可形成包括输出样本的数字音频输出信号,该方法包括下列步骤:a)选择N/2个输入样本的输入块;b)选择N/2个输出样本的输出块;c)决定用来把该输入块的起头与该输出块的 起头重叠的最优偏移量T;其中-N/2≤T≤N/2,其中该偏移量决定包括计算在该N/2个输入样本的离散频率变换和该N/2个输出样本的离散频率变换间的相关函数,其中该相关函数的离散频率反变换的最大值发生于该最优偏移量T;和d)把该输入块 与该输出块重叠来形成该输出信号,其中该输入块起头与该输出块起头偏移T个样本。

【技术特征摘要】
US 2000-7-26 09/626,0461.一种是针对包括输入样本的数字音频输入信号的时间标度改变方法,以可形成包括输出样本的数字音频输出信号,该方法包括下列步骤a)选择N/2个输入样本的输入块;b)选择N/2个输出样本的输出块;c)决定用来把该输入块的起头与该输出块的起头重叠的最优偏移量T;其中-N/2≤T≤N/2,其中该偏移量决定包括计算在该N/2个输入样本的离散频率变换和该N/2个输出样本的离散频率变换间的相关函数,其中该相关函数的离散频率反变换的最大值发生于该最优偏移量T;和d)把该输入块与该输出块重叠来形成该输出信号,其中该输入块起头与该输出块起头偏移T个样本。2.依据权利要求1所述的方法,其中该偏移量决定步骤更包括在实施该输入频率变换前把N/2个零样本附于该N/2个输入样本,且在实施该输出频率变换前把N/2个零样本附于该N/2个输出样本。3.依据权利要求1所述的方法,其中该离散频率变换是离散傅立叶变换,且其中该离散频率反变换是离散傅立叶反变换。4.依据权利要求3所述的方法,其中该偏移量决定步骤包括i)对该输入样本进行离散傅立叶变换,以获得X(k),其中k=0,…,N/2-1;ii)对该输出样本进行离散傅立叶变换,以获得Y(k),其中k=0,…,N/2-1;iii)对X(k)取共轭复数,以获得X*(k),其中k=0,…,N/2-1;iv)对复数乘法乘积Z(k)=X*(k)·Y(k),其中k=0,…,N/2-1;v)对Z(k)进行离散傅立叶反变换,以获得z(t);和vi)决定z(T)为最大值时的T。5.依据权利要求1所述的方法,其中该离散频率变换是从由离散余弦变换、离散正弦变换、离散哈特雷变换、和根据维夫雷特式函数的离散变换组成的组中选出。6.依据权利要求1所述的方法,其中该相关函数是经标称化的相关函数。7.依据权利要求1所述的方法,其更包括以恒定速率输出该输出信号。8.依据权利要求7所述的方法,其中该恒定速率是实时速率。9.依据权利要求7所述的方法,其中该输出块的该起头的位置是依赖该恒定速率来选择。10.依据权利要求1所述的方法,其更包括以可变速率获得该输入信号。11.依据权利要求1所述的方法,其中步骤(a)是独立于该输入信号的音调周期。12.依据权利要求1所述的方法,其中该重叠步骤包括把加权函数应用于该输出块和该输入块。13.依据权利要求12所述的方法,其中该加权函数是线性函数。14.一种用于多声道数字音频输入信号的时间标度改变方法,各输入声道包括输入样本,来形成一个多声道数字音频输出信号,各输出声道包括输出样本,该方法包括下列步骤a)获得该输入声道;b)独立地针对各个该输入声道i)选择N/2个输入样本的输入块;ii)从该输出声道的对应声道选择N/2个输出样本的输出块;iii)确定用来把该输入块的起头与该输出块的起头重叠的最优偏移量T,其中-N/2≤T≤N/2,该偏移量的确定包括计算在该N/2个输入样本的离散频率变换和该N/2个输出样本的离散频率变换间的相关函数,其中该相关函数的离散频率反变换的最大值发生在该最优偏移量T;iv)把该输入块与该输出块重叠来形成该对应的输出声道,其中该输入块起头与该输出块起头偏移T个样本;和c)把该输出声道组合来形成该多声道数字音频输出信号。15.依据权利要求14所述的方法,其中步骤(a)包括把该多声道数字音频信号分离成该输入样本。16.依据权利要求14所述的方法,其中步骤(a)包括从单...

【专利技术属性】
技术研发人员:罗杰塞利
申请(专利权)人:SSI株式会社罗杰塞利
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1