基于源和室内声学的概率模型的语音去混响方法和设备技术

技术编号：3048289 阅读：215 留言：0更新日期：2012-04-11 18:40

通过接受用于初始化（１０００）的观测信号以及执行包括傅立叶变换（４０００）的似然最大化（２０００）来实现语音去混响。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术通常涉及用于语音去混响的方法和设备。更具体而言，本发明涉及基于源和室内声学的概率模型的语音去混响方法和设备。
技术介绍
以下在本申请中将被引用或标识的所有专利、专利申请、专利公开、科学文献等等将在此以其整体被包含作为参考以便更全面地描述本发明所属
的状态。在普通室内通过远距离麦克风捕获的语音信号不可避免地包含混响，这对于语音信号的感知质量和清晰度具有有害的影响并且使自动语音识别(ASR)系统的性能降低。当混响时间长于0.5秒时，甚至当使用已经在匹配的混响条件下被训练的声学模型时，不能够提高识别性能。这在B. Kingsbury和N. Morgan的Recognizing reverberant speech with rasta-plp，，( Proc. 1997 IEEE International Conference Acoustic Speech and Signal Processing ( ICASSP-97 ) , Vol.2,第1259—1262 页，1997年)中被公开。语音信号的去混响无论对于高质量记录和重放或对于自动语音识别(ASR)都是必需的。尽管语音信号的盲去混响仍是有挑战性的问题，但是近来已经提出若干技术。已经提出将观测信号去相关同时在信号的短时间段内保持相关性的4支术。这由B.W.Gillespie和L. E. Atlas的Strategies for improving audible quality and speech recognition accuracy of reverbera...

【技术保护点】
一种语音去混响设备，包括：　确定最大化似然函数的源信号估计的似然最大化单元，其中参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。

【技术特征摘要】
【国外来华专利技术】1. 一种语音去混响设备，包括确定最大化似然函数的源信号估计的似然最大化单元，其中参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。2. 根据权利要求1所述的语音去混响设备，其中所述似然函数基于根据未知参数、丢失数据的笫一随机变量、和观测数据的第二随机变量所评估的概率密度函数被定义，其中参考源信号估计来定义所述未知参数，丟失数据的第一随机变量表示室内传递函数的逆滤波器，以及参考观测信号和初始源信号估计来定义观测数据的第二随机变量。3. 根据权利要求2所述的语音去混响设备，其中所述似然最大化单元使用迭代优化算法来确定源信号估计。4. 根据权利要求3所述的语音去混响设备，其中所述迭代优化算法是期望最大化算法。5. 根据权利要求1所述的语音去混响设备，其中所述似然最大化单元进一步包括逆滤波器估计单元，其参考观测信号、第二方差、以及初始源信号估计和更新的源信号估计之一来计算逆滤波器估计；滤波单元，其将逆滤波器估计应用于观测信号并产生滤波信号；源信号估计和收敛检验单元，其参考初始源信号估计、第一方差、第二方差、和滤波信号来计算源信号估计，所述源信号估计和收敛检验单元进一步确定是否源信号估计的收敛被获得，如果源信号估计的收敛被获得，所述源信号估计和收敛检验单元进一步输出源信号估计作为去混响的信号；以及更新单元，其将所述源信号估计更新为更新的源信号估计，如果源信号估计的收敛未被获得，所述更新单元进一步提供更新的源信号估计给逆滤波器估计单元，以及所述更新单元在初始更新步骤中进一步提供所述初始源信号估计给逆滤波器估计单元。6. 根据权利要求5所述的语音去混响设备，其中所述似然最大化单元进一步包括第一长时傅立叶变换单元，其执行波形观测信号到变换后的观测信号的第一长时傅立叶变换，该第一长时傅立叶变换单元进一步将变换后的观测信号作为观测信号提供给逆滤波器估计单元和滤波单元；LTFS到STFS变换单元，其执行滤波信号到变换后的滤波信号的LTFS到STFS变换，该LTFS到STFS变换单元进一步将变换后的滤波信号作为滤波信号提供给源信号估计和收敛检验单元；STFS到LTFS变换单元，其执行源信号估计到变换后的源信号估计的STFS到LTFS变换，如果源信号估计的收敛未^皮获得，该STFS到LTFS变换单元进一步将变换后的源信号估计作为源信号估计提供给更新单元；第二长时傅立叶变换单元，其执行波形初始源信号估计到第一变换初始源信号估计的第二长时傅立叶变换，该第二长时傅立叶变换进一步将第一变换初始源信号估计作为初始源信号估计提供给更新单元；以及短时傅立叶变换单元，其执行波形初始源信号估计到第二变换初始源信号估计的短时傅立叶变换，该短时傅立叶变换单元进一步将第二变换初始源信号估计作为初始源信号估计提供给源信号估计和收敛检验单元。7. 根据权利要求1所述的语音去混响设备，进一步包括执行源信号估计到波形源信号估计的逆短时傅立叶变换的逆短时 4專立叶变4灸单元。8. 根据权利要求1所述的语音去混响设备，进一步包括基于观测信号产生初始源信号估计、第一方差、和第二方差的初始化单元。9. 根据权利要求8所述的语音去混响设备，其中所述初始化单元进一步包括基频估计单元，其估计来自变换后的信号的每个短时间帧的基频和发声量度，其中通过观测信号的短时傅立叶变换来给定所述变换后的信号；以及源信号不确定性确定单元，其基于所述基频和发声量度确定第一方差。10. 根据权利要求1所述的语音去混响设备，进一步包括初始化单元，其基于观测信号产生初始源信号估计、第一方差、和第二方差；和收敛检验单元，其从似然最大化单元接收源信号估计，该收敛检验单元确定是否源信号估计的收敛被获得，如果获得源信号估计的收敛，则所述收敛检验单元进一步输出源信号估计作为去混响的信号，并且如果未获得源信号估计的收敛，则所述收敛检验单元进一步提供源信号估计给初始化单元以使初始化单元能够基于该源信号估计产生初始源信号估计、第一方差、和第二方差。11. 根据权利要求10所述的语音去混响设备，其中所述初始化单元进一步包括第二短时傅立叶变换单元，其执行观测信号到第一变换观测信号的第二短时傅立叶变换；第一选择单元，其执行第一选择操作以产生第一选择输出以及第二选择操作以产生第二选择输出，第一和笫二选择操作是相互独立的，当所述第一选择单元接收第一变换观测信号的输入而不接收源信号估计的任何输入时，第一选择操作用于选择第一变换观测信号作为第一选择输出，而当所述第一选择单元接收第一变换观测信号和源信号估计的输入时，第一选择操作用于选择第一变换观测信号和源信号估计之一作为第一选择输出，当所述第一选择单元接收第一变换观测信号的输入而不接收源信号估计的任何输入时，第二选择操作用于选择第一变换观测信号作为第二选择输出，而当所述第一选择单元接收第一变换观测信号和源信号估计的输入时，第二选择操作用于选择第一变换观测信号和源信号估计之一作为第二选择输出；基频估计单元，其接收第二选择输出并估计来自第二选择输出的每个短时间帧的基频和发声量度；以及自适应谐波滤波单元，其接收第一选择输出、基频和发声量度，该自适应谐波滤波单元基于基频和发声量度增强第一选择输出的谐波结构以产生初始源信号估计。12. 根据权利要求10所述的语音去混响设备，其中所述初始化单元进一步包括第三短时傅立叶变换单元，其执行观测信号到第二变换观测信号的第三短时傅立叶变换；第二选择单元，其执行笫三选择操作以产生第三选择输出，当所迷第二选择单元接收第二变换观测信号的输入而不接收源信号估计的任何输入时，第三选择操作用于选择第二变换观测信号作为第三选择输出，而当所述第二选择单元接收第二变换观测信号和源信号估计的输入时，第三选择操作用于选择第二变换观测信号和源信号估计之一作为第三选择输出；基频估计单元，其接收第三选择输出并估计来自第三选择输出的每个短时间帧的基频和发声量度；以及源信号不确定性确定单元，其基于基频和发声量度确定第一方差。13. 根据权利要求10所述的语音去混响设备，进一步包括逆短时傅立叶变换单元，如果获得源信号估计的收敛，则所述逆短时傅立叶变换单元执行源信号估计到波形源信号估计的逆短时傅立叶变换。14. 一种语音去混响设备，包括确定最大化似然函数的逆滤波器估计的似然最大化单元，其中参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。15. 根据权利要求14所述的语音去混响设备，其中所述似然函数基于根据第一未知参数、第二未知参数、以及观测数据的第一随机变量所评估的概率密度函数被定义，其中参考源信号估计来定义第一未知参数，参考室内传递函数的逆滤波器来定义第二未知参数，参考观测信号和初始源信号估计来定义观测数据的第一随机变量，逆滤波器估计是室内传递函数的逆滤波器的估计。16. 根据权利要求15所述的语音去混响设备，其中所述似然最大化单元使用迭代优化算法来确定逆滤波器估计。17. 根据权利要求14所述的语音去混响设备，进一步包括将逆滤波器估计应用于观测信号并产生源信号估计的逆滤波器应用单元。18. 根据权利要求17所述的语音去混响设备，其中所述逆滤波器估计应用单元进一步包括第一逆长时傅立叶变换单元，其执行逆滤波器估计到变换后的逆滤波器估计的笫一逆长时傅立叶变换；以及巻积单元，其接收变换后的逆滤波器估计和观测信号，以及将观测信号与变换后的逆滤波器估计进行巻积以产生源信号估计。19. 根据权利要求17所述的语音去混响设备，其中所述逆滤波器应用单元进一步包括第一长时傅立叶变换单元，其执行观测信号到变换后的观测信号的第一长时傅立叶变换；第一滤波单元，其将逆滤波器估计应用于变换后的观测信号，以及产生滤波源信号估计；和第二逆长时傅立叶变换单元，其执行滤波源信号估计到源信号估计的第二逆长时傅立叶变换。20. 根据权利要求14所述的语音去混响设备，其中所述似然最大化单元进一步包括逆滤波器估计单元，其参考观测信号、第二方差、以及初始源信号估计和更新的源信号估计之一计算逆滤波器估计；收敛检验单元，其确定是否逆滤波器估计的收敛被获得，如果获得源信号估计的收敛，该收敛检验单元进一步输出逆滤波器估计作为将要对所述观测信号进行去混响的滤波器，滤波单元，如果未获得源信号估计的收敛，该滤波单元从所述收敛检验单元接收逆滤波器估计，该滤波单元进一步将逆滤波器估计应用于观测信号并产生滤波信号；源信号估计单元，其参考初始源信号估计、第一方差、第二方差、和滤波信号计算源信号估计；更新单元，其将源信号估计更新为更新的源信号估计，该更新单元进一步在初始更新步骤中提供初始源信号估计给逆滤波器估计单元，该更新单元进一步在除初始更新步骤之外的更新步骤中提供更新的源信号估计给逆滤波器估计单元。21. 根据权利要求20所述的语音去混响设备，其中所述似然最大化单元进一步包括第二长时傅立叶变换单元，其执行波形观测信号到变换后的观测信号的第二长时傅立叶变换，该第二长时傅立叶变换单元进一步将变换后的观效'J信号作为观观'j信号提供给逆滤波器估计单元和滤波单元；LTFS到STFS变换单元，其执行滤波信号到变换后的滤波信号的 LTFS到STFS变换，该LTFS到STFS变换单元进一步将变换后的滤波信号作为滤波信号提供给源信号估计单元；STFS到LTFS变换单元，其执行源信号估计到变换后的源信号估计...

【专利技术属性】
技术研发人员：中谷智广，庄炳湟，
申请(专利权)人：日本电信电话株式会社，佐治亚科技研究公司，
类型：发明
国别省市：JP[日本]

全部详细技术资料下载我是这个专利的主人