基于源和室内声学的概率模型的语音去混响方法和设备技术

技术编号:3048289 阅读:210 留言:0更新日期:2012-04-11 18:40
通过接受用于初始化(1000)的观测信号以及执行包括傅立叶变换(4000)的似然最大化(2000)来实现语音去混响。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术通常涉及用于语音去混响的方法和设备。更具体而言,本发 明涉及基于源和室内声学的概率模型的语音去混响方法和设备
技术介绍
以下在本申请中将被引用或标识的所有专利、专利申请、专利公开、 科学文献等等将在此以其整体被包含作为参考以便更全面地描述本发 明所属
的状态。在普通室内通过远距离麦克风捕获的语音信号不可避免地包含混 响,这对于语音信号的感知质量和清晰度具有有害的影响并且使自动语音识别(ASR)系统的性能降低。当混响时间长于0.5秒时,甚至当使 用已经在匹配的混响条件下被训练的声学模型时,不能够提高识别性 能。这在B. Kingsbury和N. Morgan的Recognizing reverberant speech with rasta-plp,,( Proc. 1997 IEEE International Conference Acoustic Speech and Signal Processing ( ICASSP-97 ) , Vol.2,第1259—1262 页,1997年)中被公开。语音信号的去混响无论对于高质量记录和重放 或对于自动语音识别(ASR)都是必需的。尽管语音信号的盲去混响仍是有挑战性的问题,但是近来已经提出 若干技术。已经提出将观测信号去相关同时在信号的短时间段内保持相 关性的4支术。这由B.W.Gillespie和L. E. Atlas的Strategies for improving audible quality and speech recognition accuracy of reverberant speech (Proc. 2003 IEEE International Conference Acoustics, Speech and Signal Processing ( ICASSP-2003 ) , Vol.1, 第676-679页,2003年)公开。这还由H. Buchner、 R. Aichner、和 W. Kellemann的 Trinicon: a versat i le f ramework f or mul t ichannel blind signal processing (Proc. of the 2004 IEEE International Conference Acoustics, Speech and Signal Processing( ICASSP-2004 ), Vol. III,第889-892页,2004年5月)公开。已经提出用于估计和均衡室内的声响应中的极点的方法。这由T. Hikichi禾口 M. Miyoshi的 B1 ind algor i thm for calculat ing common poles based on linear prediction ( Proc. of the 2004 IEEE International Conference on Acoustics , Speech , and Signal Processing ( ICASSP 2004 ) , Vol. IV,第89-92页,2004年5月)公 开。这还由J. R. Hopgood和P丄W. Rayner的 Blind single channel deconvolution using nonstationary signal processing ( IEEE Transact ions Speech and Audio process ing, vol. 11, no. 5,第467-488 页,2003年9月)公开。而且,已经提出基于语音信号的本质特征的两种方法,即在下文中 被称为HERB的基于调和性的去混响、和在下文中被称为SBD的基于稀 發u'l生的去'混响。HERB 由 T. Nakatani禾口 M. Miyoshi 的 Blind dereverberat ion of single channel speech signal based on harmonic structure (Proc. ICASSP-2003, vol,l,第92-95页,2003年4月) 公开。首次出版第2004-274234号的日本未审查专利申请公开了用于 HERB的传统4支术的一个实例。SBD由K. Kinoshita、 T. Nakatani和 M.Miyoshi 的 Efficient blind dereverberation framework for automatic speech recognition (Proc. Interspeech-2005, 2005年 9月)公开。这些方法广泛使用源信号的初始估计中的各语音特征。然后,初始 源信号估计和观测到的混响信号被 一 起用于估计用于去混响的逆滤波 器,这允许进一步改进源信号估计。为了获得初始源信号估计,HERB利 用自适应谐波滤波器,以及SBD利用基于最小统计的频谱相减。在实验 上已经显示如果信号足够长,这些方法大大地提高观测到的混响信号 的ASR性能。用于语音去混响的改进设备和/或方法的需要。本专利技术解决本领域中的 这种需要以及其他需要,这对于本领域普通技术人员来说根据本公开内 容将会变得显而易见。
技术实现思路
相应地,本专利技术的主要目的是提供语音去混响设备。 本专利技术的另一个目的是提供语音去混响方法。本专利技术的再 一 个目的是提供将通过计算机执行的用于执行语音去 混响方法的程序。本专利技术的又一个目的是提供存储将通过计算机执行的用于执行语 音去混响方法的程序的存储介质。根据本专利技术的第 一 方面,语音去混响设备包括确定最大化似然函数 的源信号估计的似然最大化单元。参考观测信号、初始源信号估计、表 示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进 行所述确定。所述似然函数可以优选地基于根据未知参数、丢失数据的第 一 随机 变量、和观测数据的第二随机变量所评估的概率密度函数被定义。参考 源信号估计来定义未知参数。丟失数据的第一随机变量表示室内传递函 数的逆滤波器。参考观测信号和初始源信号估计来定义观测数据的第二 随机变量。上述似然最大化单元可以优选地使用迭代优化算法来确定源信号 估计。迭代优化算法可以优选地是期望最大化算法。似然最大化单元可以进一步包括但不限于逆滤波器估计单元、滤波 单元、源信号估计和收敛检验单元、以及更新单元。所述逆滤波器估计 单元参考观测信号、第二方差、以及初始源信号估计和更新的源信号估 计之一计算逆滤波器估计。滤波单元将逆滤波器估计应用于观测信号, 并且产生滤波信号。源信号估计和收敛检验单元参考初始源信号估计、 第一方差、第二方差、和滤波信号计算源信号估计。源信号估计和收敛 检验单元进一 步确定是否源信号估计的收敛被获得。如果源信号估计的 收敛被获得,所述源信号估计和收敛检验单元进一步输出源信号估计作 为去混响的信号。所述更新单元将源信号估计更新为更新的源信号估 计。如果源信号估计的收敛未被获得,则所述更新单元进一步提供更新 的源信号估计给逆滤波器估计单元。该更新单元进一步在初始更新步骤 中提供初始源本文档来自技高网
...

【技术保护点】
一种语音去混响设备,包括: 确定最大化似然函数的源信号估计的似然最大化单元,其中参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。

【技术特征摘要】
【国外来华专利技术】1. 一种语音去混响设备,包括确定最大化似然函数的源信号估计的似然最大化单元,其中参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。2. 根据权利要求1所述的语音去混响设备,其中所述似然函数基 于根据未知参数、丢失数据的笫一随机变量、和观测数据的第二随机变 量所评估的概率密度函数被定义,其中参考源信号估计来定义所述未知 参数,丟失数据的第一随机变量表示室内传递函数的逆滤波器,以及参 考观测信号和初始源信号估计来定义观测数据的第二随机变量。3. 根据权利要求2所述的语音去混响设备,其中所述似然最大化 单元使用迭代优化算法来确定源信号估计。4. 根据权利要求3所述的语音去混响设备,其中所述迭代优化算 法是期望最大化算法。5. 根据权利要求1所述的语音去混响设备,其中所述似然最大化 单元进一步包括逆滤波器估计单元,其参考观测信号、第二方差、以及初始源信号 估计和更新的源信号估计之一来计算逆滤波器估计;滤波单元,其将逆滤波器估计应用于观测信号并产生滤波信号;源信号估计和收敛检验单元,其参考初始源信号估计、第一方差、 第二方差、和滤波信号来计算源信号估计,所述源信号估计和收敛检验 单元进一 步确定是否源信号估计的收敛被获得,如果源信号估计的收敛 被获得,所述源信号估计和收敛检验单元进一步输出源信号估计作为去 混响的信号;以及更新单元,其将所述源信号估计更新为更新的源信号估计,如果源 信号估计的收敛未被获得,所述更新单元进一步提供更新的源信号估计 给逆滤波器估计单元,以及所述更新单元在初始更新步骤中进一步提供 所述初始源信号估计给逆滤波器估计单元。6. 根据权利要求5所述的语音去混响设备,其中所述似然最大化 单元进一步包括第一长时傅立叶变换单元,其执行波形观测信号到变换后的观测信 号的第一长时傅立叶变换,该第一长时傅立叶变换单元进一步将变换后的观测信号作为观测信号提供给逆滤波器估计单元和滤波单元;LTFS到STFS变换单元,其执行滤波信号到变换后的滤波信号的LTFS到STFS变换,该LTFS到STFS变换单元进一步将变换后的滤波信号作为滤波信号提供给源信号估计和收敛检验单元;STFS到LTFS变换单元,其执行源信号估计到变换后的源信号估计的STFS到LTFS变换,如果源信号估计的收敛未^皮获得,该STFS到LTFS变换单元进一步将变换后的源信号估计作为源信号估计提供给更新单元;第二长时傅立叶变换单元,其执行波形初始源信号估计到第一变换 初始源信号估计的第二长时傅立叶变换,该第二长时傅立叶变换进一步 将第一变换初始源信号估计作为初始源信号估计提供给更新单元;以及短时傅立叶变换单元,其执行波形初始源信号估计到第二变换初始 源信号估计的短时傅立叶变换,该短时傅立叶变换单元进一步将第二变 换初始源信号估计作为初始源信号估计提供给源信号估计和收敛检验 单元。7. 根据权利要求1所述的语音去混响设备,进一步包括执行源信号估计到波形源信号估计的逆短时傅立叶变换的逆短时 4專立叶变4灸单元。8. 根据权利要求1所述的语音去混响设备,进一步包括 基于观测信号产生初始源信号估计、第一方差、和第二方差的初始化单元。9. 根据权利要求8所述的语音去混响设备,其中所述初始化单元 进一步包括基频估计单元,其估计来自变换后的信号的每个短时间帧的基频和 发声量度,其中通过观测信号的短时傅立叶变换来给定所述变换后的信 号;以及源信号不确定性确定单元,其基于所述基频和发声量度确定第一方差。10. 根据权利要求1所述的语音去混响设备,进一步包括 初始化单元,其基于观测信号产生初始源信号估计、第一方差、和第二方差;和收敛检验单元,其从似然最大化单元接收源信号估计,该收敛检验单元确定是否源信号估计的收敛被获得,如果获得源信号估计的收敛, 则所述收敛检验单元进一步输出源信号估计作为去混响的信号,并且如 果未获得源信号估计的收敛,则所述收敛检验单元进一步提供源信号估 计给初始化单元以使初始化单元能够基于该源信号估计产生初始源信 号估计、第一方差、和第二方差。11. 根据权利要求10所述的语音去混响设备,其中所述初始化单元进一步包括第二短时傅立叶变换单元,其执行观测信号到第 一变换观测信号的第二短时傅立叶变换;第 一选择单元,其执行第 一选择操作以产生第 一选择输出以及第二 选择操作以产生第二选择输出,第一和笫二选择操作是相互独立的,当所述第一选择单元接收第一变换观测信号的输入而不接收源信号估计 的任何输入时,第 一选择操作用于选择第 一变换观测信号作为第 一选择 输出,而当所述第一选择单元接收第一变换观测信号和源信号估计的输 入时,第 一选择操作用于选择第 一 变换观测信号和源信号估计之一作为 第一选择输出,当所述第 一选择单元接收第 一变换观测信号的输入而不 接收源信号估计的任何输入时,第二选择操作用于选择第 一 变换观测信 号作为第二选择输出,而当所述第 一选择单元接收第 一变换观测信号和 源信号估计的输入时,第二选择操作用于选择第 一变换观测信号和源信 号估计之一作为第二选择输出;基频估计单元,其接收第二选择输出并估计来自第二选择输出的每 个短时间帧的基频和发声量度;以及自适应谐波滤波单元,其接收第一选择输出、基频和发声量度,该 自适应谐波滤波单元基于基频和发声量度增强第 一选择输出的谐波结 构以产生初始源信号估计。12. 根据权利要求10所述的语音去混响设备,其中所述初始化单 元进一步包括第三短时傅立叶变换单元,其执行观测信号到第二变换观测信号的 第三短时傅立叶变换;第二选择单元,其执行笫三选择操作以产生第三选择输出,当所迷 第二选择单元接收第二变换观测信号的输入而不接收源信号估计的任 何输入时,第三选择操作用于选择第二变换观测信号作为第三选择输出,而当所述第二选择单元接收第二变换观测信号和源信号估计的输入 时,第三选择操作用于选择第二变换观测信号和源信号估计之一作为第三选择输出;基频估计单元,其接收第三选择输出并估计来自第三选择输出的每 个短时间帧的基频和发声量度;以及源信号不确定性确定单元,其基于基频和发声量度确定第一方差。13. 根据权利要求10所述的语音去混响设备,进一步包括 逆短时傅立叶变换单元,如果获得源信号估计的收敛,则所述逆短时傅立叶变换单元执行源信号估计到波形源信号估计的逆短时傅立叶 变换。14. 一种语音去混响设备,包括确定最大化似然函数的逆滤波器估计的似然最大化单元,其中参考 观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示 声学环境不确定性的第二方差进行所述确定。15. 根据权利要求14所述的语音去混响设备,其中所述似然函数 基于根据第一未知参数、第二未知参数、以及观测数据的第一随机变量 所评估的概率密度函数被定义,其中参考源信号估计来定义第一未知参 数,参考室内传递函数的逆滤波器来定义第二未知参数,参考观测信号 和初始源信号估计来定义观测数据的第一随机变量,逆滤波器估计是室 内传递函数的逆滤波器的估计。16. 根据权利要求15所述的语音去混响设备,其中所述似然最大 化单元使用迭代优化算法来确定逆滤波器估计。17. 根据权利要求14所述的语音去混响设备,进一步包括将逆滤波器估计应用于观测信号并产生源信号估计的逆滤波器应 用单元。18. 根据权利要求17所述的语音去混响设备,其中所述逆滤波器 估计应用单元进一步包括第一逆长时傅立叶变换单元,其执行逆滤波器估计到变换后的逆滤波器估计的笫一逆长时傅立叶变换;以及巻积单元,其接收变换后的逆滤波器估计和观测信号,以及将观测 信号与变换后的逆滤波器估计进行巻积以产生源信号估计。19. 根据权利要求17所述的语音去混响设备,其中所述逆滤波器应用单元进一步包括第 一长时傅立叶变换单元,其执行观测信号到变换后的观测信号的 第一长时傅立叶变换;第一滤波单元,其将逆滤波器估计应用于变换后的观测信号,以及 产生滤波源信号估计;和第二逆长时傅立叶变换单元,其执行滤波源信号估计到源信号估计 的第二逆长时傅立叶变换。20. 根据权利要求14所述的语音去混响设备,其中所述似然最大 化单元进一步包括逆滤波器估计单元,其参考观测信号、第二方差、以及初始源信号 估计和更新的源信号估计之一计算逆滤波器估计;收敛检验单元,其确定是否逆滤波器估计的收敛被获得,如果获得 源信号估计的收敛,该收敛检验单元进一步输出逆滤波器估计作为将要 对所述观测信号进行去混响的滤波器,滤波单元,如果未获得源信号估计的收敛,该滤波单元从所述收敛 检验单元接收逆滤波器估计,该滤波单元进一步将逆滤波器估计应用于 观测信号并产生滤波信号;源信号估计单元,其参考初始源信号估计、第一方差、第二方差、 和滤波信号计算源信号估计;更新单元,其将源信号估计更新为更新的源信号估计,该更新单元 进一步在初始更新步骤中提供初始源信号估计给逆滤波器估计单元,该 更新单元进一步在除初始更新步骤之外的更新步骤中提供更新的源信 号估计给逆滤波器估计单元。21. 根据权利要求20所述的语音去混响设备,其中所述似然最大 化单元进一步包括第二长时傅立叶变换单元,其执行波形观测信号到变换后的观测信 号的第二长时傅立叶变换,该第二长时傅立叶变换单元进一步将变换后 的观效'J信号作为观观'j信号提供给逆滤波器估计单元和滤波单元;LTFS到STFS变换单元,其执行滤波信号到变换后的滤波信号的 LTFS到STFS变换,该LTFS到STFS变换单元进一步将变换后的滤波信 号作为滤波信号提供给源信号估计单元;STFS到LTFS变换单元,其执行源信号估计到变换后的源信号估计...

【专利技术属性】
技术研发人员:中谷智广庄炳湟
申请(专利权)人:日本电信电话株式会社佐治亚科技研究公司
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1