一种基于迭代结构的双耳混合语音分离方法技术

技术编号：14512454 阅读：66 留言：0更新日期：2017-02-01 10:12

本发明专利技术公布了一种基于迭代结构的双耳混合语音分离方法。利用双耳空间线索，耳间时间差ITD(Interaural Time Difference)和耳间强度差IID(Interaural Intensity Difference)参数，对混合语音中的多个声源进行初步定位，将初次定位的声源个数和各个声源的空间方位信息作为分离依据，实现基于空间方位信息的各个声源数据流的分离和重构；随后对重构后的语音信号重新估计声源方位，利用修正后的方位信息对混合语音进行再次分离；按照上述步骤重复迭代处理后，将最后一次分离重构的各声源数据流作为最终声源分离结果。在低信噪比和强混响环境下，本发明专利技术提出的基于迭代结构和空间信息的双耳语音分离方法相比传统的双耳语音分离方法，显著提高了分离语音的感知质量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及声源定位与语音分离领域，具体涉及一种基于迭代结构和空间方位信息的双耳混合语音分离方法。
技术介绍
双耳混合语音分离技术是一门新兴的边缘交叉学科，它涉及到人工智能、听觉心理学、听觉生理学和信号处理等多个研究领域。随着现代科学技术的飞速发展，语音分离技术在多个领域有广泛的应用前景。例如，在电话会议中，可以将多个说话人的语音加入空间信息，对主说话人进行语音的分离与增强；也可用于助听器装置中，帮助听力受损的人将注意力集中到单个说话人身上。因此，研究双耳混合语音分离技术，对于提高语音信号处理的鲁棒性，解决“鸡尾酒效应”中涉及的复杂声学环境下混合声源分离具有重要的理论和应用价值。
技术实现思路
专利技术目的：为了克服现有技术中存在的不足，本专利技术提供一种基于迭代结构和空间方位信息的双耳混合语音分离方法，将声源定位和语音分离相结合，利用声源空间方位信息作为语音分离的特征参数，而通过语音分离，改善声源定位性能，形成定位与分离的迭代结构，提高基于空间信息的混合语音分离性能。技术方案：本专利技术提供了一种基于迭代结构的双耳混合语音分离方法，包括步骤：1)参数训练阶段：1.1)使用具有方向性的双耳白噪声信号进行训练，所述双耳白噪声信号为与头相关脉冲响应函数HRIR数据与单声道白噪声信号卷积生成的方位已知的双耳白噪声信号，声源方位角θ定义为方向矢量在水平面的投影与中垂面的夹角，其范围为[-90°,90°]，间隔为5°；1.2)对1.1)的双耳白噪声信号进行预处理得到分帧后的单帧双耳声信号；所述预处理包括幅度归一化、分帧加窗和端点检测；1.3)对1.2)中得到的单帧双...

【技术保护点】
一种基于迭代结构的双耳混合语音分离方法，其特征在于，包括步骤：1)参数训练阶段：1.1)使用具有方向性的双耳白噪声信号进行训练；所述双耳白噪声信号由与头相关脉冲响应函数HRIR数据与单声道白噪声信号卷积生成，声源方位角θ定义为方向矢量在水平面的投影与中垂面的夹角，其范围为[‑90°,90°]，间隔为5°；1.2)对1.1)的双耳白噪声信号进行预处理得到分帧后的单帧双耳声信号；所述预处理包括幅度归一化、分帧加窗和端点检测；1.3)对1.2)中得到的单帧双耳声信号进行互相关函数运算，并利用三次样条插值函数对所述互相关函数进行插值处理，计算得到单帧双耳声信号的ITD估计值；同一方位所有帧ITD估计值的均值作为该方位的ITD训练值，记为ITD(θ)；1.4)对1.2)中得到的单帧双耳声信号进行短时傅里叶变换，将其变换到频域，计算左耳声信号和右耳声信号在每个频点幅度谱的比值，得到IID估计值；同一方位所有帧IID估计值的均值作为该方位的IID训练值，记为IID(ω,θ)，ω为角频率；2)测试过程中的定位阶段：2.1)对测试双耳混合语音信号进行预处理得到单帧双耳语音信号，包括幅度归一化处理、分帧加...

【技术特征摘要】
1.一种基于迭代结构的双耳混合语音分离方法，其特征在于，包括步骤：1)参数训练阶段：1.1)使用具有方向性的双耳白噪声信号进行训练；所述双耳白噪声信号由与头相关脉冲响应函数HRIR数据与单声道白噪声信号卷积生成，声源方位角θ定义为方向矢量在水平面的投影与中垂面的夹角，其范围为[-90°,90°]，间隔为5°；1.2)对1.1)的双耳白噪声信号进行预处理得到分帧后的单帧双耳声信号；所述预处理包括幅度归一化、分帧加窗和端点检测；1.3)对1.2)中得到的单帧双耳声信号进行互相关函数运算，并利用三次样条插值函数对所述互相关函数进行插值处理，计算得到单帧双耳声信号的ITD估计值；同一方位所有帧ITD估计值的均值作为该方位的ITD训练值，记为ITD(θ)；1.4)对1.2)中得到的单帧双耳声信号进行短时傅里叶变换，将其变换到频域，计算左耳声信号和右耳声信号在每个频点幅度谱的比值，得到IID估计值；同一方位所有帧IID估计值的均值作为该方位的IID训练值，记为IID(ω,θ)，ω为角频率；2)测试过程中的定位阶段：2.1)对测试双耳混合语音信号进行预处理得到单帧双耳语音信号，包括幅度归一化处理、分帧加窗和端点检测；2.2)对2.1)得到的单帧双耳语音信号采用1.3)的方法计算得到其ITD测试值：并将计算得到的ITD测试值与步骤1)中各个方位的ITD训练值进行距离计算得到各帧双耳语音信号的方位角估计值；2.3)对2.2)中得到的所有帧的方位角信息进行直方图统计，通过检测直方图中的峰值来估计测试双耳混合语音信号中的声源个数和声源方位；3)测试过程中的语音分离阶段：利用1)得到的各方位ITD训练值及各方位不同频点的IID估计值计算测试双耳混合语音信号中每一帧中每个频点与2.3)中得到的各个声源的距离；根据最小距离原则对每帧每个频点建立二进制掩码，根据二进制掩码对每帧每个频点信号进行归类，得到不同方位声源对应的频域成分，将同一声源对应的所有帧、所有频点信号进行重构，实现不同方位声源的测试双耳混合语音信号的分离；4)迭代阶段：4.1)对3)得到的不同方位声源的测试双耳混合语音信号通过2)重新估计声源方位信息，得到修正后的声源方位信息；4.2)根据4.1)得到的修正后的声源方位信息，通过3)对修正后的测试双耳混合语音进行再次分离，得到再次分离后的不同方位声源数据流；4.3)重复4.1)和4.2)进行迭代，迭代结束后，多个声源数据流为最终测试双耳混合语音分离的结果。2.根据权利要求1所述的双耳混合语音分离方法，其特征在于，所述1.3)采用三次样条插值计算得到单帧双耳声信号的ITD估计值过程如下：在[ki,ki+1]区间上，对R(τ,k)采...

【专利技术属性】
技术研发人员：周琳，李楠，束佳明，吴镇扬，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人