本发明专利技术公布了一种基于迭代结构的双耳混合语音分离方法。利用双耳空间线索,耳间时间差ITD(Interaural Time Difference)和耳间强度差IID(Interaural Intensity Difference)参数,对混合语音中的多个声源进行初步定位,将初次定位的声源个数和各个声源的空间方位信息作为分离依据,实现基于空间方位信息的各个声源数据流的分离和重构;随后对重构后的语音信号重新估计声源方位,利用修正后的方位信息对混合语音进行再次分离;按照上述步骤重复迭代处理后,将最后一次分离重构的各声源数据流作为最终声源分离结果。在低信噪比和强混响环境下,本发明专利技术提出的基于迭代结构和空间信息的双耳语音分离方法相比传统的双耳语音分离方法,显著提高了分离语音的感知质量。
【技术实现步骤摘要】
本专利技术涉及声源定位与语音分离领域,具体涉及一种基于迭代结构和空间方位信息的双耳混合语音分离方法。
技术介绍
双耳混合语音分离技术是一门新兴的边缘交叉学科,它涉及到人工智能、听觉心理学、听觉生理学和信号处理等多个研究领域。随着现代科学技术的飞速发展,语音分离技术在多个领域有广泛的应用前景。例如,在电话会议中,可以将多个说话人的语音加入空间信息,对主说话人进行语音的分离与增强;也可用于助听器装置中,帮助听力受损的人将注意力集中到单个说话人身上。因此,研究双耳混合语音分离技术,对于提高语音信号处理的鲁棒性,解决“鸡尾酒效应”中涉及的复杂声学环境下混合声源分离具有重要的理论和应用价值。
技术实现思路
专利技术目的:为了克服现有技术中存在的不足,本专利技术提供一种基于迭代结构和空间方位信息的双耳混合语音分离方法,将声源定位和语音分离相结合,利用声源空间方位信息作为语音分离的特征参数,而通过语音分离,改善声源定位性能,形成定位与分离的迭代结构,提高基于空间信息的混合语音分离性能。技术方案:本专利技术提供了一种基于迭代结构的双耳混合语音分离方法,包括步骤:1)参数训练阶段:1.1)使用具有方向性的双耳白噪声信号进行训练,所述双耳白噪声信号为与头相关脉冲响应函数HRIR数据与单声道白噪声信号卷积生成的方位已知的双耳白噪声信号,声源方位角θ定义为方向矢量在水平面的投影与中垂面的夹角,其范围为[-90°,90°],间隔为5°;1.2)对1.1)的双耳白噪声信号进行预处理得到分帧后的单帧双耳声信号;所述预处理包括幅度归一化、分帧加窗和端点检测;1.3)对1.2)中得到的单帧双耳声信号进行互相关函数运算,并利用三次样条插值函数对所述互相关函数进行插值处理,计算得到单帧双耳声信号的ITD估计值;同一方位所有帧ITD估计值的均值作为该方位的ITD训练值,记为ITD(θ);1.4)对1.2)中得到的单帧双耳声信号进行短时傅里叶变换,将其变换到频域,计算左耳声信号和右耳声信号在每个频点幅度谱的比值,得到IID估计值;同一方位所有帧IID估计值的均值作为该方位的IID训练值,记为IID(ω,θ),ω为角频率;2)测试过程中的定位阶段:2.1)对测试双耳混合语音信号进行预处理得到单帧双耳语音信号,包括幅度归一化处理、分帧加窗和端点检测;2.2)对2.1)得到的单帧双耳语音信号采用1.3)的方法计算得到其ITD测试值:并将计算得到的ITD测试值与步骤1)中各个方位的ITD训练值进行距离计算得到各帧双耳语音信号的方位角估计值;2.3)对2.2)中得到的所有帧的方位角信息进行直方图统计,通过检测直方图中的峰值来估计测试双耳混合语音信号中的声源个数和声源方位;3)测试过程中的语音分离阶段:利用1)得到的各方位ITD训练值及各方位不同频点的IID估计值计算测试双耳混合语音信号中每一帧中每个频点与2.3)中得到的各个声源的距离;根据最小距离原则对每帧每个频点建立二进制掩码,根据二进制掩码对每帧每个频点信号进行归类,得到不同方位声源对应的频域成分,将同一声源对应的所有帧、所有频点信号进行重构,实现不同方位声源的测试双耳混合语音信号的分离;4)迭代阶段:4.1)对3)得到的不同方位声源的双耳语音信号通过2)重新估计声源方位信息,得到修正后的声源方位信息;4.2)根据4.1)得到的修正后的声源方位信息,通过3)对测试双耳混合语音信号进行再次分离,得到再次分离后的不同方位声源数据流;4.3)重复4.1)和4.2)进行迭代,迭代结束后,多个声源的数据流为最终混合语音分离的结果。所述1.3)采用三次样条插值计算得到单帧信号的ITD估计值过程如下:在[ki,ki+1]区间上,对R(τ,k)采用三次多项式进行拟合,即:R(τ,x)=aix3+bix2+cix+di其中ai、bi、ci和di为待定系数;i表示多项式拟合时,对应的第i个坐标区间;根据二阶导数连续和边界上二阶导数为零的条件,使用三弯矩法进行求解得到基于延迟时间的互相关函数R(τ,μ),μ表示基于采样时间的延迟,τ表示第τ帧。则单帧的ITDτ定义为互相关函数R(τ,μ)最大值对应的延迟:ITDτ=argmaxμR(τ,μ)]]>将该方位角双耳声信号所有帧的ITDτ进行期望运算,得到方位为θ的ITD训练值,记为ITD(θ),即:ITD(θ)=mean(ITDτ)。所述3)的具体过程如下:3.1)对测试双耳混合语音信号的每一帧中每个频点,计算其与根据2.3)得到的各个声源的距离,从而进行频点的声源分类:J(τ,ω)=argminl|IID(δ(l),ω)XL(τ,ω)-e-jITD(δ(l))ωXR(τ,ω)|21+|IID(δ(l),ω)|2,l=1,2,...,L]]>其中J(τ,ω)代表第τ帧中第ω个频点所属的声源编号;L为声源个数,δ(l)为第l个声源的方位;3.2)根据最小距离值对每个声源建立二进制掩码:根据二进制掩码对每帧每个频点信号的双耳声信号进行分类,得到不同方位声源对应的每一帧、每个频点数据,如下式所示:S~l(τ,ω)=X(τ,ω)Ml(τ,ω)]]>其中表示第l个声源第τ帧的频点数据;对分离后的第l个声源的频域信号进行逆短时傅里叶变换ISTFT,得到声源l的第τ帧时域信号sl(τ,m):s~l(τ,m)=12π∫-ππS~l(τ,ω)ejmωdω]]>其中表示第l个声源的第τ帧时域信号;之后去加窗,去加窗后的第τ帧信号为:sl(τ,m)=wH-1(m)s~l(τN+m),0≤m<N]]>其中wH(m)为汉明窗;将去加窗后的各帧语音进行重叠相加,合成得到第l个声源的分离语音信号sl。所述2.3)中的估计混合语音中的声源为直方图中的有效峰;所述有效峰的判断依据为峰值的帧数与总帧数的比值大于阈值。所述4)迭代次数为3次。有益效果:与现有的双耳混合语音分离技术相比,本专利技术提出的基于迭代结构和空间方位信息的双耳混合语音分离方法能够明显提高声源定位与分离的效果。在低信噪比和强混响条件下,基于双耳声信号的多声源定位正确率得到有效提高。同时,基于迭代结构的语音分离方法,可以依据不同声源的空间方位信息进行语音分离,避免了单通道语音分离方法无法对清音信号进行分离的不足,同时与传统的双耳语音分离方法相比,引入的迭代结构提高了多声源定位的准确率,因此明显改善了分离后语音的感知质量。附图说明图1为本专利技术算法的系统框图。图2为本专利技术得到的各方位ITD训练值与方位角关系图。图3为本专利技术双耳空间线索提取流程图。图4本专利技术混合语音时频点分离示意图。具体实施方式下面结合附图对本专利技术作更进一步的说明。本专利技术提出了一种基于迭代结构和空间方位信息的双耳混合语音分离方法,该方法主要包括两个阶段:参数训练阶段和迭代结构的测试阶段。本专利技术首先进行参数训练,对含有方位信息的双耳白噪声信号进行预处理,包括幅度本文档来自技高网...
【技术保护点】
一种基于迭代结构的双耳混合语音分离方法,其特征在于,包括步骤:1)参数训练阶段:1.1)使用具有方向性的双耳白噪声信号进行训练;所述双耳白噪声信号由与头相关脉冲响应函数HRIR数据与单声道白噪声信号卷积生成,声源方位角θ定义为方向矢量在水平面的投影与中垂面的夹角,其范围为[‑90°,90°],间隔为5°;1.2)对1.1)的双耳白噪声信号进行预处理得到分帧后的单帧双耳声信号;所述预处理包括幅度归一化、分帧加窗和端点检测;1.3)对1.2)中得到的单帧双耳声信号进行互相关函数运算,并利用三次样条插值函数对所述互相关函数进行插值处理,计算得到单帧双耳声信号的ITD估计值;同一方位所有帧ITD估计值的均值作为该方位的ITD训练值,记为ITD(θ);1.4)对1.2)中得到的单帧双耳声信号进行短时傅里叶变换,将其变换到频域,计算左耳声信号和右耳声信号在每个频点幅度谱的比值,得到IID估计值;同一方位所有帧IID估计值的均值作为该方位的IID训练值,记为IID(ω,θ),ω为角频率;2)测试过程中的定位阶段:2.1)对测试双耳混合语音信号进行预处理得到单帧双耳语音信号,包括幅度归一化处理、分帧加窗和端点检测;2.2)对2.1)得到的单帧双耳语音信号采用1.3)的方法计算得到其ITD测试值:并将计算得到的ITD测试值与步骤1)中各个方位的ITD训练值进行距离计算得到各帧双耳语音信号的方位角估计值;2.3)对2.2)中得到的所有帧的方位角信息进行直方图统计,通过检测直方图中的峰值来估计测试双耳混合语音信号中的声源个数和声源方位;3)测试过程中的语音分离阶段:利用1)得到的各方位ITD训练值及各方位不同频点的IID估计值计算测试双耳混合语音信号中每一帧中每个频点与2.3)中得到的各个声源的距离;根据最小距离原则对每帧每个频点建立二进制掩码,根据二进制掩码对每帧每个频点信号进行归类,得到不同方位声源对应的频域成分,将同一声源对应的所有帧、所有频点信号进行重构,实现不同方位声源的测试双耳混合语音信号的分离;4)迭代阶段:4.1)对3)得到的不同方位声源的测试双耳混合语音信号通过2)重新估计声源方位信息,得到修正后的声源方位信息;4.2)根据4.1)得到的修正后的声源方位信息,通过3)对修正后的测试双耳混合语音进行再次分离,得到再次分离后的不同方位声源数据流;4.3)重复4.1)和4.2)进行迭代,迭代结束后,多个声源数据流为最终测试双耳混合语音分离的结果。...
【技术特征摘要】
1.一种基于迭代结构的双耳混合语音分离方法,其特征在于,包括步骤:1)参数训练阶段:1.1)使用具有方向性的双耳白噪声信号进行训练;所述双耳白噪声信号由与头相关脉冲响应函数HRIR数据与单声道白噪声信号卷积生成,声源方位角θ定义为方向矢量在水平面的投影与中垂面的夹角,其范围为[-90°,90°],间隔为5°;1.2)对1.1)的双耳白噪声信号进行预处理得到分帧后的单帧双耳声信号;所述预处理包括幅度归一化、分帧加窗和端点检测;1.3)对1.2)中得到的单帧双耳声信号进行互相关函数运算,并利用三次样条插值函数对所述互相关函数进行插值处理,计算得到单帧双耳声信号的ITD估计值;同一方位所有帧ITD估计值的均值作为该方位的ITD训练值,记为ITD(θ);1.4)对1.2)中得到的单帧双耳声信号进行短时傅里叶变换,将其变换到频域,计算左耳声信号和右耳声信号在每个频点幅度谱的比值,得到IID估计值;同一方位所有帧IID估计值的均值作为该方位的IID训练值,记为IID(ω,θ),ω为角频率;2)测试过程中的定位阶段:2.1)对测试双耳混合语音信号进行预处理得到单帧双耳语音信号,包括幅度归一化处理、分帧加窗和端点检测;2.2)对2.1)得到的单帧双耳语音信号采用1.3)的方法计算得到其ITD测试值:并将计算得到的ITD测试值与步骤1)中各个方位的ITD训练值进行距离计算得到各帧双耳语音信号的方位角估计值;2.3)对2.2)中得到的所有帧的方位角信息进行直方图统计,通过检测直方图中的峰值来估计测试双耳混合语音信号中的声源个数和声源方位;3)测试过程中的语音分离阶段:利用1)得到的各方位ITD训练值及各方位不同频点的IID估计值计算测试双耳混合语音信号中每一帧中每个频点与2.3)中得到的各个声源的距离;根据最小距离原则对每帧每个频点建立二进制掩码,根据二进制掩码对每帧每个频点信号进行归类,得到不同方位声源对应的频域成分,将同一声源对应的所有帧、所有频点信号进行重构,实现不同方位声源的测试双耳混合语音信号的分离;4)迭代阶段:4.1)对3)得到的不同方位声源的测试双耳混合语音信号通过2)重新估计声源方位信息,得到修正后的声源方位信息;4.2)根据4.1)得到的修正后的声源方位信息,通过3)对修正后的测试双耳混合语音进行再次分离,得到再次分离后的不同方位声源数据流;4.3)重复4.1)和4.2)进行迭代,迭代结束后,多个声源数据流为最终测试双耳混合语音分离的结果。2.根据权利要求1所述的双耳混合语音分离方法,其特征在于,所述1.3)采用三次样条插值计算得到单帧双耳声信号的ITD估计值过程如下:在[ki,ki+1]区间上,对R(τ,k)采...
【专利技术属性】
技术研发人员:周琳,李楠,束佳明,吴镇扬,
申请(专利权)人:东南大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。