车载多音区语音分离方法及电子设备和存储介质技术

技术编号：37818413 阅读：14 留言：0更新日期：2023-06-09 09:50

本发明专利技术公开一种车载多音区语音分离方法、电子设备和存储介质，其中，一种车载多音区语音分离方法，包括：将获取的高保真音频与获取的房间脉冲响应数据进行卷积，得到混合信号和至少一个语音标签；基于所述混合信号和所述至少一个语音标签训练融合波束成形的网络模型；基于预设的仿真测试集测试所述融合波束成形的网络模型，判断所述融合波束成形的网络模型是否达到预设要求；若达到预设要求，基于所述融合波束成形的网络模型预测所述混合信号和所述至少一个语音标签的波束成形的权重，得到每一音区分离信号。每一音区分离信号。每一音区分离信号。

全部详细技术资料下载

【技术实现步骤摘要】
车载多音区语音分离方法及电子设备和存储介质

[0001]本申请实施例涉及语音识别
，特别是涉及一种车载多音区语音方法及电子设备和存储介质。

技术介绍

[0002]随着汽车智能座舱的发展，对于车载多音区语音交互要求越来越高，尤其体现在多音区语音分离。
[0003]现有技术中，传统算法的车载多音区语音分离方案，主要涉及回声消除(AEC)、波束形成(BF)、盲源分离(BSS)以及后处理(POST)等技术。AEC主要作为语音分离的前处理，用于消除车载场景下，麦克风采集到的本机播放以及TTS语音播报；BF通过麦克风之间的相位信息，对各个音区进行增强；BSS基于信号源的独立性假设，通过信号的统计分布解混成若干独立成分；POST主要对分离后各个通道残余的干扰做进一步的抑制。缺陷是处理过程繁琐且各个模块较难同时达到最优，导致整体分离效果欠佳。
[0004]基于NN的车载多音区语音分离方案，也包括AEC部分，但相较于传统方案，BF、BSS、POST则采用端到端的NN(神经网络)方案代替。针对端到端的NN方案，主要分为基于时域和基于频域两大类，而基于频域的NN方案又可通过优化目标的不同分为，基于掩码的，如理想二进制掩码(IBM)或理想比率掩码(IRM)和基于映射的方法，如对数功率谱(LPS)或幅度谱(MS)。缺陷是由于仿真的房间冲激响应(RIR)与实际车内RIR有一定差距，导致NN直出的多音区分离音频失真较大，对识别，唤醒等后端影响较大。

技术实现思路

[0005]本专利技术实施例提供了一种车载多音...

【技术保护点】

【技术特征摘要】
1.一种车载多音区语音分离方法，包括：将获取的高保真音频与获取的房间脉冲响应数据进行卷积，得到混合信号和至少一个语音标签；基于所述混合信号和所述至少一个语音标签训练融合波束成形的网络模型；基于预设的仿真测试集测试所述融合波束成形的网络模型，判断所述融合波束成形的网络模型是否达到预设要求；若达到预设要求，基于所述融合波束成形的网络模型预测所述混合信号和所述至少一个语音标签的波束成形的权重，得到每一音区分离信号。2.根据权利要求1所述的方法，其中，在所述若达到预设要求，基于所述融合波束成形的网络模型预测所述混合信号和所述至少一个语音标签的波束成形的权重，得到每一音区分离信号之后，所述方法还包括；基于所述每一音区分离信号指导传统盲源分离算法进行分离，得到分离结果；基于预设实车测试集验证所述分离结果是否达到指标要求；若达到指标要求则输出多音区分离音频，用于后续的语音交互系统。3.根据权利要求1所述的方法，其中，在所述将获取的高保真音频与获取的房间脉冲响应数据进行卷积，得到混合信号和至少一个语音标签之前，所述方法还包括；采集车辆的麦克风三维坐标信息、声源位置信息和车内尺寸；基于所述麦克风三维坐标信息、声源位置信息和车内尺寸进行多音区房间脉冲响应仿真；对房间脉冲响应仿真区域的声源位置进行随机模拟采样生成批量房间脉冲响应数据。4.根据权利要求1所述的方法，其...

【专利技术属性】
技术研发人员：邹昌利，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人