一种基于语义先验的选择性注意的多通道语音增强方法技术

技术编号：14884084 阅读：99 留言：0更新日期：2017-03-24 21:29

本发明专利技术提供了一种基于语义先验的选择性注意的多通道语音增强方法，所述方法包括：多传声器阵列拾取来自于混响环境中的任意方向的语音信号，采集多路语音信号并进行预处理；利用激活词语音识别模型检测预处理后的语音信号中存在的特定激活词；对未经切割的包含激活词段的信号进行处理得到完整的激活词段；采用基于混响鲁棒的多通道相位差声源定位方法对激活词段进行分析，得到目标声源的声波到达方向；对该方向的语音进行增强，并抑制其它方向的噪声以及远讲场景下的房间混响，获取得到目标方向的增强语音。本方明的方法可用于智能家电、智能家居、车载和可穿戴设备等需要远讲式语音输入和交互的场合，特别适用于复杂的声学噪声和干扰环境场合。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音处理领域，特别涉及一种基于语义先验的选择性注意的多通道语音增强方法。
技术介绍
随着语音通信和人机语音交互系统的不断普及，人们越来越期待抛开话筒和耳机等繁琐的设备，实现类似人类对话一般自然的人机语音交流。然而，语音是一种声波，在空气中传输时会受到各种影响，例如声波的衰减，墙壁和障碍物的多次反射(混响)，同时存在的其它声源以及环境噪声等。当多个语音系统和多个说话人处于同一环境时，如何确保系统正确接收语音信息，更决定了语音系统能否走向实用。语音增强是一种复杂噪声环境中有效的提取目标语音信号的手段，分为单通道语音增强和多通道语音增强。单通道语音增强主要利用语音和噪声在时频域分布的差异而实现噪声消除。单通道语音增强的两个核心问题是噪声估计和先验信噪比估计；前者是降低噪声的关键因素，而后者则关系到残留\音乐噪声\的程度。单通道增强算法在很多情况下能够显著提高信噪比，尤其对平稳噪声(白噪声,车噪等)有较好的消除效果。多通道语音增强利用了传声器阵列拾取空间信息的能力，可以结合时域，频域以及空间信息，获得带有空间区分性的接收能力。通常，多通道语音增强需要先验的到达方位角信息，从而形成可靠的导向矢量，利用空余滤波理论，对来自非目标方向的干扰声加以抑制，相对于单通道语音增强来说，多通道语音增强具备更好的噪声抑制的能力。人类听觉之所以能处理多声源和有混响的问题，甚至还能在多人说话时检测和跟踪自己感兴趣的语音，主要原因是人类听觉具有特定的选择注意能力。当人类对某种目标声音感兴趣时，能够根据具体任务和环境，选取目标语音与周围声音最有区分性的特征，并根据先验知识进...
一种基于语义先验的选择性注意的多通道语音增强方法

【技术保护点】
一种基于语义先验的选择性注意的多通道语音增强方法，所述方法包括：多传声器阵列拾取来自于混响环境中的任意方向的语音信号，采集多路语音信号并进行预处理；利用激活词语音识别模型检测预处理后的语音信号中存在的特定激活词；对未经切割的包含激活词段的信号进行处理得到完整的激活词段；采用基于混响鲁棒的多通道相位差声源定位方法对激活词段进行分析，得到目标声源的声波到达方向；对该方向的语音进行增强，并抑制其它方向的噪声以及远讲场景下的房间混响，获取得到目标方向的增强语音。

【技术特征摘要】
1.一种基于语义先验的选择性注意的多通道语音增强方法，所述方法包括：多传声器阵列拾取来自于混响环境中的任意方向的语音信号，采集多路语音信号并进行预处理；利用激活词语音识别模型检测预处理后的语音信号中存在的特定激活词；对未经切割的包含激活词段的信号进行处理得到完整的激活词段；采用基于混响鲁棒的多通道相位差声源定位方法对激活词段进行分析，得到目标声源的声波到达方向；对该方向的语音进行增强，并抑制其它方向的噪声以及远讲场景下的房间混响，获取得到目标方向的增强语音。2.根据权利要求1所述的基于语义先验的选择性注意的多通道语音增强方法，其特征在于，所述具体方法包括：步骤1)多传声器阵列拾取来自于混响环境中的任意方向的语音信号，采集多路语音信号；步骤2)对步骤1)采集的多路语音信号进行预处理；步骤3)利用激活词语音识别模型检测预处理后的语音信号中是否存在特定的激活词；如果检测结果是肯定的，保留未经切割的包含激活词段的信号，进入步骤4)；否则，转入步骤1)；步骤4)对未经切割的包含激活词段的信号进行语音活动性检测得到完整的激活词段；采用基于混响鲁棒的多通道相位差声源定位方法对激活词段进行分析，得到目标声源的声波到达方向；对该方向的语音进行增强，并抑制残余方向性噪声和来自于环境的扩散噪声以及远讲场景下的房间混响，获取到目标方向的增强语音。3.根据权利要求2所述的基于语义先验的选择性注意的多通道语音增强方法，其特征在于，所述步骤2)的具体过程为：如果多路语音信号中存在声学回波，对拾取到的多路语音信号进行回波抵消、抑制扩散背景噪声以及增益控制；否则，只对多路语音信号进行扩散背景噪声抑制和增益控制。4.根据权利要求2所述的基于语义先验的选择性注意的多通道语音增强方法，其特征在于，所述步骤3)中的利用激活词语音识别模型检测预处理后的语音信号中是否存在特定的激活词的具体过程为：根据先验的大量激...

【专利技术属性】
技术研发人员：付强，王晓飞，国雁萌，颜永红，
申请(专利权)人：中国科学院声学研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人