【技术实现步骤摘要】
一种多模态语音拒识识别方法
[0001]本专利技术涉及语音交互
,更具体的说是涉及一种多模态语音拒识识别方法
。
技术介绍
[0002]语音交互技术的发展已经成为了人工智能领域的热点之一,越来越多的应用场景开始采用语音交互作为用户与设备之间的主要交互方式
。
然而,在实际应用中,由于环境噪声
、
其他人说话声等干扰因素的存在,语音交互系统往往会出现误识别现象,导致用户体验下降
。
因此,提高语音交互系统的拒识识别能力已经成为当前语音交互技术研究的热点之一
。
[0003]语音拒识识别技术的研究背景可以追溯到上世纪
90
年代初期,当时的语音识别技术主要基于传统的模板匹配算法,对于环境噪声和其他人说话声等干扰因素的处理效果较差
。
随着深度学习技术的发展,语音识别技术得到了很大的提升,但是在全双工场景下,仍然存在着干扰因素对语音识别的影响
。
[0004]因此,如何提供一种语音拒识识别方法,以提高语音交互系统的拒识识别能力是本领域技术人员亟需解决的问题
。
技术实现思路
[0005]有鉴于此,本专利技术的目的是提供一种多模态语音拒识识别方法,其可以显著提高语音交互系统的拒识识别能力
。
[0006]为了实现上述目的,本专利技术采用如下技术方案:
[0007]一种多模态语音拒识识别方法,包括以下步骤:
[0008]S1
:基于人脸检测 ...
【技术保护点】
【技术特征摘要】
1.
一种多模态语音拒识识别方法,其特征在于,包括以下步骤:
S1
:基于人脸检测算法获取待识别人脸图像的人脸框;对所述待识别人脸图像的人脸框进行关键点定位,并基于关键点定位结果计算获得待识别人脸图像的特征描述符;将所述待识别人脸图像的特征描述符输入到最终人脸方向预测模型中,以获得待识别人脸图像的方向标签;对待识别语音信号进行特征提取和特征预处理;将预处理后的特征输入到最终语音转文本模型中,以获得待识别语音信号的对应文本;将所述待识别语音信号的对应文本输入到最终困惑度评估模型,以获得待识别语音信号的困惑度;对所述待识别语音信号的对应文本进行文本预处理,并将预处理后的文本转换为文本向量;将所述文本向量输入到最终意图分类模型中,以获得待识别语音信号的意图标签;
S2
:基于待识别人脸图像的方向标签
、
待识别语音信号的困惑度以及待识别语音信号的意图标签综合判断是否拒绝识别所述待识别语音信号
。2.
根据权利要求1所述的多模态语音拒识识别方法,其特征在于,进一步包括获取所述最终人脸方向预测模型的方法:获取人脸图像数据集;所述人脸图像数据集中各个人脸图像均标注有第一人脸框和方向标签;基于人脸检测算法获取所述人脸图像数据集中各个人脸图像的第二人脸框;对所述人脸图像数据集中各个人脸图像的第二人脸框进行关键点定位,并基于关键点定位结果计算获得人脸图像数据集中各个人脸图像的特征描述符;构建初始人脸方向预测模型;基于人脸图像数据集中各个人脸图像的特征描述符
、
人脸图像数据集中各个人脸图像的第一人脸框和人脸图像数据集中各个人脸图像的方向标签对所述初始人脸方向预测模型进行训练,以获得最终人脸方向预测模型
。3.
根据权利要求1所述的多模态语音拒识识别方法,其特征在于,进一步包括获取所述最终语音转文本模型的方法:获取语音数据集,所述语音数据集中各个语音信号均标注有其对应的文本;对所述语音数据集中各个信号进行特征提取和特征预处理;构建初始语音转文本模型;基于预处理后的特征对所述初始语音转文本模型进行训练并优化,以获得最终语音转文本模型
...
【专利技术属性】
技术研发人员:王建英,苏江,
申请(专利权)人:暗物智能科技广州有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。