一种多模态语音拒识识别方法技术

技术编号:39791330 阅读:12 留言:0更新日期:2023-12-22 02:28
本发明专利技术公开了一种多模态语音拒识识别方法,其综合人脸面部方向识别结果

【技术实现步骤摘要】
一种多模态语音拒识识别方法


[0001]本专利技术涉及语音交互
,更具体的说是涉及一种多模态语音拒识识别方法


技术介绍

[0002]语音交互技术的发展已经成为了人工智能领域的热点之一,越来越多的应用场景开始采用语音交互作为用户与设备之间的主要交互方式

然而,在实际应用中,由于环境噪声

其他人说话声等干扰因素的存在,语音交互系统往往会出现误识别现象,导致用户体验下降

因此,提高语音交互系统的拒识识别能力已经成为当前语音交互技术研究的热点之一

[0003]语音拒识识别技术的研究背景可以追溯到上世纪
90
年代初期,当时的语音识别技术主要基于传统的模板匹配算法,对于环境噪声和其他人说话声等干扰因素的处理效果较差

随着深度学习技术的发展,语音识别技术得到了很大的提升,但是在全双工场景下,仍然存在着干扰因素对语音识别的影响

[0004]因此,如何提供一种语音拒识识别方法,以提高语音交互系统的拒识识别能力是本领域技术人员亟需解决的问题


技术实现思路

[0005]有鉴于此,本专利技术的目的是提供一种多模态语音拒识识别方法,其可以显著提高语音交互系统的拒识识别能力

[0006]为了实现上述目的,本专利技术采用如下技术方案:
[0007]一种多模态语音拒识识别方法,包括以下步骤:
[0008]S1
:基于人脸检测算法获取待识别人脸图像的人脸框;
[0009]对所述待识别人脸图像的人脸框进行关键点定位,并基于关键点定位结果计算获得待识别人脸图像的特征描述符;
[0010]将所述待识别人脸图像的特征描述符输入到最终人脸方向预测模型中,以获得待识别人脸图像的方向标签;
[0011]对待识别语音信号进行特征提取和特征预处理;
[0012]将预处理后的特征输入到最终语音转文本模型中,以获得待识别语音信号的对应文本;
[0013]将所述待识别语音信号的对应文本输入到最终困惑度评估模型,以获得待识别语音信号的困惑度;
[0014]对所述待识别语音信号的对应文本进行文本预处理,并将预处理后的文本转换为文本向量;
[0015]将所述文本向量输入到最终意图分类模型中,以获得待识别语音信号的意图标签;
[0016]S2
:基于待识别人脸图像的方向标签

待识别语音信号的困惑度以及待识别语音信号的意图标签综合判断是否拒绝识别所述待识别语音信号

[0017]优选的,上述多模态语音拒识识别方法进一步包括获取所述最终人脸方向预测模型的方法:
[0018]获取人脸图像数据集;所述人脸图像数据集中各个人脸图像均标注有第一人脸框和方向标签;
[0019]基于人脸检测算法获取所述人脸图像数据集中各个人脸图像的第二人脸框;
[0020]对所述人脸图像数据集中各个人脸图像的第二人脸框进行关键点定位,并基于关键点定位结果计算获得人脸图像数据集中各个人脸图像的特征描述符;
[0021]构建初始人脸方向预测模型;
[0022]基于人脸图像数据集中各个人脸图像的特征描述符

人脸图像数据集中各个人脸图像的第一人脸框和人脸图像数据集中各个人脸图像的方向标签对所述初始人脸方向预测模型进行训练,以获得最终人脸方向预测模型

[0023]优选的,上述多模态语音拒识识别方法进一步包括获取所述最终语音转文本模型的方法:
[0024]获取语音数据集,所述语音数据集中各个语音信号均标注有其对应的文本;
[0025]对所述语音数据集中各个信号进行特征提取和特征预处理;
[0026]构建初始语音转文本模型;
[0027]基于预处理后的特征对所述初始语音转文本模型进行训练并优化,以获得最终语音转文本模型

[0028]优选的,所述最终困惑度评估模型由
n

gram
模型或者深度学习模型训练获得

[0029]优选的,上述多模态语音拒识识别方法进一步包括获取所述最终意图分类模型的方法:
[0030]获取文本数据集,所述文本数据集中各个文本数据均标注有意图标签;
[0031]对所述文本数据集中各个文本数据进行文本预处理,并将预处理后的各个文本数据转换为各个文本向量;
[0032]构建初始意图分类模型;
[0033]基于各个文本向量和文本数据集中各个文本数据的意图标签对所述初始意图分类模型进行训练,以获得最终意图分类模型

[0034]优选的,人脸检测算法包括
Haar
级联算法
、HOG
算法或基于深度学习的算法

[0035]优选的,特征描述符的计算方法采用局部二值模式

人脸形状描述符或基于深度学习的方法

[0036]优选的,所述初始语音转文本模型采用
Conformer
模型
,
所述
Conformer
模型基于深度学习框架
PyTorch

TensorFlow
实现

[0037]优选的,文本预处理包括去除停用词

去除标点符号

去除特殊字符

进行词干化和词形还原

[0038]优选的,初始意图分类模型采用支持向量机模型

随机森林模型

逻辑回归模型或者深度学习模型

[0039]经由上述的技术方案可知,与现有技术相比,本专利技术提供了一种多模态语音拒识
识别方法,其综合人脸面部方向识别结果

语音转文本后的文本困惑度以及文本意图这三个指标来判断是否拒识别

本专利技术可以显著提高语音交互系统的拒识识别能力

附图说明
[0040]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图

[0041]图1为本专利技术提供的多模态语音拒识识别方法的整体流程图

具体实施方式
[0042]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚

完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例

基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种多模态语音拒识识别方法,其特征在于,包括以下步骤:
S1
:基于人脸检测算法获取待识别人脸图像的人脸框;对所述待识别人脸图像的人脸框进行关键点定位,并基于关键点定位结果计算获得待识别人脸图像的特征描述符;将所述待识别人脸图像的特征描述符输入到最终人脸方向预测模型中,以获得待识别人脸图像的方向标签;对待识别语音信号进行特征提取和特征预处理;将预处理后的特征输入到最终语音转文本模型中,以获得待识别语音信号的对应文本;将所述待识别语音信号的对应文本输入到最终困惑度评估模型,以获得待识别语音信号的困惑度;对所述待识别语音信号的对应文本进行文本预处理,并将预处理后的文本转换为文本向量;将所述文本向量输入到最终意图分类模型中,以获得待识别语音信号的意图标签;
S2
:基于待识别人脸图像的方向标签

待识别语音信号的困惑度以及待识别语音信号的意图标签综合判断是否拒绝识别所述待识别语音信号
。2.
根据权利要求1所述的多模态语音拒识识别方法,其特征在于,进一步包括获取所述最终人脸方向预测模型的方法:获取人脸图像数据集;所述人脸图像数据集中各个人脸图像均标注有第一人脸框和方向标签;基于人脸检测算法获取所述人脸图像数据集中各个人脸图像的第二人脸框;对所述人脸图像数据集中各个人脸图像的第二人脸框进行关键点定位,并基于关键点定位结果计算获得人脸图像数据集中各个人脸图像的特征描述符;构建初始人脸方向预测模型;基于人脸图像数据集中各个人脸图像的特征描述符

人脸图像数据集中各个人脸图像的第一人脸框和人脸图像数据集中各个人脸图像的方向标签对所述初始人脸方向预测模型进行训练,以获得最终人脸方向预测模型
。3.
根据权利要求1所述的多模态语音拒识识别方法,其特征在于,进一步包括获取所述最终语音转文本模型的方法:获取语音数据集,所述语音数据集中各个语音信号均标注有其对应的文本;对所述语音数据集中各个信号进行特征提取和特征预处理;构建初始语音转文本模型;基于预处理后的特征对所述初始语音转文本模型进行训练并优化,以获得最终语音转文本模型
...

【专利技术属性】
技术研发人员:王建英苏江
申请(专利权)人:暗物智能科技广州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1