一种基于多模态的AI数字人情感分析方法技术

技术编号：34107408 阅读：61 留言：0更新日期：2022-07-12 00:43

本发明专利技术公开了一种基于多模态的AI数字人情感分析方法，包括以下步骤：S1、人脸表情识别情感判断，输出结果a输入多模态情感分析模块；S2、语音情感识别判断，输出结果e至多模态情感分析模块；S3、文本情感识别判断，输出结果f至多模态情感分析模块；S4、在多模态情感分析模块中，对结果a、e、f进行情感随机组合判断，取随机情感组合情况的平均概率值，作为最终情感判断结果g，并输出至AI数字人。本发明专利技术中，通过多模态对用户情感状态判别，可以最全面最准确地把握用户的情感状态，准确把握用户所表达的意思，本方法不仅适用于金融场景下的聊天机器人，也可以作为其他垂直领域，比如医疗、教育、服务等领域的聊天机器人。服务等领域的聊天机器人。服务等领域的聊天机器人。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态的AI数字人情感分析方法

[0001]本专利技术涉及AI数字人
，尤其涉及一种基于多模态的AI数字人情感分析方法。

技术介绍

[0002]AI数字人系统一般情况下由人物形象、语音生成、动画生成、音视频合成显示、交互等5个模块构成，交互模块使AI数字人具备交互功能，即通过语音语义识别等智能技术识别用户的意图，并根据用户当前意图决定数字人后续的语音和动作，驱动人物开启下一轮交互，在交互过程中，AI数字人需要对客户进行准确地情感判断，以提供准确的服务，其方法可以分为语义理解后的文本情感倾向性判断，或者通过摄像头捕捉客户人脸表情，然后通过表情识别提供给数字人做情感分析。
[0003]首先，人脸表情识别关键一步在于人脸检测，用传统的人脸检测方法对图像进行人脸检测经常存在漏检的问题，鲁棒性不足，在侧脸、或者光线不足的环境常常检测不到人脸，影响情感分析结果；
[0004]其次，对于一些特定场景如金融、医疗、教育行业，AI数字人在交互模块通常具备理解客户文本语义的“察言”能力，结合业务场景，通过文本语义对客户表达正面(是)、负面(否)或者中性的情感语义做出正确的判断，但是，文本语义理解能力是伴随着大量的数据语料或者人工词典的构建，非常依赖数据资源和人力资源，在更加广泛的场景中，仅使用文本语义理解判断客户情感显得略有不足；
[0005]最后，现有部分AI数字人通过语音特征判别用户情感状态，一种方法是通过语音文本识别，然后通过文本判别情感状态，这种方法非常依赖语音识别准确率，还有一种直接通过语...

【技术保护点】

【技术特征摘要】
1.一种基于多模态的AI数字人情感分析方法，其特征在于，包括以下步骤：S1、人脸表情识别情感判断：S11、通过摄像头模组采集图像，作为待检测原图A；S12、待检测原图A resize成(640，640,3)，获得原图B；S13、原图B输入已训练的retinaface人脸检测识别模型，输出人脸检测框C；S14、从人脸检测框C中截取目标人脸区域，目标人脸区域resize成224
×
224的人脸图像D；S15、人脸图像D输入到已训练的人脸表情识别模型，利用卷积神经网络对人脸图像C做图像分类，并获得“angry”、“disgusted”、“fearful”、“happy”、“sad”、“surprise”、“neutral”七个情感类别的概率值；S16、输出最大概率值对应的情感类别，并输出结果a输入多模态情感分析模块；S2、语音情感识别判断：S21、通过语音采集模块收集语音E；S22、语音E输入语音情感判别模型中，提取音频图的过零率、幅值、频谱质心和梅尔频率倒谱系数，并获得“angry”、“disgusted”、“fearful”、“happy”、“sad”、“surprise”、“neutral”七个情感类别的概率值；S23、输出最大概率值对应的情感类别，并输出结果e至多模态情感分析模块；S3、文本情感识别判断：S31、通过语音采集模块收集语音E，并将语音E转换为文本F；S32、文本F输入文本情感识别模型中，对文本F进行情感打分，并输出获得“angry”、“disgusted”、“fearful”、“happy”、“sad”、“surprise”、“neutral”七个情感类别的概率值；S33、输出最大概率值对应的情感类别，并输出结果f至多模态情感分析模块；S4、在多模态情感分析模块中，对结果a、e、f进行情感随机组合判断，取随机情感组合情况的平均概率值，作为最终情感判断结果g，并输出至AI数字人。2.根据权利要求1所述的一种基于多模态的AI数字人情感分析方法，其特征在于，所述retinaface人脸检测识别模型的训练方法为：选择widerface数据集，widerface数据集包含至少32203个图片，按照4:1:5划分为训练集、验证集和测试集，用于retinaface人脸检测识别模型的训练，其中，在训练时通过亮度变化、饱和度调整、hue调整、随机裁剪、镜像翻转、尺寸变换的方法对图片进行数据增强。3.根据权利要求2所述的一种基于多模态的AI数字人情感分析方法，其特征在于，所述retinaface人脸检测识别模型包括5个金字塔特征图、SSH上下文模块和可变形卷积网络DCN模块，在retinaface人脸检测识别模型中，其全局损失函数L如下所示：式中，L
cls
为是否人脸二分类器softmax损失，L
box
为box的回归损失函数smooth L1，L
pixel
为稠密回归损失，p
i
为第i个anchor为人脸的概率，为第i个anchor的真实类别，1表示人脸，0表示非人脸，λ1＝0.25、λ2＝0.1、λ3＝0.01，t
i
＝{t
x
,t
y
,t
w
,t
h
}表示预测框坐标，表示真实框坐标，l
i
＝{l
x1
,l
y1
,l
x2
,l
y2
,l
x3
,l
...

【专利技术属性】
技术研发人员：陈再蝶，朱晓秋，章星星，樊伟东，
申请(专利权)人：浙江康旭科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人