一种基于多模态的AI数字人情感分析方法技术

技术编号:34107408 阅读:41 留言:0更新日期:2022-07-12 00:43
本发明专利技术公开了一种基于多模态的AI数字人情感分析方法,包括以下步骤:S1、人脸表情识别情感判断,输出结果a输入多模态情感分析模块;S2、语音情感识别判断,输出结果e至多模态情感分析模块;S3、文本情感识别判断,输出结果f至多模态情感分析模块;S4、在多模态情感分析模块中,对结果a、e、f进行情感随机组合判断,取随机情感组合情况的平均概率值,作为最终情感判断结果g,并输出至AI数字人。本发明专利技术中,通过多模态对用户情感状态判别,可以最全面最准确地把握用户的情感状态,准确把握用户所表达的意思,本方法不仅适用于金融场景下的聊天机器人,也可以作为其他垂直领域,比如医疗、教育、服务等领域的聊天机器人。服务等领域的聊天机器人。服务等领域的聊天机器人。

【技术实现步骤摘要】
一种基于多模态的AI数字人情感分析方法


[0001]本专利技术涉及AI数字人
,尤其涉及一种基于多模态的AI数字人情感分析方法。

技术介绍

[0002]AI数字人系统一般情况下由人物形象、语音生成、动画生成、音视频合成显示、交互等5个模块构成,交互模块使AI数字人具备交互功能,即通过语音语义识别等智能技术识别用户的意图,并根据用户当前意图决定数字人后续的语音和动作,驱动人物开启下一轮交互,在交互过程中,AI数字人需要对客户进行准确地情感判断,以提供准确的服务,其方法可以分为语义理解后的文本情感倾向性判断,或者通过摄像头捕捉客户人脸表情,然后通过表情识别提供给数字人做情感分析。
[0003]首先,人脸表情识别关键一步在于人脸检测,用传统的人脸检测方法对图像进行人脸检测经常存在漏检的问题,鲁棒性不足,在侧脸、或者光线不足的环境常常检测不到人脸,影响情感分析结果;
[0004]其次,对于一些特定场景如金融、医疗、教育行业,AI数字人在交互模块通常具备理解客户文本语义的“察言”能力,结合业务场景,通过文本语义对客户表达正面(是)、负面(否)或者中性的情感语义做出正确的判断,但是,文本语义理解能力是伴随着大量的数据语料或者人工词典的构建,非常依赖数据资源和人力资源,在更加广泛的场景中,仅使用文本语义理解判断客户情感显得略有不足;
[0005]最后,现有部分AI数字人通过语音特征判别用户情感状态,一种方法是通过语音文本识别,然后通过文本判别情感状态,这种方法非常依赖语音识别准确率,还有一种直接通过语音判别情感状态,但从语音抽判别情感的特征抽取方法仍不成熟,结果是判断情感状态准确率较低;
[0006]总而言之,基于单模态的情感状态识别,在判别客户情感状态时,准确率仍不如图像、语音、文字等多模态的情感综合识别结果,因此,本专利技术提供一种基于多模态的AI数字人情感分析方法。

技术实现思路

[0007]为了解决上述
技术介绍
中所提到的技术问题,而提出的一种基于多模态的AI数字人情感分析方法。
[0008]为了实现上述目的,本专利技术采用了如下技术方案:
[0009]一种基于多模态的AI数字人情感分析方法,包括以下步骤:
[0010]S1、人脸表情识别情感判断:
[0011]S11、通过摄像头模组采集图像,作为待检测原图A;
[0012]S12、待检测原图A resize成(640,640,3),获得原图B;
[0013]S13、原图B输入已训练的retinaface人脸检测识别模型,输出人脸检测框C;
[0014]S14、从人脸检测框C中截取目标人脸区域,目标人脸区域resize成224
×
224的人脸图像D;
[0015]S15、人脸图像D输入到已训练的人脸表情识别模型,利用卷积神经网络对人脸图像C做图像分类,并获得“angry”、“disgusted”、“fearful”、“happy”、“sad”、“surprise”、“neutral”七个情感类别的概率值;
[0016]S16、输出最大概率值对应的情感类别,并输出结果a输入多模态情感分析模块;
[0017]S2、语音情感识别判断:
[0018]S21、通过语音采集模块收集语音E;
[0019]S22、语音E输入语音情感判别模型中,提取音频图的过零率、幅值、频谱质心和梅尔频率倒谱系数,并获得“angry”、“disgusted”、“fearful”、“happy”、“sad”、“surprise”、“neutral”七个情感类别的概率值;
[0020]S23、输出最大概率值对应的情感类别,并输出结果e至多模态情感分析模块;
[0021]S3、文本情感识别判断:
[0022]S31、通过语音采集模块收集语音E,并将语音E转换为文本F;
[0023]S32、文本F输入文本情感识别模型中,对文本F进行情感打分,并输出获得“angry”、“disgusted”、“fearful”、“happy”、“sad”、“surprise”、“neutral”七个情感类别的概率值;
[0024]S33、输出最大概率值对应的情感类别,并输出结果f至多模态情感分析模块;
[0025]S4、在多模态情感分析模块中,对结果a、e、f进行情感随机组合判断,取随机情感组合情况的平均概率值,作为最终情感判断结果g,并输出至AI数字人。
[0026]作为上述技术方案的进一步描述:
[0027]所述retinaface人脸检测识别模型的训练方法为:选择widerface数据集,widerface数据集包含至少32203个图片,按照4:1:5划分为训练集、验证集和测试集,用于retinaface人脸检测识别模型的训练,其中,在训练时通过亮度变化、饱和度调整、hue调整、随机裁剪、镜像翻转、尺寸变换的方法对图片进行数据增强。
[0028]作为上述技术方案的进一步描述:
[0029]所述retinaface人脸检测识别模型包括5个金字塔特征图、SSH上下文模块和可变形卷积网络DCN模块,在retinaface人脸检测识别模型中,其全局损失函数L如下所示:
[0030][0031]式中,L
cls
为是否人脸二分类器softmax损失,L
box
为box的回归损失函数smoothL1,L
pixel
为稠密回归损失,p
i
为第i个anchor为人脸的概率,为第i个anchor的真实类别,1表示人脸,0表示非人脸,λ1=0.25、λ2=0.1、λ3=0.01,t
i
={t
x
,t
y
,t
w
,t
h
}表示预测框坐标,表示真实框坐标,l
i
={l
x1
,l
y1
,l
x2
,l
y2
,l
x3
,l
y3
,l
x4
,l
y4
,l
x5
,l
y5
}表示预测面部关键点坐标,l
i
*={l
x1
*,l
y1
*,l
x2
*,l
y2
*,l
x3
*,l
y3
*,l
x4
*,l
y4
*,l
x5
*,l
y5
*}表示真实面部关键点坐标。
[0032]作为上述技术方案的进一步描述:
[0033]所述人脸表情识别模型的训练方法为:选择“angry”、“disgusted”、“fearful”、“happy”、“sad”、“surprise”、“neutral”七类人脸图像的数据集,数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态的AI数字人情感分析方法,其特征在于,包括以下步骤:S1、人脸表情识别情感判断:S11、通过摄像头模组采集图像,作为待检测原图A;S12、待检测原图A resize成(640,640,3),获得原图B;S13、原图B输入已训练的retinaface人脸检测识别模型,输出人脸检测框C;S14、从人脸检测框C中截取目标人脸区域,目标人脸区域resize成224
×
224的人脸图像D;S15、人脸图像D输入到已训练的人脸表情识别模型,利用卷积神经网络对人脸图像C做图像分类,并获得“angry”、“disgusted”、“fearful”、“happy”、“sad”、“surprise”、“neutral”七个情感类别的概率值;S16、输出最大概率值对应的情感类别,并输出结果a输入多模态情感分析模块;S2、语音情感识别判断:S21、通过语音采集模块收集语音E;S22、语音E输入语音情感判别模型中,提取音频图的过零率、幅值、频谱质心和梅尔频率倒谱系数,并获得“angry”、“disgusted”、“fearful”、“happy”、“sad”、“surprise”、“neutral”七个情感类别的概率值;S23、输出最大概率值对应的情感类别,并输出结果e至多模态情感分析模块;S3、文本情感识别判断:S31、通过语音采集模块收集语音E,并将语音E转换为文本F;S32、文本F输入文本情感识别模型中,对文本F进行情感打分,并输出获得“angry”、“disgusted”、“fearful”、“happy”、“sad”、“surprise”、“neutral”七个情感类别的概率值;S33、输出最大概率值对应的情感类别,并输出结果f至多模态情感分析模块;S4、在多模态情感分析模块中,对结果a、e、f进行情感随机组合判断,取随机情感组合情况的平均概率值,作为最终情感判断结果g,并输出至AI数字人。2.根据权利要求1所述的一种基于多模态的AI数字人情感分析方法,其特征在于,所述retinaface人脸检测识别模型的训练方法为:选择widerface数据集,widerface数据集包含至少32203个图片,按照4:1:5划分为训练集、验证集和测试集,用于retinaface人脸检测识别模型的训练,其中,在训练时通过亮度变化、饱和度调整、hue调整、随机裁剪、镜像翻转、尺寸变换的方法对图片进行数据增强。3.根据权利要求2所述的一种基于多模态的AI数字人情感分析方法,其特征在于,所述retinaface人脸检测识别模型包括5个金字塔特征图、SSH上下文模块和可变形卷积网络DCN模块,在retinaface人脸检测识别模型中,其全局损失函数L如下所示:式中,L
cls
为是否人脸二分类器softmax损失,L
box
为box的回归损失函数smooth L1,L
pixel
为稠密回归损失,p
i
为第i个anchor为人脸的概率,为第i个anchor的真实类别,1表示人脸,0表示非人脸,λ1=0.25、λ2=0.1、λ3=0.01,t
i
={t
x
,t
y
,t
w
,t
h
}表示预测框坐标,表示真实框坐标,l
i
={l
x1
,l
y1
,l
x2
,l
y2
,l
x3
,l
...

【专利技术属性】
技术研发人员:陈再蝶朱晓秋章星星樊伟东
申请(专利权)人:浙江康旭科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1