抑郁情绪识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：38709373 阅读：31 留言：0更新日期：2023-09-08 14:49

本申请提供了一种抑郁情绪识别方法、装置、计算机设备和存储介质，涉及机器学习技术领域，通过提取样本数据中第一视频数据中的各帧人脸图像；并基于人脸图像的尺寸、第一语音数据的采集率和采集精度，确定与人脸图像相对应的语音片段的目标长度；确定目标长度的语音片段对应的语音图像；将语音图像和人脸图像融合，确定第一融合图像，实现不同模态数据的融合，将第一融合图像输入预设的抑郁情绪识别模型进行训练，与现有先提取不同模态数据的特征，再将这些特征融合的方式相比，本申请将不同模态数据融合后，再提取融合后图像中的特征，得到的特征可同时保留模态间的互补性信息和模态间的一致性信息，提高识别抑郁情绪的准确性。确性。确性。

全部详细技术资料下载

【技术实现步骤摘要】
抑郁情绪识别方法、装置、计算机设备和存储介质

[0001]本申请涉及机器学习
，尤其涉及一种抑郁情绪识别方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着机器学习技术的发展，可通过语音信号、面部表情等行为特征识别抑郁情绪(Depressive Mood)，其中，抑郁情绪是指由不同的因素引起的抑郁、悲伤和低落的情绪。
[0003]相关技术中，通常从不同模态数据(例如语音数据、图像数据等)中分别提取各模态数据对应的特征，然后再根据加权平均、特征串联、堆叠或其他的融合策略将各模态数据对应的特征进行融合，确定多模态数据对应的融合特征；并通过融合特征识别抑郁情绪。
[0004]然而，将各模态数据对应的特征进行融合的过程中，因不同模态数据对应的特征之间存在差异，会导致部分模态中部分特征信息(例如，细节信息、时序信息等)丢失，导致识别抑郁情绪的准确性较低。

技术实现思路

[0005]本申请提供了一种抑郁情绪识别方法、装置、计算机设备和存储介质，可解决将各模态数据对应的特征进行融合的过程中，因不同模态数据对应的特征之间存在差异，导致识别抑郁情绪的准确性较低的技术问题。
[0006]本申请的实施例是这样实现的：
[0007]第一方面，本申请实施例提供一种抑郁情绪识别方法，包括如下步骤：
[0008]获取样本数据，样本数据包括各试验者的第一语音数据和第一语音数据相对应的第一视频数据；
[0009]提取第一视频数据中的各帧图像中的人脸图像；
[001...

【技术保护点】

【技术特征摘要】
1.一种抑郁情绪识别方法，其特征在于，包括：获取样本数据，所述样本数据包括各试验者的第一语音数据和所述第一语音数据相对应的第一视频数据；提取所述第一视频数据中的各帧图像中的人脸图像；基于所述人脸图像的尺寸、所述第一语音数据的采集率和采集精度，确定与所述人脸图像相对应的语音片段的目标长度，所述语音片段为所述第一语音数据中的片段数据；确定所述目标长度的语音片段对应的语音图像，其中，所述语音图像的尺寸与所述人脸图像的尺寸相同；将所述语音图像和所述人脸图像融合，确定第一融合图像；将所述第一融合图像输入预设的抑郁情绪识别模型，确定训练好的所述抑郁情绪识别模型；根据待测者的第二语音数据和所述第二语音数据相对应的第二视频数据，确定所述待测者的第二融合图像，其中，所述第二融合图像的确定方式与所述第一融合图像的确定方式相同；基于所述第二融合图像和训练好的所述抑郁情绪识别模型，确定所述待测者的抑郁情绪识别结果，所述抑郁情绪识别结果用于表征所述待测者的抑郁情绪对应的等级。2.根据权利要求1所述的抑郁情绪识别方法，其特征在于，所述确定与所述人脸图像相对应的语音片段的目标长度之前，还包括：建立所述人脸图像的尺寸与第一语音数据的采集率、采集精度和所述语音片段的目标长度之间的第一关系；所述确定与所述人脸图像相对应的语音片段的目标长度，包括：基于所述第一关系、所述人脸图像的尺寸、所述第一语音数据的采集率和采集精度，确定与所述人脸图像相对应的语音片段的目标长度。3.根据权利要求2所述的抑郁情绪识别方法，其特征在于，所述第一关系的建立，包括：确定所述语音片段对应的语音数字数据中的像素点数，所述像素点数通过下式计算获得：PD＝t*sr*(sa/8)式中，PD为像素点数，t为所述目标长度，sr为所述第一语音数据的采集率，sa为所述第一语音数据的采集精度；建立所述像素点数与所述人脸图像的尺寸的相似关系，PD≈W*H式中，PD为像素点数，W*H为所述人脸图像的尺寸，其中，W为所述人脸图像的宽度，H为所述人脸图像的长度；所述第一关系通过下式建立：t*sr*(sa/8)≈W*H。4.根据权利要求2或3所述的抑郁情绪识别方法，其特征在于，所述确定所述目标长度的语音片段对应的语音图像，包括：建立语音表情同步关系，所述语音表情同步关系用于表征所述语音片段和所述人脸图像时间同步和特征同步的关系；
基于所述语音表情同步关系、所述人脸图像的预设数量和第一关系，确定所述语音片段中的初始重叠长度；基于所述目标长度和所述初始重叠长度，确定所述第一语音数据中的各语音片段；将所述语音片段对应的语音数字数据排列成像素矩阵，所述像素矩阵为所述语音图像，所述像素矩阵中元素对应所述语音数字数据。5.根据权利要求4所述的抑郁情绪识别方法，其特征在于，所述建立语音表情同步关系，包括：m*H*W≈[(1000
‑
t)/(t
‑...

【专利技术属性】
技术研发人员：胡斌，刘振宇，段玉池，
申请(专利权)人：兰州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人