本申请提供了一种抑郁情绪识别方法、装置、计算机设备和存储介质,涉及机器学习技术领域,通过提取样本数据中第一视频数据中的各帧人脸图像;并基于人脸图像的尺寸、第一语音数据的采集率和采集精度,确定与人脸图像相对应的语音片段的目标长度;确定目标长度的语音片段对应的语音图像;将语音图像和人脸图像融合,确定第一融合图像,实现不同模态数据的融合,将第一融合图像输入预设的抑郁情绪识别模型进行训练,与现有先提取不同模态数据的特征,再将这些特征融合的方式相比,本申请将不同模态数据融合后,再提取融合后图像中的特征,得到的特征可同时保留模态间的互补性信息和模态间的一致性信息,提高识别抑郁情绪的准确性。确性。确性。
【技术实现步骤摘要】
抑郁情绪识别方法、装置、计算机设备和存储介质
[0001]本申请涉及机器学习
,尤其涉及一种抑郁情绪识别方法、装置、计算机设备和存储介质。
技术介绍
[0002]随着机器学习技术的发展,可通过语音信号、面部表情等行为特征识别抑郁情绪(Depressive Mood),其中,抑郁情绪是指由不同的因素引起的抑郁、悲伤和低落的情绪。
[0003]相关技术中,通常从不同模态数据(例如语音数据、图像数据等)中分别提取各模态数据对应的特征,然后再根据加权平均、特征串联、堆叠或其他的融合策略将各模态数据对应的特征进行融合,确定多模态数据对应的融合特征;并通过融合特征识别抑郁情绪。
[0004]然而,将各模态数据对应的特征进行融合的过程中,因不同模态数据对应的特征之间存在差异,会导致部分模态中部分特征信息(例如,细节信息、时序信息等)丢失,导致识别抑郁情绪的准确性较低。
技术实现思路
[0005]本申请提供了一种抑郁情绪识别方法、装置、计算机设备和存储介质,可解决将各模态数据对应的特征进行融合的过程中,因不同模态数据对应的特征之间存在差异,导致识别抑郁情绪的准确性较低的技术问题。
[0006]本申请的实施例是这样实现的:
[0007]第一方面,本申请实施例提供一种抑郁情绪识别方法,包括如下步骤:
[0008]获取样本数据,样本数据包括各试验者的第一语音数据和第一语音数据相对应的第一视频数据;
[0009]提取第一视频数据中的各帧图像中的人脸图像;
[0010]基于人脸图像的尺寸、第一语音数据的采集率和采集精度,确定与人脸图像相对应的语音片段的目标长度,语音片段为第一语音数据中的片段数据;
[0011]确定目标长度的语音片段对应的语音图像,其中,语音图像的尺寸与人脸图像的尺寸相同;
[0012]将语音图像和人脸图像融合,确定第一融合图像;
[0013]将第一融合图像输入预设的抑郁情绪识别模型,确定训练好的抑郁情绪识别模型;
[0014]根据待测者的第二语音数据和第二语音数据相对应的第二视频数据,确定待测者的第二融合图像,其中,第二融合图像的确定方式与第一融合图像的确定方式相同;
[0015]基于第二融合图像和训练好的抑郁情绪识别模型,确定待测者的抑郁情绪识别结果,抑郁情绪识别结果用于表征待测者的抑郁情绪对应的等级。
[0016]在一些可能的实现方式中,确定与人脸图像相对应的语音片段的目标长度之前,还包括:
[0017]建立人脸图像的尺寸与第一语音数据的采集率、采集精度和语音片段的目标长度之间的第一关系;
[0018]确定与人脸图像相对应的语音片段的目标长度,包括:
[0019]基于第一关系、人脸图像的尺寸、第一语音数据的采集率和采集精度,确定与人脸图像相对应的语音片段的目标长度。
[0020]在一些可能的实现方式中,第一关系的建立,包括:
[0021]确定语音片段对应的语音数字数据中的像素点数,像素点数通过下式计算获得:
[0022]PD=t*sr*(sa/8)
[0023]式中,PD为像素点数,t为目标长度,sr为第一语音数据的采集率,sa为第一语音数据的采集精度;
[0024]建立像素点数与人脸图像的尺寸的相似关系,
[0025]PD≈W*H
[0026]式中,PD为像素点数,W*H为人脸图像的尺寸,其中,W为人脸图像的宽度,H为人脸图像的长度;
[0027]第一关系通过下式建立:
[0028]t*sr*(sa/8)≈W*H。
[0029]在一些可能的实现方式中,确定目标长度的语音片段对应的语音图像,包括:
[0030]建立语音表情同步关系,语音表情同步关系用于表征语音片段和人脸图像时间同步和特征同步的关系;
[0031]基于语音表情同步关系和人脸图像的预设数量,确定语音片段中的初始重叠长度;
[0032]基于目标长度和初始重叠长度,确定第一语音数据中的各语音片段;
[0033]将语音片段对应的语音数字数据排列成像素矩阵,像素矩阵为语音图像,像素矩阵中元素对应语音数字数据。
[0034]在一些可能的实现方式中,建立语音表情同步关系,包括:
[0035]m*H*W≈[(1000
‑
t)/(t
‑
s)+1]t*sr*(sa/8)
[0036]式中,t为目标长度,s为语音片段中的初始重叠长度,sr为第一语音数据的采集率,sa为第一语音数据的采集精度,m为每秒人脸图像的预设数量,W*H为人脸图像的尺寸,其中,W为人脸图像的宽度,H为人脸图像的长度。
[0037]在一些可能的实现方式中,将第一融合图像输入预设的抑郁情绪识别模型,确定训练好的抑郁情绪识别模型,包括:
[0038]确定抑郁情绪识别模型的评价指标,评价指标至少包含准确率、精确率、召回率;
[0039]基于评价指标,确定训练好的抑郁情绪识别模型;
[0040]基于训练好的抑郁情绪识别模型,从初始重叠长度中筛选出目标重叠长度。
[0041]在一些可能的实现方式中,获取样本数据之后,还包括:
[0042]通过不同的切片数量分别对第一语音数据进行切分处理,确定各切分处理分别对应的语音切片,其中,语音切片的长度大于语音片段的长度;
[0043]对语音切片进行预处理,确定预处理后的语音切片,预处理至少包含滤波,滤波用于对语音切片进行过滤;
[0044]确定目标长度的语音片段对应的语音图像,包括:
[0045]基于语音切片,确定目标长度的语音片段对应的语音图像。
[0046]第二方面,本申请实施例提供一种抑郁情绪识别装置,包括数据获取模块、数据处理模块、模型训练模块和测试模块;其中,
[0047]数据获取模块,用于获取样本数据,样本数据包括各试验者的第一语音数据和第一语音数据相对应的第一视频数据;
[0048]数据处理模块,用于提取第一视频数据中的各帧图像中的人脸图像;
[0049]数据处理模块,还用于基于人脸图像的尺寸、第一语音数据的采集率和采集精度,确定与人脸图像相对应的语音片段的目标长度,语音片段为第一语音数据中的片段数据;
[0050]数据处理模块,还用于确定目标长度的语音片段对应的语音图像,其中,语音图像的尺寸与人脸图像的尺寸相同;
[0051]数据处理模块,还用于将语音图像和人脸图像融合,确定第一融合图像;
[0052]模型训练模块,用于将第一融合图像输入预设的抑郁情绪识别模型,确定训练好的抑郁情绪识别模型;
[0053]测试模块,用于根据待测者的第二语音数据和第二语音数据相对应的第二视频数据,确定待测者的第二融合图像,其中,第二融合图像的确定方式与第一融合图像的确定方式相同;
[0054]测试模块,用于将第二融合图像和输入至训练好的抑郁情绪识别模型中,确本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种抑郁情绪识别方法,其特征在于,包括:获取样本数据,所述样本数据包括各试验者的第一语音数据和所述第一语音数据相对应的第一视频数据;提取所述第一视频数据中的各帧图像中的人脸图像;基于所述人脸图像的尺寸、所述第一语音数据的采集率和采集精度,确定与所述人脸图像相对应的语音片段的目标长度,所述语音片段为所述第一语音数据中的片段数据;确定所述目标长度的语音片段对应的语音图像,其中,所述语音图像的尺寸与所述人脸图像的尺寸相同;将所述语音图像和所述人脸图像融合,确定第一融合图像;将所述第一融合图像输入预设的抑郁情绪识别模型,确定训练好的所述抑郁情绪识别模型;根据待测者的第二语音数据和所述第二语音数据相对应的第二视频数据,确定所述待测者的第二融合图像,其中,所述第二融合图像的确定方式与所述第一融合图像的确定方式相同;基于所述第二融合图像和训练好的所述抑郁情绪识别模型,确定所述待测者的抑郁情绪识别结果,所述抑郁情绪识别结果用于表征所述待测者的抑郁情绪对应的等级。2.根据权利要求1所述的抑郁情绪识别方法,其特征在于,所述确定与所述人脸图像相对应的语音片段的目标长度之前,还包括:建立所述人脸图像的尺寸与第一语音数据的采集率、采集精度和所述语音片段的目标长度之间的第一关系;所述确定与所述人脸图像相对应的语音片段的目标长度,包括:基于所述第一关系、所述人脸图像的尺寸、所述第一语音数据的采集率和采集精度,确定与所述人脸图像相对应的语音片段的目标长度。3.根据权利要求2所述的抑郁情绪识别方法,其特征在于,所述第一关系的建立,包括:确定所述语音片段对应的语音数字数据中的像素点数,所述像素点数通过下式计算获得:PD=t*sr*(sa/8)式中,PD为像素点数,t为所述目标长度,sr为所述第一语音数据的采集率,sa为所述第一语音数据的采集精度;建立所述像素点数与所述人脸图像的尺寸的相似关系,PD≈W*H式中,PD为像素点数,W*H为所述人脸图像的尺寸,其中,W为所述人脸图像的宽度,H为所述人脸图像的长度;所述第一关系通过下式建立:t*sr*(sa/8)≈W*H。4.根据权利要求2或3所述的抑郁情绪识别方法,其特征在于,所述确定所述目标长度的语音片段对应的语音图像,包括:建立语音表情同步关系,所述语音表情同步关系用于表征所述语音片段和所述人脸图像时间同步和特征同步的关系;
基于所述语音表情同步关系、所述人脸图像的预设数量和第一关系,确定所述语音片段中的初始重叠长度;基于所述目标长度和所述初始重叠长度,确定所述第一语音数据中的各语音片段;将所述语音片段对应的语音数字数据排列成像素矩阵,所述像素矩阵为所述语音图像,所述像素矩阵中元素对应所述语音数字数据。5.根据权利要求4所述的抑郁情绪识别方法,其特征在于,所述建立语音表情同步关系,包括:m*H*W≈[(1000
‑
t)/(t
‑...
【专利技术属性】
技术研发人员:胡斌,刘振宇,段玉池,
申请(专利权)人:兰州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。