一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法技术

技术编号：37057324 阅读：52 留言：0更新日期：2023-03-29 19:34

本发明专利技术公开了一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法。首先本发明专利技术首先将一维的原始音频信号预处理后获得二维的梅尔谱图；其次本发明专利技术提出通过并行的卷积神经网络和时序神经网络同步从音频信号提取特征，对可能患有情感性精神疾病的人群进行抑郁状态检测的算法，卷积神经网络从音频信号中提取声音韵律特征，时序神经网络从音频信号中提取语义特征，通过搭建可学习的加权自注意力模块，充分融合两种通道的特征以提高对抑郁状态检测的准确率；然后本发明专利技术通过利用加权的交叉熵损失函数使网络更加专注于学习音频中抑郁症的特征表示，抑制干扰噪声对于网络学习能力的影响，从而进行准确的抑郁状态预测。从而进行准确的抑郁状态预测。从而进行准确的抑郁状态预测。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法

[0001]本专利技术属于计算机自然语言处理领域，具体涉及情感分析领域，特别涉及一种使用基于音频的双模式融合型神经网络对抑郁状态评估检测的方法。

技术介绍

[0002]抑郁症是一种情感性精神疾病，在常见精神健康症状搜索热度的走势上高居首位。全世界每年有5％的成年人患有抑郁症，尤其在年轻人中发病率最高。相关研究预计，到2030年将成为全世界致残的第二大诱因。一方面，独立个体对抑郁症认知的浅薄、隐私的保护、心理的障碍以及时间财力的限制，影响了抑郁症的预防、诊断和治疗；另一方面，人力资源的匮乏、收集信息的耗时、症状的多样以及对大量临床培训的需求等原因，造成了沉重的医疗负担。出于以上两个方面的分析，基于机器学习技术的自动抑郁症识别呈现出了广阔的应用前景。
[0003]抑郁症的数据来源比较广泛，行为学数据是其重要来源之一，如表情、声音、步态等。语音作为最重要的行为线索之一，因其在测量方面具备低廉性、间接性、隐蔽性以及远程性等特征，在自动抑郁症识别领域引人注目。抑郁症患者在认知功能、生理、情感状态等方面都会发生显著变化。语音作为一个敏感的输出系统，对于这些变化均会产生联动性。很多研究也已经证实语音与抑郁症的重要联系。与抑郁症相关的语音特征主要包括韵律特征(语速、音调、音量、基频、能量参数)、频谱特征(共振峰、梅尔倒谱系数MFCCs)、声源(声门脉冲形状、基频)、声门特征等。关于声学特征与抑郁症之间的关联已经有了很多研究与证实。
[0004]机器学习在识别...

【技术保护点】

【技术特征摘要】
1.一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法，其特征在于：1)：基于音频信号的数据预处理；2)：基于并行的卷积神经网络和时序神经网络提取音频韵律和语义特征；3)：基于可学习的加权自注意力特征融合与检测。2.根据权利要求1所述的一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法，其特征在于，所述步骤1)中，具体步骤包括：(1)：音频信号的预处理将一维的时域信号通过短时傅里叶变换转为梅尔倒谱系数MFCC；声音信号是一维的时域信号，利用短时傅里叶变化对声音信号进行时频域分析，得到随时间变换的声谱图；梅尔标度描述了人耳频率的非线性特征，与频率的关系如下所示:式(2
‑
1)中：m表示梅尔频率，f表示频率；从低频到高频之间由密到疏设置一组带通滤波器，对输入信号进行滤波；将声谱图经过梅尔标度滤波器组，变成梅尔频谱；最后对梅尔频谱进行倒谱分析，得到MFCC系数；频谱图由包络和频谱细节两部分组成，倒谱分析是为了将频谱图分解为两部分，从而得到频谱图的包络和频谱细节；人类产生的声音会经过声道的形状过滤，获得声道的形状就能准确地表示其产生的音素；声道的形状通过语音短时功率谱的包络显示出来，提取MFCC特征就能准确的表示包络；所学习的音频是长短不一的时序信号，经过预处理后获得(sample
×3×
128
×
256)的梅尔谱图；(2)：三折交叉验证在将音频信号转为梅尔谱图后，对数据集内抑郁样本进行重采样，方式是将抑郁样本内的梅尔谱图顺序进行排列组合，每个样本是3
×
128
×
256的张量，有3张梅尔谱图，共有3！个排列方式，因此每个抑郁样本可以增强6倍；但是总体样本总数仍为小样本数据集，因此采用三折交叉验证，具体方式是取原始样本随机划分为三份，每次取其中一份作为验证集，剩余两份为训练集，其中正负样本分布也遵循三比一划分，从而降低模型的过拟合现象，提高模型的泛化能力。3.根据权利要求1所述的一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法，其特征在于，所述步骤2)中，具体步骤包括：(1)时序神经网络模式NetVLAD将N个D维的特征描述子转换为K个D维的全局特征图V；通过下式获得VLAD方法下的全局特征图V，其中k∈K，j∈D：下的全局特征图V，其中k∈K，j∈D：式3
‑
1中：x
i
表示为第i个局部图像特征，c
K
表示K个聚类中心，x
i
和c
K
都是D维向量，a
k
(x
i
)表示特征描述符x
i
到c
K
的关系，是一个符号函数，当且仅当x
i
属于聚类中心c
k
时，a
k
(x
i
)＝1，否则a
k
(x
i
)＝0，x
i
(j)
‑
c
K
(j)表示特征向量到每个聚类中心的残差；由于式中包含符号函数，为了将VLAD变为可训练的函数，需将其变成可微计算，因此将a
k
(x
i
)平滑化后得到
式3
‑
2中：w
k
＝2αc
K
，b
k
＝
‑
α||c
K
||2，T为转置符，k
′
∈k；将代入到式3
‑
1中获得NetVLAD方法的全局特征图V
Net
：将N
×
D的特征描述子作为输入，经过一个1
×1×
D
×
K的卷积核和softmax操作后得到一个N
×
K的权重结果；N
×
D的特征描述子输入VLAD core经过聚类得到K
×
D的聚类中心向量，根据N
×
K的权重结果分配特征描述子到聚类中心的残差所占的权重，按照聚类中心进行加权求和，最终得到K
×
D的全局特征表示；通过MFCC提取音频特征后将特征描述子输入NetVLAD网络，进行特征聚合，将聚集起来的局部描述子构造成一个向量，用该向量作为音频全局特征表示；门控循环单元GRU是用门控机制控制输入、记忆信息，在当前时间步做出预测；；GRU由两个门组成：重置门和更新门；重置门控制当前时刻对前一时刻信息状态的依赖；更新门控制前一时刻和当前时刻的信息需要被传递的程度；从NetVLAD提取音频的全局特征表示后作为GRU的输入，提取音频的语义信息；设输入量为X＝{x1，x2，
…
，xn}，GRU网络中各变量的公式如下所示：z
t
＝σ(W
zx
x
t
+W
z
h
t
‑1+b
z
)
ꢀꢀꢀꢀ
(3
‑
3)r
t
＝σ(W
rt
x
t
+W
rh
h
t
‑1+b
r
)

【专利技术属性】
技术研发人员：杨长春，王彭，曹苗苗，张力维，孟天霜，
申请(专利权)人：常州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人