当前位置: 首页 > 专利查询>常州大学专利>正文

一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法技术

技术编号:37057324 阅读:42 留言:0更新日期:2023-03-29 19:34
本发明专利技术公开了一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法。首先本发明专利技术首先将一维的原始音频信号预处理后获得二维的梅尔谱图;其次本发明专利技术提出通过并行的卷积神经网络和时序神经网络同步从音频信号提取特征,对可能患有情感性精神疾病的人群进行抑郁状态检测的算法,卷积神经网络从音频信号中提取声音韵律特征,时序神经网络从音频信号中提取语义特征,通过搭建可学习的加权自注意力模块,充分融合两种通道的特征以提高对抑郁状态检测的准确率;然后本发明专利技术通过利用加权的交叉熵损失函数使网络更加专注于学习音频中抑郁症的特征表示,抑制干扰噪声对于网络学习能力的影响,从而进行准确的抑郁状态预测。从而进行准确的抑郁状态预测。从而进行准确的抑郁状态预测。

【技术实现步骤摘要】
一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法


[0001]本专利技术属于计算机自然语言处理领域,具体涉及情感分析领域,特别涉及一种使用基于音频的双模式融合型神经网络对抑郁状态评估检测的方法。

技术介绍

[0002]抑郁症是一种情感性精神疾病,在常见精神健康症状搜索热度的走势上高居首位。全世界每年有5%的成年人患有抑郁症,尤其在年轻人中发病率最高。相关研究预计,到2030年将成为全世界致残的第二大诱因。一方面,独立个体对抑郁症认知的浅薄、隐私的保护、心理的障碍以及时间财力的限制,影响了抑郁症的预防、诊断和治疗;另一方面,人力资源的匮乏、收集信息的耗时、症状的多样以及对大量临床培训的需求等原因,造成了沉重的医疗负担。出于以上两个方面的分析,基于机器学习技术的自动抑郁症识别呈现出了广阔的应用前景。
[0003]抑郁症的数据来源比较广泛,行为学数据是其重要来源之一,如表情、声音、步态等。语音作为最重要的行为线索之一,因其在测量方面具备低廉性、间接性、隐蔽性以及远程性等特征,在自动抑郁症识别领域引人注目。抑郁症患者在认知功能、生理、情感状态等方面都会发生显著变化。语音作为一个敏感的输出系统,对于这些变化均会产生联动性。很多研究也已经证实语音与抑郁症的重要联系。与抑郁症相关的语音特征主要包括韵律特征(语速、音调、音量、基频、能量参数)、频谱特征(共振峰、梅尔倒谱系数MFCCs)、声源(声门脉冲形状、基频)、声门特征等。关于声学特征与抑郁症之间的关联已经有了很多研究与证实。
[0004]机器学习在识别与预防国民精神健康方面发挥着越来越大的作用,将其应用于心理健康领域已经成为必然的发展趋势。视听情感挑战大赛自2011年创办以来,相关抑郁症的数据已经有了一定的积累。通过机器学习技术学习抑郁症数据的特征,进而对抑郁症进行识别与检测,达到辅助诊断的目的。近年来,抑郁症识别从数据的来源及分析、算法的选择与改进等多个方面进行了研究。基于行为学数据的抑郁症识别已经有了很多研究进展,其中基于语音的抑郁症识别也有了很多研究成果。
[0005]而提取具有代表性和判别性的声学特征是在基于音频上进行抑郁症识别的关键。随着深度学习算法的兴起,已有大量研究采用各种神经网络进行抑郁症识别。针对音频中与抑郁相关的声学特征表示以及时间线索等问题,有一种类分类模型,结合卷积神经网络CNN和长短时记忆网络LSTM进行音频数据的表示;也有双向长短时记忆网络(BiLSTM)和时间分布卷积神经网络(TCNN)的结合进行抑郁症严重程度检测。不难看出,采用网络的串行结构,将音频的声学特征与长短时时间变化特征融合提取,从而进行抑郁症识别的方法已经成为主流。基于上述讨论,本专利技术提出了一种基于音频的融合型神经网络进行抑郁状态检测的方法。

技术实现思路

[0006]本专利技术目的在于解决上述现有技术的问题,提出一种基于音频的融合型神经网络进行抑郁状态检测的方法。
[0007]本专利技术的技术方案为:
[0008]一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法,包括以下步骤:
[0009]1):基于音频信号的数据预处理:对音频信号除噪、读取等处理后,利用短时傅里叶变化对获取的音频信号进行时频域分析,从一维的时域信号转变为随时间变换的声谱图,得到梅尔倒谱系数MFCC图。
[0010]2):基于并行的卷积神经网络和时序神经网络提取音频韵律和语义特征:一个对声谱图提取声音韵律特征的深度卷积神经网络模式;一个利用NetVLAD将声谱图映射为一维张量,再对一维张量提取声音语义特征的门循环网络(GRU)模式。
[0011]3):基于可学习的加权自注意力特征融合与检测:将深度卷积神经网络模式和NetVLAD与GRU构成的时序网络模式合并成一个统一的体系结构,添加一个自注意力模块后可以输出一个二进制标签,从而进行抑郁症状态检测。
[0012]进一步,所述步骤1)具体包括:
[0013](1):音频信号的预处理
[0014]本专利技术提出的音频信号预处理是采用将一维的时域信号通过短时傅里叶变换转为梅尔倒谱系数MFCC,MFCC是在语音识别中广泛使用的特征。声音信号是一维的时域信号,利用短时傅里叶变化对声音信号进行时频域分析,得到随时间变换的声谱图。人耳对不同频率的声波有不同的听觉敏感度,1khz以下,人类的感知能力与频率成线性关系;1khz以上,人类的感知能力与频率成对数关系。梅尔标度描述了人耳频率的非线性特征,与频率的关系如下所示:
[0015][0016]式中:m表示梅尔频率,f表示频率。频率较低的声音在人耳内传递的距离大于频率较高的声音,因此从低频倒高频之间由密到疏设置一组带通滤波器,对输入信号进行滤波。将声谱图经过梅尔标度滤波器组,变成梅尔频谱。最后对梅尔频谱进行倒谱分析,得到MFCC系数。频谱图由包络和频谱细节两部分组成,倒谱分析是为了将频谱图分解为两部分,从而得到频谱图的包络和频谱细节。人类产生的声音会经过声道的形状过滤,获得声道的形状就能准确地表示其产生的音素。声道的形状通过语音短时功率谱的包络显示出来,提取MFCC特征就能准确的表示包络。所学习的音频是长短不一的时序信号,经过预处理后获得(sample
×3×
128
×
256)的梅尔谱图。
[0017](2):3折交叉验证
[0018]交叉验证是在机器学习建立模型和验证模型参数时常用的方法,由于用于抑郁症检测数据集数量较少,样本同样较少,因此采用三折交叉验证的方式训练和验证模型。在将音频信号转为梅尔谱图后,为了平衡正负样本数量,对数据集内抑郁样本进行重采样,主要方式是将抑郁样本内的梅尔谱图顺序进行排列组合,每个样本是3
×
128
×
256的张量,有3张梅尔谱图,共有3!=6个排列方式,因此每个抑郁样本可以增强6倍。但是总体样本总数仍
为小样本数据集,因此采用三折交叉验证,具体方式是取原始样本随机划分为三份,每次取其中一份作为验证集,剩余两份为训练集,其中正负样本分布也遵循三比一划分,从而降低模型的过拟合现象,提高模型的泛化能力
[0019]进一步,所述步骤2)具体为:
[0020](1):时序神经网络模式
[0021]NetVLAD是使用卷积神经网络进行图像检索的方法,是VLAD算法的一种改进。NetVLAD将N个D维的特征描述子转换为K个D维的全局特征图V。通过下式获得VLAD(Vector of Locally Aggregated Descriptors)方法下的全局特征图V,其中k∈K,j∈D:
[0022][0023][0024]式3

1中:x
i
表示为第i个局部图像特征,c
K
表示K个聚类中心,x
i
和c
K
都是D维向量,a
k
(x
i
)表示特征描述符x
i
到c
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法,其特征在于:1):基于音频信号的数据预处理;2):基于并行的卷积神经网络和时序神经网络提取音频韵律和语义特征;3):基于可学习的加权自注意力特征融合与检测。2.根据权利要求1所述的一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法,其特征在于,所述步骤1)中,具体步骤包括:(1):音频信号的预处理将一维的时域信号通过短时傅里叶变换转为梅尔倒谱系数MFCC;声音信号是一维的时域信号,利用短时傅里叶变化对声音信号进行时频域分析,得到随时间变换的声谱图;梅尔标度描述了人耳频率的非线性特征,与频率的关系如下所示:式(2

1)中:m表示梅尔频率,f表示频率;从低频到高频之间由密到疏设置一组带通滤波器,对输入信号进行滤波;将声谱图经过梅尔标度滤波器组,变成梅尔频谱;最后对梅尔频谱进行倒谱分析,得到MFCC系数;频谱图由包络和频谱细节两部分组成,倒谱分析是为了将频谱图分解为两部分,从而得到频谱图的包络和频谱细节;人类产生的声音会经过声道的形状过滤,获得声道的形状就能准确地表示其产生的音素;声道的形状通过语音短时功率谱的包络显示出来,提取MFCC特征就能准确的表示包络;所学习的音频是长短不一的时序信号,经过预处理后获得(sample
×3×
128
×
256)的梅尔谱图;(2):三折交叉验证在将音频信号转为梅尔谱图后,对数据集内抑郁样本进行重采样,方式是将抑郁样本内的梅尔谱图顺序进行排列组合,每个样本是3
×
128
×
256的张量,有3张梅尔谱图,共有3!个排列方式,因此每个抑郁样本可以增强6倍;但是总体样本总数仍为小样本数据集,因此采用三折交叉验证,具体方式是取原始样本随机划分为三份,每次取其中一份作为验证集,剩余两份为训练集,其中正负样本分布也遵循三比一划分,从而降低模型的过拟合现象,提高模型的泛化能力。3.根据权利要求1所述的一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法,其特征在于,所述步骤2)中,具体步骤包括:(1)时序神经网络模式NetVLAD将N个D维的特征描述子转换为K个D维的全局特征图V;通过下式获得VLAD方法下的全局特征图V,其中k∈K,j∈D:下的全局特征图V,其中k∈K,j∈D:式3

1中:x
i
表示为第i个局部图像特征,c
K
表示K个聚类中心,x
i
和c
K
都是D维向量,a
k
(x
i
)表示特征描述符x
i
到c
K
的关系,是一个符号函数,当且仅当x
i
属于聚类中心c
k
时,a
k
(x
i
)=1,否则a
k
(x
i
)=0,x
i
(j)

c
K
(j)表示特征向量到每个聚类中心的残差;由于式中包含符号函数,为了将VLAD变为可训练的函数,需将其变成可微计算,因此将a
k
(x
i
)平滑化后得到
式3

2中:w
k
=2αc
K
,b
k


α||c
K
||2,T为转置符,k

∈k;将代入到式3

1中获得NetVLAD方法的全局特征图V
Net
:将N
×
D的特征描述子作为输入,经过一个1
×1×
D
×
K的卷积核和softmax操作后得到一个N
×
K的权重结果;N
×
D的特征描述子输入VLAD core经过聚类得到K
×
D的聚类中心向量,根据N
×
K的权重结果分配特征描述子到聚类中心的残差所占的权重,按照聚类中心进行加权求和,最终得到K
×
D的全局特征表示;通过MFCC提取音频特征后将特征描述子输入NetVLAD网络,进行特征聚合,将聚集起来的局部描述子构造成一个向量,用该向量作为音频全局特征表示;门控循环单元GRU是用门控机制控制输入、记忆信息,在当前时间步做出预测;;GRU由两个门组成:重置门和更新门;重置门控制当前时刻对前一时刻信息状态的依赖;更新门控制前一时刻和当前时刻的信息需要被传递的程度;从NetVLAD提取音频的全局特征表示后作为GRU的输入,提取音频的语义信息;设输入量为X={x1,x2,

,xn},GRU网络中各变量的公式如下所示:z
t
=σ(W
zx
x
t
+W
z
h
t
‑1+b
z
)
ꢀꢀꢀꢀ
(3

3)r
t
=σ(W
rt
x
t
+W
rh
h
t
‑1+b
r
)

【专利技术属性】
技术研发人员:杨长春王彭曹苗苗张力维孟天霜
申请(专利权)人:常州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1