一种基于被测者的音频确定抑郁症严重程度的方法及装置制造方法及图纸

技术编号:29855380 阅读:23 留言:0更新日期:2021-08-31 23:26
本申请涉及计算机技术领域,公开了一种基于被测者的音频确定抑郁症严重程度的方法、装置、设备及介质。本申请的基于被测者的音频确定抑郁症严重程度的方法包括:接收被测者的音频;对提取自音频的第一矩阵,使用至少一个双向长短期记忆模型分别基于正向长短期记忆模型和反向长短期记忆模型做并行处理,以及至少一个时域分布式卷积神经网络进行的池化处理,得到第二矩阵;将第二矩阵处理成向量,并根据向量确定被测者的抑郁症严重程度。本申请从声音输入到最后形成检测结果,期间无需人工干预,实现对被测者的抑郁严重程度进行直接确定,而不受限医生主观判断的影响,同时在精神压力访谈语料库(Distress Analysis Interview Corpus,DAIC‑WOZ)数据集上实现了0.9870的F1得分,判断结果有显著改进,且具有较强的抗噪能力。

【技术实现步骤摘要】
一种基于被测者的音频确定抑郁症严重程度的方法及装置
本申请涉及计算机
,特别涉及一种基于被测者的音频确定抑郁症严重程度的方法、装置、设备及介质。
技术介绍
精神健康障碍,如抑郁症,正成为我国社会的主要挑战之一。到2030年,抑郁症将成为世界范围内残疾的主要原因之一。目前临床上对抑郁症的筛查、诊断,以及治疗效果的评价,一般采用患者健康问卷抑郁量表(PHQ)、蒙哥马利和阿斯伯格抑郁症等级量表(MADRS)以及自报告问卷(如白氏抑郁症量表BDI),判断的准确度一方面依赖于病人是否诚实回答了相关问题,另一方面严重依赖于医生的经验和主观判断。在当前抑郁症门诊量激增的情况下,医生问诊时间短,压力大,误诊率高。目前,人工智能领域已经借助机器学习方法,从音频、视频出发建立了多种多样的抑郁症检测系统,来帮助心理学家和医护人员进行临床抑郁症的检测预防和治疗。在过去的几年中,通过音视频信息来进行抑郁症的检测已经取得了许多重要的成果,然而由于抑郁症的复杂性以及个体的差异性,抑郁症的研究仍然面临着严峻的挑战。因此,提供一种具有客观评判依据,不易受医生主观经验影响的可基于被测者的音频确定抑郁症严重程度的方法,显得尤为迫切。
技术实现思路
本申请实施例提供了一种基于被测者的音频确定抑郁症严重程度的方法、装置、设备及介质。第一方面,本申请实施例提供了一种基于被测者的音频确定抑郁症严重程度的方法,所述方法包括:接收所述被测者的音频;对提取自所述音频的第一矩阵,使用至少一个双向长短期记忆模型分别基于正向长短期记忆模型和反向长短期记忆模型做并行处理,以及至少一个时域分布式卷积神经网络进行的池化处理,得到第二矩阵,其中,所述第二矩阵包括所述音频数据的特征数据;将所述第二矩阵处理成向量,并根据所述向量确定所述被测者的抑郁症严重程度。在上述第一方面的一种可能的实现中,对提取自所述音频数据的第一矩阵,使用至少一个双向长短期记忆模型分别基于正向长短期记忆模型和反向长短期记忆模型做并行处理,包括:对于提取自所述音频数据的所述第一矩阵使用至少一个所述双向长短期记忆模型分别基于所述正向长短期记忆模型和所述反向长短期记忆模型做并行处理,得到第三矩阵,所述第三矩阵由所述正向长短期记忆模型输出的正向隐含状态序列和由所述反向长短期记忆模型输出的反向隐含状态序列组成。在上述第一方面的一种可能的实现中,使用至少一个所述双向长短期记忆模型对所述第一矩阵分别基于所述正向长短期记忆模型和所述反向长短期记忆模型做并行处理,得到第三矩阵,进一步包括:将所述第一矩阵输入至少一个所述正向长短期记忆模型,得到所述正向隐含状态序列[h0,h1,h2,……,hn];将所述第一矩阵上下翻转得到翻转矩阵;将所述翻转矩阵输入至少一个所述反向长短期记忆模型,得到所述反向隐含状态序列[h’n,h’n-1,h’n-2,……,h’0];将所述正向隐含状态序列和所述反向隐含状态序列顺次排列,得到所述第三矩阵[h0,h1,h2,……,hn,h’n,h’n-1,h’n-2,……,h’0],其中每个隐含状态h均表示一个二维矩阵。在上述第一方面的一种可能的实现中,至少一个时域分布式卷积神经网络进行的池化处理包括:使用至少一个时域分布式卷积神经网络在时间上对所述第三矩阵做卷积,得到所述第二矩阵,所述第二矩阵表示由所述第三矩阵在时间轴上求平均值得到的矩阵。在上述第一方面的一种可能的实现中,至少一个时域分布式卷积神经网络在时间上对所述第三矩阵做卷积,得到第二矩阵,进一步包括:基于至少一个所述时域分布式卷积神经网络,通过卷积对所述第三矩阵进行特征提取,得到矩阵序列,从时间上对所述矩阵序列做平均,求得平均值得到所述第二矩阵。在上述第一方面的一种可能的实现中,所述第一矩阵是对所述音频进行预处理后得到的矩阵。在上述第一方面的一种可能的实现中,对所述音频进行预处理,包括:从所述音频中获取第四矩阵,所述第四矩阵包括从所述音频中提取的音频特征;对所述第四矩阵进行音频边界处理得到所述第一矩阵,所述音频边界处理从所述第一矩阵中提取预设数量个时步的恒定采样周期的有声部分的音频特征,其中所述时步表示连续提取的所述音频特征的次数。在上述第一方面的一种可能的实现中,从所述音频中获取第四矩阵,包括:使用COVAREP工具箱对所述音频中的音频特征进行提取,得到所述第四矩阵Ai∈AT×F,其中A表示所述第四矩阵,Ai表示所述第四矩阵中的特征,T表示所述时步,与所述音频的持续时间成正比,F表示每次提取COVAREP时的初始特征数量。在上述第一方面的一种可能的实现中,对所述第四矩阵进行音频边界处理得到所述第一矩阵,包括:去除所述第四矩阵中每次提取的F个所述初始特征中的F-N个VUV=0的初始特征,保留N个VUV=1的初始特征,得到所述第一矩阵Bi∈BT×N;其中B表示所述第一矩阵,Bi表示所述第一矩阵中的特征,所述VUV表示所述音频特征是音频中的有声部分还是静默部分,当VUV=0时,所述初始特征对应所述静默部分,当VUV=1时,所述初始特征对应所述有声部分。在上述第一方面的一种可能的实现中,所述音频特征包括韵律特征、音质特征和频谱特征。在上述第一方面的一种可能的实现中,所述音频包括以下的一个或多个:所述被测者朗读特定文本发出的声音,所述被测者基于特定问题的口头回答发出的声音。在上述第一方面的一种可能的实现中,将所述第二矩阵处理成向量,包括:使用全连接网络对所述第二矩阵进行线性处理,以获得向量。在上述第一方面的一种可能的实现中,根据所述向量确定所述被测者的抑郁症严重程度,包括:根据所述向量的元素的值来确定抑郁症的严重程度。在上述第一方面的一种可能的实现中,根据所述向量确定所述被测者的抑郁症严重程度,包括:根据所述向量包含的元素中的最大值来确定抑郁症的严重程度。第二方面,本申请实施例提供了一种基于被测者的音频确定抑郁症严重程度的装置,所述基于被测者的音频确定抑郁症严重程度的设备包括:接收模块,接收所述被测者的音频;处理模块,对提取自所述音频的第一矩阵,使用至少一个双向长短期记忆模型分别基于正向长短期记忆模型和反向长短期记忆模型做并行处理,以及至少一个时域分布式卷积神经网络进行的池化处理,得到第二矩阵,其中,所述第二矩阵包括所述音频数据的特征数据;输出模块,将所述第二矩阵处理成向量,并根据所述向量确定所述被测者的抑郁症严重程度。在上述第二方面的一种可能的实现中,对提取自所述音频数据的第一矩阵,使用至少一个双向长短期记忆模型分别基于正向长短期记忆模型和反向长短期记忆模型做并行处理,包括:对于提取自所述音频数据的所述第一矩阵使用至少一个所述双向长短期记忆模型分别基于所述正向长短期记忆模型和所述反向长短期记忆模型做并行处理,得到第三矩阵,所述第三矩阵由所述正向长短期记忆模型输出的正向隐含状态序列和由所述反向长短期记忆模型输出的反向隐含状态序列组成。在上述第二方面的一种可能的实现中本文档来自技高网...

【技术保护点】
1.一种基于被测者的音频确定抑郁症严重程度的方法,用于电子设备,其特征在于,所述方法包括:/n接收所述被测者的音频;/n对提取自所述音频的第一矩阵,使用至少一个双向长短期记忆模型分别基于正向长短期记忆模型和反向长短期记忆模型做并行处理,以及至少一个时域分布式卷积神经网络进行的池化处理,得到第二矩阵,其中,所述第二矩阵包括所述音频数据的特征数据;/n将所述第二矩阵处理成向量,并根据所述向量确定所述被测者的抑郁症严重程度。/n

【技术特征摘要】
1.一种基于被测者的音频确定抑郁症严重程度的方法,用于电子设备,其特征在于,所述方法包括:
接收所述被测者的音频;
对提取自所述音频的第一矩阵,使用至少一个双向长短期记忆模型分别基于正向长短期记忆模型和反向长短期记忆模型做并行处理,以及至少一个时域分布式卷积神经网络进行的池化处理,得到第二矩阵,其中,所述第二矩阵包括所述音频数据的特征数据;
将所述第二矩阵处理成向量,并根据所述向量确定所述被测者的抑郁症严重程度。


2.根据权利要求1所述的方法,其特征在于,对提取自所述音频数据的第一矩阵,使用至少一个双向长短期记忆模型分别基于正向长短期记忆模型和反向长短期记忆模型做并行处理,包括:
对于提取自所述音频数据的所述第一矩阵使用至少一个所述双向长短期记忆模型分别基于所述正向长短期记忆模型和所述反向长短期记忆模型做并行处理,得到第三矩阵,所述第三矩阵由所述正向长短期记忆模型输出的正向隐含状态序列和由所述反向长短期记忆模型输出的反向隐含状态序列组成。


3.根据权利要求2所述的方法,其特征在于,使用至少一个所述双向长短期记忆模型对所述第一矩阵分别基于所述正向长短期记忆模型和所述反向长短期记忆模型做并行处理,得到第三矩阵,进一步包括:
将所述第一矩阵输入至少一个所述正向长短期记忆模型,得到所述正向隐含状态序列[h0,h1,h2,……,hn];
将所述第一矩阵上下翻转得到翻转矩阵;
将所述翻转矩阵输入至少一个所述反向长短期记忆模型,得到所述反向隐含状态序列[h’n,h’n-1,h’n-2,……,h’0];
将所述正向隐含状态序列和所述反向隐含状态序列顺次排列,得到所述第三矩阵[h0,h1,h2,……,hn,h’n,h’n-1,h’n-2,……,h’0],其中每个隐含状态h均表示一个二维矩阵。


4.根据权利要求1所述的方法,其特征在于,至少一个时域分布式卷积神经网络进行的池化处理包括:
使用至少一个时域分布式卷积神经网络在时间上对所述第三矩阵做卷积,得到所述第二矩阵,所述第二矩阵表示由所述第三矩阵在时间轴上求平均值得到的矩阵。


5.根据权利要求4所述的方法,其特征在于,至少一个时域分布式卷积神经网络在时间上对所述第三矩阵做卷积,得到第二矩阵,进一步包括:
基于至少一个所述时域分布式卷积神经网络,通过卷积对所述第三矩阵进行特征提取,得到矩阵序列,从时间上对所述矩阵序列做平均,求得平均值得到所述第二矩阵。


6.根据权利要求1所述的方法,其特征在于,所述第一矩阵是对所述音频进行预处理后得到的矩阵。


7.根据权利要求6所述的方法,其特征在于,对所述音频进行预处理,包括:
从所述音频中获取第四矩阵,所述第四矩阵包括从所述音频中提取的音频特征;
对所述第四矩阵进行音频边界处理得到所述第一矩阵,所述音频边界处理从所述第一矩阵中提取预设数量个时步的恒定采样周期的有声部分的音频特征,其中所述时步表示连续提取的所述音频特征的次...

【专利技术属性】
技术研发人员:毛凯宁陈颉叶敏捷王保凤
申请(专利权)人:温州康宁医院股份有限公司杭州耶利米信息科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1