一种用于抑郁症辅助诊断的多模态数据的音视频分类方法技术

技术编号：40772287 阅读：16 留言：0更新日期：2024-03-25 20:19

本发明专利技术公开了一种基于多模态数据的音视频分类方法，包括以下步骤：步骤S1、利用基于对比学习的掩码自动编码器进行音频和视频图像数据特征提取；步骤S2、利用提取的特征建立基于多模态时间注意力的检测模型；步骤S3、通过检测模型生成最终的音频的特征表示A和视频图像的特征表示V，再经过分类器得到最终的分类结果。本发明专利技术解决了现有深度学习方法对音视频图像检测精度不高的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉，特别是涉及一种基于多模态数据的音视频分类方法。

技术介绍

1、近年来，深度学习模型已经在许多医学领域中被广泛应用，包括图像检测、医疗影像分析和医学自然语言处理等。多模态数据的智能辅助检测方法结合了不同类型的数据，如语音、图像和生理信号等，以提供更全面的检测信息。这些数据来源可以包括患者的面部表情、语音语调、社交媒体活动、生理传感器等。深度学习模型可以从多个数据源中学习特征，并通过分析这些数据来识别相关模式和指标。通过分析面部表情和语音语调，模型可以推断出患者的情绪状态，从而提供更准确的检测信息。此外，深度学习模型还可以结合医学知识和大量的患者数据进行训练，以建立更精确的检测模型。通过对大规模数据集的学习，模型可以发现隐藏在数据中的模式和规律，从而提高检测的准确性和可靠性。

2、尽管深度学习模型在医学检测领域已经取得了巨大的成功，但是还有一些挑战需要克服。由于涉及到患者的情感、认知和行为方面的变化，这些变化可能在较短的时间内不容易观察到。因此通常要收集长时间的面部视频和音频数据，来全面地捕捉患者的情感表达、语调变化和行为模式等信息，从而提供更准确的检测和治疗建议。但是由于设备gpu内存的限制，无法直接对患者的数据直接进行处理。现有的方法通常会将长视频或音频裁剪为小片段，每个片段标签与整个样本是一致的，然后将每个片段作为一个样本来进行训练。但是患者大部分都是轻度或中度，整个样本中并不是所有的片段都会表现出症状，直接将整个片段的标签赋给小片段会导致很多轻中症患者的正常片段存在偏差，从而影响分类的精

技术实现思路

1、本专利技术实施例的目的在于提供一种基于多模态数据的音视频分类方法，以解决现有深度学习方法对音视频图像检测精度不高的问题。

2、为解决上述技术问题，本专利技术所采用的技术方案是，一种基于多模态数据的音视频分类方法，包括以下步骤：

3、步骤s1、利用基于对比学习的掩码自动编码器进行音频和视频图像数据特征提取；

4、步骤s2、利用提取的特征建立基于多模态时间注意力的检测模型；

5、步骤s3、通过检测模型生成最终的音频的特征表示a和视频图像的特征表示v，再经过分类器得到最终的分类结果。

6、进一步地，所述步骤s1包括以下步骤：

7、步骤s11、预训练掩码自动编码器；

8、步骤s12、利用掩码自动编码器提取音频特征和视频图像特征。

9、进一步地，所述步骤s11具体为：将视频裁剪为多个t秒带有平行音频的视频片段来预训练掩码自编码器：

10、对于音频，每个t秒的音频波形首先转换为频谱图，然后将频谱图分割为n个正方形的小块作为掩码自编码器的音频输入a＝[a1,...,an]；对于图像，从每个t秒的视频中均匀采样m帧视频图像作为掩码自编码器的视频图像输入v＝[v1,...,vm]；

11、假设第i个视频片段的输入为{ai,vi}，将{ai,vi}对应投影到线性层ea、ev，并对应添加了正弦位置编码信息之后对每个视频片段的输入{ai,vi}遮盖75％的序列信息：

12、

13、

14、其中proj表示将输入数据预处理，分别表示将音频、视频图像输入加入位置编码器后遮盖75％的序列信息，mask0.75表示遮盖75％的序列信息；

15、将分别输入到独立的编码器ea(·)、ev(·)中，对应得到音频表示a'i、视频图像表示v'i，然后将音视频联合表示为[a'i,v'i]；将音频表示a'i，视频图像表示v'i和音视频联合表示[a'i,v'i]三种表示分别输入到联合编码器ej中，然后将三种表示编码后的输出再分别通过两层归一化层：

16、

17、

18、

19、其中，分别表示第i个样本的音频、视频图像表示经过联合编码器输出的表示，然后使用和进行对比学习，并使用音视频联合表示经过联合编码器ej的输出xi进行重建任务；ln1a、ln2a分别表示音频表示的归一化层，ln1v、ln2v分别表示视频图像的归一化层，ln1av、ln2av分别表示音视频联合表示的归一化层；

20、对于对比视听学习，使用对比损失lc：

21、

22、其中表示计算和之间的余弦相似度，si,k表示计算和之间的余弦相似度，表示第k个样本的音频表示经过联合编码器输出的表示，t表示矩阵的转置，b表示批大小，exp表示以e为底的指数函数，τ表示温度参数；

23、对于重建任务，在xi中被遮盖的原始位置填充可训练的掩码令牌e'a和e'v和位置嵌入信息和位置填充和嵌入后的结果称为x'i，e'a、e'v分别表示在xi中加入的可训练的音频、视频图像掩码令牌，分别表示xi中加入的音频、视频图像的2d模态位置信息；然后将x'i输入到音视频多模态解码器dj(·)以重建输入音频和图像，然后应用均方误差重构损失lr：

24、

25、

26、其中b是批大小，分别表示重建后的音频和视频图像表示，分别表示音频、视频图像被遮掩的特征表示，分别表示解码器预测的音频、视频图像被遮掩处的表示，norm表示归一化函数；

27、最后，将对比损失lc乘以权值λ后和重构损失lr归结为最终的损失，即：

28、l＝lr+λ·lc。

29、进一步地，经过预训练后，丢弃解码器，只保留掩码自动编码器用于后续特征提取任务，可以使用单模态和多模态编码器输出的总和，或者仅使用多模态编码器输出。

30、进一步地，所述步骤s2中的检测模型包括时间相关学习模块和时间擦除模块，其中，所述时间相关学习模块用于全面发现音频和视频图像数据中不同段之间的隐含对应关系，所述时间擦除模块用于迭代地擦除以注意力权重为指标的随机信息。

31、进一步地，所述时间相关学习模块的构建方法为：

32、通过三个线性投影函数θ、g将特征f嵌入到三个子空间：

33、

34、其中，f表示通过预训练的掩码自动编码器提取的音频特征fa∈rt×c和视频图像特征fv∈rt×c，q∈rt×c、k∈rt×c和、v∈rt×c分别表示关键字、查询和值特征；r表示矩阵的维度，t表示片段的个数，c表示特征的维度；

35、通过查询和关键特征之间的点积相似性来编码f中不同片段之间的时间相关性：

36、

37、其中，相似度矩阵s(q,k)∈rt×t用于编码每个查询片段与所有片段之间的相关性，softmax函数中d为函数符号；

38、通过时间相关权重s来融合值特征：

39、z＝s(q,k)v

40、其中，本文档来自技高网...

【技术保护点】

1.一种基于多模态数据的音视频分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多模态数据的音视频分类方法，其特征在于，所述步骤S1包括以下步骤：

3.根据权利要求2所述的一种基于多模态数据的音视频分类方法，其特征在于，所述步骤S11具体为：将视频裁剪为多个T秒带有平行音频的视频片段来预训练掩码自编码器：

4.根据权利要求3所述的一种基于多模态数据的音视频分类方法，其特征在于，经过预训练后，丢弃解码器，只保留掩码自动编码器用于后续特征提取任务，可以使用单模态和多模态编码器输出的总和，或者仅使用多模态编码器输出。

5.根据权利要求1所述的一种基于多模态数据的音视频分类方法，其特征在于，所述步骤S2中的检测模型包括时间相关学习模块和时间擦除模块，其中，所述时间相关学习模块用于全面发现音频和视频图像数据中不同段之间的隐含对应关系，所述时间擦除模块用于迭代地擦除以注意力权重为指标的随机信息。

6.根据权利要求5所述的一种基于多模态数据的音视频分类方法，其特征在于，所述时间相关学习模块的构建方法为：