一种多模态融合的教态分析系统技术方案

技术编号：30642723 阅读：31 留言：0更新日期：2021-11-04 00:42

本发明专利技术提出一种多模态融合的教态分析系统，包括预处理模块、识别模块和教态输出模块；预处理模块，用于接收并预处理时间同步的音频信号与视频信号；识别模块，包括空间流模型、动作流模型、音频流模型和语义流模型，用于接收音频信号和视频信号预处理后的结果，并生成分类分数矩阵；教态输出模块，用于接收分类分数矩阵，通过多模态多标签分类器输出教态信息。本发明专利技术搭建的教态分析系统，可以有效避免大量人工对每堂课中此类底层具象(教师行为)与高层抽象(情绪、模态、教学环节分布)内容的标注与统计的过程，节省了大量枯燥的重复劳动时间以及标注的费用。以及标注的费用。以及标注的费用。

全部详细技术资料下载

【技术实现步骤摘要】
一种多模态融合的教态分析系统

[0001]本专利技术涉及人工智能领域，尤其涉及一种多模态融合的教态分析系统。

技术介绍

[0002]本专利技术要解决的问题：搭建一个辅助教师教研的智能化教态分析系统，结合音频、视频信息识别讲授内容、情绪表情，通过多模态融合及多标签分类识别教研中关心的复合型教态，从而辅助教研人员进行教态中形态、心态、文态、语态的分析。
[0003]随着教育信息化的普及与推广，摄像头在教室中越来越普及。同时，基于视频的动作识别是计算机视觉的一个研究方向，通常分为直接利用视频进行动作识别与人体关键点识别后进行动作分类识别。从而，会有相关的针对学生学习或教师教学活动视频或语音的分析与研究。
[0004](1)视频动作识别：《Two
‑
Stream Convolutional Networks for Action Recognition in Videos》，如图1所示，通过双流进行视频动作识别，分为空间流与时间流，空间流对一段视频的单帧图像提取特征并进行分类，时间流对多帧之间的光流提取特征并进行分类，双流在决策层进行融合，采用了两种方法融合，一种方法为直接取双流softmax分数的平均值，另一种方法则通过训练一个多类别的线性SVM模型。这种融合方式缺乏对先验场景条件的利用。
[0005](2)语音识别方面，现有技术已可支持识别语音的语义、声纹、情绪等。
[0006](3)多模态方面，包含图像、视频、音频、语义之间的多模态学习，其中多模态融合分为物理层融合、特...

【技术保护点】

【技术特征摘要】
1.一种多模态融合的教态分析系统，其特征在于，包括预处理模块、识别模块和教态输出模块；其中，预处理模块，用于接收并预处理时间同步的音频信号与视频信号；识别模块，包括空间流模型、动作流模型、音频流模型和语义流模型，用于接收音频信号和视频信号预处理后的结果，并生成分类分数矩阵；教态输出模块，用于接收分类分数矩阵，通过多模态多标签分类器输出教态信息。2.根据权利要求1所述的教态分析系统，其特征在于，所述预处理模块包括音频处理单元和视频处理单元；其中，音频处理单元用于对音频信号进行预处理，获得声纹图序列，以及通过语义识别，获得音频的语义信息；视频处理单元用于对视频信息进行预处理，获得视频的空间流序列和光流序列。3.根据权利要求1所述的教态分析系统，其特征在于，所述识别模块包括空间流模型、动作流模型、音频流模型和语义型模型，其中，空间流模型的输入为视频信号的空间流序列，空间流模型为LSTM网络，其最后一层为Sigmoid激活函数，损失函数为二值交叉熵损失函数，输出为多标签的空间流模型分类分数矩阵S1；动作流模型的输入为视频信号的光流序列，通过LSTM网络对图片序列进行特征提取，LSTM网络的最后一层采用Sigmoid激活函数后，利用二值交叉熵损失函数作为损失函数；输出为多标签的动作流模型分类分数矩阵S2；音频流模型的输入为音频信号的声纹图序列，通过LSTM网络对声纹图序列进行特征提取，网络的最后一层采用Sigmoid激活函数后，利用二值交叉熵损失函数作为损失函数；输出为多标签的音频流模型分类分数矩阵S3；语义流模型的输入为音频信号语音转写得到的文字，对文字进行嵌入操作，通过双向LSTM网络对文本进行特征提取，最后一层采用Sigmoid激活函数后，利用二值交叉熵损失函数作为损失函数，输出为多标签的语义流模型分类分数矩阵S4。4.根据权利要求3所述的教态分析系统，其特征在于，教态识别模块包括语音融合单元和多模态多标签分类器；其中，语音融合单元，用于将S3与S4加权求和并归一化后得到语音融合分数矩阵S5；多模态多标签分类器，用于接收S1、S2与S5并将其组合成分数矩阵输入分类器，分类器包括顺次连接的分类分数融合卷积层和Sigmoid激活函数，输出为对每个标签的类别预测概率，其中卷积层的损失函数采用二值交叉熵损失函数。5.根据权利要求4所述的教态分析系统，其特征在于，在语音融合单元中，S3权重的获取方法包括：a、获取多标签类别的关键词列表；设置S3的权重初值W0；b、将训练数据经过音频预处理后的结果输入音频流模型与语义流模型得到S3和S4；c、计算融合后的多标签分类序列S5＝W
·
S3+S4，其中，W为S3的权重；d、将S5与训练数据的真值序列进行比较，利...

【专利技术属性】
技术研发人员：卢宇，余京蕾，余胜泉，
申请(专利权)人：北京师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人