本发明专利技术提出一种多模态融合的教态分析系统,包括预处理模块、识别模块和教态输出模块;预处理模块,用于接收并预处理时间同步的音频信号与视频信号;识别模块,包括空间流模型、动作流模型、音频流模型和语义流模型,用于接收音频信号和视频信号预处理后的结果,并生成分类分数矩阵;教态输出模块,用于接收分类分数矩阵,通过多模态多标签分类器输出教态信息。本发明专利技术搭建的教态分析系统,可以有效避免大量人工对每堂课中此类底层具象(教师行为)与高层抽象(情绪、模态、教学环节分布)内容的标注与统计的过程,节省了大量枯燥的重复劳动时间以及标注的费用。以及标注的费用。以及标注的费用。
【技术实现步骤摘要】
一种多模态融合的教态分析系统
[0001]本专利技术涉及人工智能领域,尤其涉及一种多模态融合的教态分析系统。
技术介绍
[0002]本专利技术要解决的问题:搭建一个辅助教师教研的智能化教态分析系统,结合音频、视频信息识别讲授内容、情绪表情,通过多模态融合及多标签分类识别教研中关心的复合型教态,从而辅助教研人员进行教态中形态、心态、文态、语态的分析。
[0003]随着教育信息化的普及与推广,摄像头在教室中越来越普及。同时,基于视频的动作识别是计算机视觉的一个研究方向,通常分为直接利用视频进行动作识别与人体关键点识别后进行动作分类识别。从而,会有相关的针对学生学习或教师教学活动视频或语音的分析与研究。
[0004](1)视频动作识别:《Two
‑
Stream Convolutional Networks for Action Recognition in Videos》,如图1所示,通过双流进行视频动作识别,分为空间流与时间流,空间流对一段视频的单帧图像提取特征并进行分类,时间流对多帧之间的光流提取特征并进行分类,双流在决策层进行融合,采用了两种方法融合,一种方法为直接取双流softmax分数的平均值,另一种方法则通过训练一个多类别的线性SVM模型。这种融合方式缺乏对先验场景条件的利用。
[0005](2)语音识别方面,现有技术已可支持识别语音的语义、声纹、情绪等。
[0006](3)多模态方面,包含图像、视频、音频、语义之间的多模态学习,其中多模态融合分为物理层融合、特征层融合、决策层融合几个类型。物理层融合即在数据采集部分进行融合,特征层融合指在模型特征部分进行融合,决策层融合即不同模态独立分别进行学习,在最终结果部分进行融合。
[0007]多模态动作识别,《Fusing Multi
‑
Stream Deep Networks for Video Classification》,结构如图2所示,通过空间流、动作流与语音流对视频分类。空间流利用ConvNet网络提取单帧空间特征,动作流对多帧之间的光流提取特征利用LSTM进行分类,语音流通过将单声道转为2D声纹图,利用ConvNet提取特征,最终将三流的预测结果利用可自适应的方式融合。
[0008]多标签分类与多类别分类不同,如图3所示。多类别的分类,每个分类模型的预测结果只有一个,但多标签分类的模型预测结果会产生多个,从而可以得到更多维度的预测信息。
[0009]现有的智能化课堂识别系统,其功能多为现有技术的组合,包括利用视频与语音的独立识别。在中国专利CN111967703A《课堂教学“言语——行为”大数据同步分析系统》中提到,通过人脸识别、体形识别、语音识别分别对教师教学进行评价。人脸识别系统对教师和学生的面部表情和眼神等进行跟踪监测,语言识别系统对教师和学生的有声语言作进行检测分析,行为识别系统对教师和学生的肢体神态、肢体动作进行跟踪分析并采集基本数据。可以看出该分析系统分别以人脸、体形和语音为根据进行评价,但缺少统一的评价标
准。
[0010]同时,现有技术无法得到多标签的复合型教态识别结果,即无法通过一组数据输入得到一组多维度的教态识别结果。
[0011]现有智能化教室系统,由于只能独立处理音、视频信号,因此很难实现对复合型教态进行高准确率的识别,会有大量的过检或误识。例如,当仅通过图像进行动作识别,由于缺少时序信息与语音语义信息,只能在有明确含义和特征的手势上有高准确率的识别,例如“表扬手势”。当需要识别较为复杂的动作,例如“播放多媒体”时,则无法直接通过老师是否低头看电脑或手拿遥控器进行评断。
[0012]现有智能化教室系统,普遍一个输入信号只能进行一个浅显的显式信息的识别(例如:“表扬手势”,“点头”),缺乏高阶多维度的教研意义(例如:“集体讲授”,“播放多媒体”)。然而,高阶多维度的教态无法通过单一动作进行判断,而是需要多模态信号输入进行判断。
技术实现思路
[0013]针对现有技术的不足,本专利技术提供一种多模态融合的教态分析系统,包括预处理模块、识别模块和教态输出模块;其中,
[0014]预处理模块,用于接收并预处理时间同步的音频信号与视频信号;
[0015]识别模块,包括空间流模型、动作流模型、音频流模型和语义流模型,用于接收音频信号和视频信号预处理后的结果,并生成分类分数矩阵;
[0016]教态输出模块,用于接收分类分数矩阵,通过多模态多标签分类器输出教态信息。
[0017]进一步的,所述预处理模块包括音频处理单元与视频处理单元;其中,音频处理单元用于对音频信号进行预处理,获得声纹图序列,以及通过语义识别,获得音频的语义信息;
[0018]视频处理单元用于对视频信息进行预处理,获得视频的空间流序列和光流序列。
[0019]进一步的,所述识别模块包括空间流模型、动作流模型、音频流模型和语义型模型,其中,
[0020]空间流模型的输入为视频信号的空间流序列,空间流模型为LSTM网络,其最后一层为Sigmoid激活函数,损失函数为二值交叉熵损失函数,输出为多标签的空间流模型分类分数矩阵S1;
[0021]动作流模型的输入为视频信号的光流序列,通过LSTM网络对图片序列进行特征提取,LSTM网络的最后一层采用Sigmoid激活函数后,利用二值交叉熵损失函数作为损失函数;输出为多标签的动作流模型分类分数矩阵S2;
[0022]音频流模型的输入为音频信号的声纹图序列,通过LSTM网络对声纹图序列进行特征提取,网络的最后一层采用Sigmoid激活函数后,利用二值交叉熵损失函数作为损失函数;输出为多标签的音频流模型分类分数矩阵S3;
[0023]语义流模型的输入为音频信号语音转写得到的文字,对文字进行嵌入操作,通过双向LSTM网络对文本进行特征提取,最后一层采用Sigmoid激活函数后,利用二值交叉熵损失函数作为损失函数,输出为多标签的语义流模型分类分数矩阵S4。
[0024]进一步的,教态识别模块包括语音融合单元和多模态多标签分类器;其中,语音融
合单元,用于将S3与S4加权求和并归一化后得到语音融合分数矩阵S5;多模态多标签分类器,用于接收S1、S2与S5并将其组合成分数矩阵输入分类器,分类器包括顺次连接的分类分数融合卷积层和Sigmoid激活函数,输出为对每个标签的类别预测概率,其中卷积层的损失函数采用二值交叉熵损失函数。
[0025]进一步的,在语音融合单元中,S3权重的获取方法包括:
[0026]a、获取多标签类别的关键词列表;设置S3的权重初值W0;
[0027]b、将训练数据经过音频预处理后的结果输入音频流模型与语义流模型得到S3和S4;
[0028]c、计算融合后的多标签分类序列S5=W
·
S3+S4,其中,W为S3的权重;
[0029]d、将S5与训练数据的真值序列进行比较,利用关键词损失函数计本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种多模态融合的教态分析系统,其特征在于,包括预处理模块、识别模块和教态输出模块;其中,预处理模块,用于接收并预处理时间同步的音频信号与视频信号;识别模块,包括空间流模型、动作流模型、音频流模型和语义流模型,用于接收音频信号和视频信号预处理后的结果,并生成分类分数矩阵;教态输出模块,用于接收分类分数矩阵,通过多模态多标签分类器输出教态信息。2.根据权利要求1所述的教态分析系统,其特征在于,所述预处理模块包括音频处理单元和视频处理单元;其中,音频处理单元用于对音频信号进行预处理,获得声纹图序列,以及通过语义识别,获得音频的语义信息;视频处理单元用于对视频信息进行预处理,获得视频的空间流序列和光流序列。3.根据权利要求1所述的教态分析系统,其特征在于,所述识别模块包括空间流模型、动作流模型、音频流模型和语义型模型,其中,空间流模型的输入为视频信号的空间流序列,空间流模型为LSTM网络,其最后一层为Sigmoid激活函数,损失函数为二值交叉熵损失函数,输出为多标签的空间流模型分类分数矩阵S1;动作流模型的输入为视频信号的光流序列,通过LSTM网络对图片序列进行特征提取,LSTM网络的最后一层采用Sigmoid激活函数后,利用二值交叉熵损失函数作为损失函数;输出为多标签的动作流模型分类分数矩阵S2;音频流模型的输入为音频信号的声纹图序列,通过LSTM网络对声纹图序列进行特征提取,网络的最后一层采用Sigmoid激活函数后,利用二值交叉熵损失函数作为损失函数;输出为多标签的音频流模型分类分数矩阵S3;语义流模型的输入为音频信号语音转写得到的文字,对文字进行嵌入操作,通过双向LSTM网络对文本进行特征提取,最后一层采用Sigmoid激活函数后,利用二值交叉熵损失函数作为损失函数,输出为多标签的语义流模型分类分数矩阵S4。4.根据权利要求3所述的教态分析系统,其特征在于,教态识别模块包括语音融合单元和多模态多标签分类器;其中,语音融合单元,用于将S3与S4加权求和并归一化后得到语音融合分数矩阵S5;多模态多标签分类器,用于接收S1、S2与S5并将其组合成分数矩阵输入分类器,分类器包括顺次连接的分类分数融合卷积层和Sigmoid激活函数,输出为对每个标签的类别预测概率,其中卷积层的损失函数采用二值交叉熵损失函数。5.根据权利要求4所述的教态分析系统,其特征在于,在语音融合单元中,S3权重的获取方法包括:a、获取多标签类别的关键词列表;设置S3的权重初值W0;b、将训练数据经过音频预处理后的结果输入音频流模型与语义流模型得到S3和S4;c、计算融合后的多标签分类序列S5=W
·
S3+S4,其中,W为S3的权重;d、将S5与训练数据的真值序列进行比较,利...
【专利技术属性】
技术研发人员:卢宇,余京蕾,余胜泉,
申请(专利权)人:北京师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。