基于运动目标语义增强的多模态中学实验步骤检测方法及系统技术方案

技术编号：42228330 阅读：26 留言：0更新日期：2024-08-02 13:45

本发明专利技术公开了一种基于运动目标语义增强的多模态中学实验步骤检测方法及系统，首先对视频帧预处理，通过帧差分获取运动区域，利用目标检测技术获取运动目标并使用BERT模型提取语义时序特征，再在编码器中对视频特征进行时序依赖建模获取步骤级别的视觉时序特征，在解码器中与运动目标语义特征进行融合，构建实验步骤与对应目标的联系，实现对中学实验视频中实验步骤的准确检测。本专利方法能够更有效地捕捉实验步骤的独特运动特征，有效区分不同步骤，实现了对实验步骤的准确判断，具有广阔的应用前景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能的智慧教育，主要涉及了一种基于运动目标语义增强的多模态中学实验步骤检测方法及系统。

技术介绍

1、实验教学是国家课程方案和课程标准规定的重要教学内容，是培养创新人才的重要途径，是全面提高教育质量的重要一环。要把实验教学情况纳入教育质量评价监测体系，把学生实验操作能力表现纳入综合素质评价。

2、然而，当前的中学实验评价模式面临诸多挑战。教学时间有限，学生人数庞大，如何改革实验操作评价方式以全面、高效地考核学生的实验操作能力成为迫切的问题。针对这些挑战，利用人工智能技术的变革潜力至关重要。人工智能具备实时分析和评价学生实验的能力，为建立全面、标准化的评价框架提供了基础。通过探索和利用人工智能来加强中学实验评价，最终可以提升科学教育的质量和效果。

3、目前的研究方法主要通过在线动作检测算法来分析视频中的动作时序关系，以实现对动作类别的准确检测。然而，在处理中学实验视频时仍存在一些瓶颈：首先，中学实验的场景通常较为复杂，涉及到多种实验仪器的使用和不同的实验步骤，这要求算法能够准确地捕捉实验者与实验仪器之间的互动关系，以便更好地理解实验的进行，但是现有方法未能充分利用这些特征信息，导致对实验步骤的识别和理解不够准确，影响了对视频内容的深度分析；其次，目前的动作检测方法通常采用双流结构，其中光流信息在提取过程中占据重要地位，然而光流的提取过程相当耗时，且在实际应用中容易受到视频质量和复杂场景的影响，导致算法的运行效率较低，此外光流信息对于动作检测的性能具有重要影响，移除光流会导致检测精度下降，这

技术实现思路

1、本专利技术正是针对现有技术中存在的问题，提供一种基于运动目标语义增强的多模态中学实验步骤检测方法及系统，首先对视频帧预处理，通过帧差分获取运动区域，利用目标检测技术获取运动目标并使用bert模型提取语义时序特征，再在编码器中对视频特征进行时序依赖建模获取步骤级别的视觉时序特征，在解码器中与运动目标语义特征进行融合，构建实验步骤与对应目标的联系，实现对中学实验视频中实验步骤的准确检测。本专利方法能够更有效地捕捉实验步骤的独特运动特征，有效区分不同步骤，实现了对实验步骤的准确判断，具有广阔的应用前景。

2、为了实现上述目的，本专利技术采取的技术方案是：基于运动目标语义增强的多模态中学实验步骤检测方法，包括如下步骤：

3、s1，数据预处理：对输入的中学实验视频数据进行预处理，将视频转换为视频帧序列，以每帧作为锚点中心获得16帧一组的视频帧片段；

4、s2，语义时序特征提取：获取运动目标并使用yolov8获取运动目标的语义，使用bert模型对运动目标的语义编码生成运动目标语义时序特征；

5、s3，视频帧级别的视觉时序特征获取：使用视觉大模型vi deomae对视频帧片段进行特征提取，获取视频帧级别的视觉时序特征；

6、s4，步骤级别的视觉时序特征获取：将步骤s3获得的视频帧级别的时序特征输入编码器中，学习步骤级别的视觉时序特征；所述编码器中至少包括时序融合模块，将视频序列中不同帧之间的时间关系形成学习步骤级别的视觉时序特征；

7、s5，特征融合：将步骤s4获得的步骤级别的视觉时序特征与步骤s2获得的运动目标语义时序特征输入到解码器中进行融合；所述解码器用运动目标语义特征对视觉特征进行增强，通过全连接层输出视频帧的分类结果；

8、s6，结果输出：使用融合步骤级别的视觉时序特征与运动目标的语义时序特征的多模态特征进行分类，输出视频帧的分类结果。

9、作为本专利技术的一种改进，所述步骤s1数据预处理中还包括数据标准化处理，将原始视频帧的rgb图像，红、绿、蓝每个通道的均值设置为0.485、0.456、0.406，标准差设置为0.229、0.224、0.225，分别计算所有帧的均值μ和标准差σ，将每个视频帧xi经过归一化得到zi，以使得数据在进行训练时更易于收敛，提高模型的训练效率和泛化能力；再将原始视频帧片段转换为张量的格式，具体为：

10、

11、

12、

13、其中，所有帧的均值为μ，标准差为σ，xi表示视频帧，zi表示归一化后的视频帧，n为视频帧的数量。

14、作为本专利技术的另一种改进，所述步骤s2具体包括如下步骤：

15、s21，获取运动区域：利用帧间差分计算方法，分析相邻视频帧之间的像素差异，以捕获视频中运动区域的变化，通过对每个像素点的变化情况进行比较和分析，确定发生变化的区域，从而准确提取出视频中的动态运动区域：

16、vi＝(zi+1-zi)∧(zi-zi-1)

17、其中，zi表示当前帧，zi+1和zi-1分别表示前后相邻的两帧，两两进行差分得到的结果相与之后就能得到此段的运动区域vi；

18、s22，运动目标检测：运用目标检测技术yolov8对中间帧进行目标检测，获取对应的实验仪器目标，在实验中，每个步骤都通常需要使用特定的实验仪器，识别涉及到的实验仪器可以为后续的实验步骤检测和分析提供准确的基础；

19、s23,获取运动目标语义：将步骤s21获取的运动区域进行二值化处理，通过计算目标的坐标框与运动区域的交并比筛选出运动目标，再使用bert模型提取运动目标的语义时序特征。

20、作为本专利技术的另一种改进，所述步骤s23中，对运动区域进行二值化处理时，像素值大于30的设置为255，小于等于30的设置为0；在筛选运动目标时，阈值设置为0.7。

21、作为本专利技术的又一种改进，所述步骤s3中，采用视觉大模型videomae掩码自编码方法，对于时刻t，将往前t个时刻的视频帧一起送入特征提取器u中，得到当前时刻的特征ft：

22、

23、作为本专利技术的又一种改进，所述步骤s4具体为：时序融合模块用于捕捉视频序列中不同帧之间的时间关系形成学习步骤级别的视觉时序特征，主要由多头自注意力层构成，包含注意力投影、计算注意力权重、加权求和和多头机制，多头注意力是利用多个查询向量qi，并行地从输入信息ki中选取多组信息，计算注意力得分后应用缩放点积和softmax进行归一化约束注意力得分的范围，最后与值vi加权求和得到输出。在查询过程中，每个查询向量将会关注输入信息的不同部分，即从不同的角度上去分析当前的输入信息；此外还有dropout层，非线性激活函数，全连接层：

24、

25、时序融合模块的运行过程为：首先根据输入的序列长度和特征维度，创建了一个位置编码的张量，然后将输入和位置编码相加，以融合位置信息，接着利用多头自注意力机制捕捉视频序列ft中不同帧之间的时间关系，最后对输出特征进行归一化处理，并返回新的特征

26、

27、作为本专利技术的更进一步改进，所述步骤s5具体包括如下步骤：

28、s51：利用多头自注意力机制对多帧运动目标语义进行融合本文档来自技高网...

【技术保护点】

1.基于运动目标语义增强的多模态中学实验步骤检测方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于运动目标语义增强的多模态中学实验步骤检测方法，其特征在于：所述步骤S1数据预处理中还包括数据标准化处理，将原始视频帧的RGB图像，红、绿、蓝每个通道的均值设置为0.485、0.456、0.406，标准差设置为0.229、0.224、0.225，分别计算所有帧的均值μ和标准差σ，将每个视频帧xi经过归一化得到zi，再将原始视频帧片段转换为张量的格式，具体为：

3.如权利要求1所述的基于运动目标语义增强的多模态中学实验步骤检测方法，其特征在于：所述步骤S2具体包括如下步骤：

4.如权利要求3所述的基于运动目标语义增强的多模态中学实验步骤检测方法，其特征在于：所述步骤S23中，对运动区域进行二值化处理时，像素值大于30的设置为255，小于等于30的设置为0；在筛选运动目标时，阈值设置为0.7。

5.如权利要求4所述的基于运动目标语义增强的多模态中学实验步骤检测方法，其特征在于：所述步骤S3中，采用视觉大模型VideoMAE掩码自编码

6.如权利要求1所述的基于运动目标语义增强的多模态中学实验步骤检测方法，其特征在于：所述步骤S4中，时序融合模块用于捕捉视频序列中不同帧之间的时间关系形成学习步骤级别的视觉时序特征，主要由多头自注意力层构成，包含注意力投影、计算注意力权重、加权求和和多头机制，多头注意力利用多个查询向量Qi，并行地从输入信息Ki中选取多组信息，计算注意力得分后应用缩放点积和softmax进行归一化约束注意力得分的范围，与值Vi加权求和得到输出：

7.如权利要求3或4所述的基于运动目标语义增强的多模态中学实验步骤检测方法，其特征在于：所述步骤S5具体包括如下步骤：

8.基于运动目标语义增强的多模态中学实验步骤检测系统，包括计算机程序，其特征在于：所述计算机程序被处理器执行时实现如上述任一种所述方法的步骤。

...

【技术特征摘要】

1.基于运动目标语义增强的多模态中学实验步骤检测方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于运动目标语义增强的多模态中学实验步骤检测方法，其特征在于：所述步骤s1数据预处理中还包括数据标准化处理，将原始视频帧的rgb图像，红、绿、蓝每个通道的均值设置为0.485、0.456、0.406，标准差设置为0.229、0.224、0.225，分别计算所有帧的均值μ和标准差σ，将每个视频帧xi经过归一化得到zi，再将原始视频帧片段转换为张量的格式，具体为：

3.如权利要求1所述的基于运动目标语义增强的多模态中学实验步骤检测方法，其特征在于：所述步骤s2具体包括如下步骤：

4.如权利要求3所述的基于运动目标语义增强的多模态中学实验步骤检测方法，其特征在于：所述步骤s23中，对运动区域进行二值化处理时，像素值大于30的设置为255，小于等于30的设置为0；在筛选运动目标时，阈值设置为0.7。

5.如权利要求4所述的基于运动目标语义增强的多模态中学...

【专利技术属性】
技术研发人员：陈燚，袁浩淼，邢武略，周俊生，顾彦慧，
申请(专利权)人：南京师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人