基于两种特征的课堂学生高投入片段提取方法技术

技术编号：42887318 阅读：24 留言：0更新日期：2024-09-30 15:08

本发明专利技术涉及一种基于两种特征的课堂学生高投入片段提取方法，属于计算机视觉领域。构建了一个课堂学生高投入片段视频数据集，针对学生在高投入时刻的动作和表情的特点，能够自动提取一段视频中学生的高投入片段的机器学习模型。采用C3D网络提取视频动作特征，并对YOLOv5模型提取的人脸表情框采用预训练的ResNet模型提取人脸表情特征，最后将视觉动作特征和人脸表情特征融合送入高投入片段提取模块，该模块融合了基于锚点和基于边界的方法，计算量少，能够生成边界灵活的高投入片段。首次定义了课堂学生高投入片段提取任务，并基于构建的数据集和模型实现了学生在课堂上的高投入片段的提取，这对于教学评估和学生学习兴趣发现有重要意义。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉领域，特别涉及一种基于两种特征的课堂学生高投入片段提取方法。

技术介绍

1、学生在课堂上的高投入片段是学生深度参与和专注学习内容的时刻，揭示了他们真实的学习需求和兴趣点。高投入片段也是学生在课堂上表现最为积极、思维最为活跃的时段，它们是学生与教学内容深度互动、产生较好学习体验的重要标志。通过分析高投入片段，教师可以更加深入地了解学生在课堂上的专注程度、理解水平以及学习难点，从而能够及时调整教学策略，使教学更加贴合学生的实际需求。高投入片段提取还有助于实现个性化教学，每个学生都是独一无二的个体，他们的学习需求和兴趣各不相同，高投入片段的提取有助于发现学生兴趣，提升教学质量和学习效果。然而，目前还没有这方面的相关研究任务，缺乏学生高投入片段数据集及相关学生高投入片段提取方法。

2、现有的与学生高投入片段提取任务比较相近的任务是时序动作提案生成任务，但其技术不能直接用于本专利技术定义的任务。目前，时序动作提案生成任务采用的技术分为两类，一种是基于锚点的方法，另一种是基于边界的方法。基于锚点的方法是采用固定的滑动窗口来进行动作片段的提取，这种方法适用于动作持续时间较短的时间段提取任务，对于持续时间较长的时间段，需要使用大量重叠的滑动窗口来提高准确率，因此，不适用于学生高投入片段提取任务。基于边界的方法只关注起始点的信息，虽然能够生成边界灵活的高投入片段，但容易忽略长时序的信息，也不适用于学生高投入片段提取任务。

技术实现思路

1、本专利技术首先依据学生课

2、本专利技术的上述目的通过以下技术方案实现：

3、基于两种特征的学生课堂高投入片段提取方法，使用c3d骨干网络提取视觉动作特征，使用目标检测算法提取人脸表情特征，通过高投入片段提取模型生成了各个候选提案的高投入置信度分数，经过去冗余处理进行分数降序排列，得到最终的高投入片段。融合了视觉动作特征和人脸表情特征，能够更好地理解课堂场景下学生的专注程度；同时结合视频提案生成的方法，减少了计算量，并生成了边界灵活的学生高投入片段；具体包括以下步骤：

4、步骤1：对课堂学生高投入片段定义，将学习高投入片段定义为学生表现出高度集中注意力、积极参与课堂活动的时间段。高投入片段通常表现为学生目光专注、表情积极、身体语言活跃(如点头、记笔记等)，且能够积极回应教师的提问或参与课堂讨论。

5、步骤2：构建课堂学生高投入片段数据集。

6、步骤2.1：录制课堂数据集，并对课堂数据集进行预处理，裁剪出小段的单人课堂视频。

7、步骤2.2：制定数据集的标注规则和标注规范。当观察到学生开始表现出高投入特征时，标注该时刻为高投入片段的开始时间。当学生高投入状态明显减弱或消失，例如目光游离、表情淡漠、身体语言减少等，标注该时刻为高投入片段的结束时间。时间标注应精确到秒。若两个高投入片段存在时间上的重叠，应根据实际情况进行合并或拆分，确保每个高投入片段的独立性。标注人员应严格按照本规则进行标注，确保不同标注人员之间的标注结果具有一致性。标注过程中应避免主观臆断和偏见，以客观事实为依据进行标注。标注人员应认真观察视频内容，确保标注结果的准确性。标注过程中应尽可能覆盖视频中的所有高投入片段，避免遗漏。标注完成后，应详细记录标注结果，并进行备份，以防数据丢失。

8、步骤3：提取视频的动作特征和人脸表情特征。

9、步骤3.1：使用预训练的c3d模型提取视频的动作特征。提取的动作特征fvis表示为

10、

11、每段视频分成了多个小片段，每个小片段的长度为1秒，cvis表示每个小片段的动作的特征维度，nclip表示整个视频的小片段的个数，表示每个小片段的动作特征。

12、步骤3.2：使用训练好的yolov5人脸检测模块检测出视频中的人脸框，再使用预训练的resnet模型提取出视频中学生的表情特征。提取的表情特征fface表示为

13、

14、其中，每个小片段长度为1秒，cface表示每个小片段人脸特征的维度，表示每个小片段的人脸表情特征。

15、步骤4：设计融合基于锚点的方法和基于边界方法的高投入片段提取模型。其中，动作特征和表情特征都分别经过步骤4.1、4.2、4.3得到对应的边界概率和片段置信度分数。步骤4.4和4.5将两种特征得到的边界概率和片段置信度分数进行融合得到最终的高投入片段。

16、步骤4.1：将提取的动作特征和提取的人脸表情特征做降维处理，使其能统一维度送入步骤4.2和4.3分别求得其边界概率和片段置信度分数。

17、步骤4.2：将步骤4.1降维后的特征向量送入两个一维卷积层，得到开始时间的概率序列和结束时间的概率序列和表示分别以动作和表情作为特征的第n个小片段作为开始点的概率，和表示分别以动作和表情作为特征的第n个小片段作为结束点的概率。

18、步骤4.3：将步骤4.1降维后的特征向量送入边界匹配层，得到的特征向量维度为256×32×nclip×nclip，再通过三维卷积层将边界匹配层的输出转化为维度为512×1×nclip×nclip的特征向量，再经过多个二维卷积层，得到片段的置信度分数和分别表示基于动作和表情的所有可能的片段置信度分数。和中的行表示持续时间，列表示开始时间，表示开始时间为j，持续时间为i的片段的置信度分数。

19、步骤4.4：将动作特征和人脸表情特征得到的开始、结束点的边界概率和片段置信度分数加权相加得到整体的开始概率ps和结束概率pe以及片段评估分数mc，公式(3)(4)(5)中，α和1-α分别表示动作特征和人脸表情特征得到的边界概率以及置信度分数的权重，α的取值范围为0.1-0.9。

20、

21、其中表示基于动作特征的开始时间概率，表示基于动作特征的结束时间概率，表示基于表情特征的开始时间概率，表示基于表情特征的结束时间概率。

22、步骤4.5：本专利技术通过整合那些具有较高边界概率的时间点来产生高投入片段。具体来说，为了识别出具有较高起始概率的位置，本专利技术记录下了所有时间点tn，这些时间点作为起始点的概率要么超过了0.5·max(ps)，要么是该视频中的起始概率峰值，其中ps表示视频中任意时间点作为开始点的概率，表示视频中时间点tn作为开始点的概率，max(ps)代表视频中的最高起始概率。这些潜在的起始点被汇集为集合ns表示潜在起始点的个数，ts,i表示第i个潜在的起始点，而结束点则可以通过类似的方式在集合be中聚集，然后匹配bs中每个起始位置ts和be中每个结束位置te作为一个候选的高投入片段，生成的高投入片段表示为是在ts,te时开始点和本文档来自技高网...

【技术保护点】

1.一种基于两种特征的课堂学生高投入片段提取方法，其特征在于：首先给出了学生高投入片段的定义，在此基础上，构建了课堂学生高投入片段数据集，提取了视频的动作和人脸表情两种特征，在此基础上，设计了融合锚点方法和边界方法的高投入片段提取模型，并对于模型给出的候选高投入片段的置信度分数，经过去冗余处理进行分数降序排列，得到学生出现高投入状态的较为准确的时间段包括以下步骤：

2.根据权利要求1基于两种特征的课堂学生高投入片段提取方法，其特征在于：步骤2所述的构建课堂学生高投入片段数据集，具体步骤如下：

3.根据权利要求1所述的基于两种特征的课堂学生高投入片段提取方法，其特征在于：步骤3所述的根据学生高投入片段的特点，提取视频的动作和人脸表情两种特征，具体是：

4.根据权利要求1所述的基于两种特征的课堂学生高投入片段提取方法，其特征在于：将两种特征送入高投入片段提取模块，得到每个时间点作为开始点和结束点的边界概率，并使用边界匹配机制，生成所有候选提案的高投入置信度分数；结合边界概率和高投入置信度分数对每个候选提案进行打分，使用去冗余的方法去除冗余的提案，最

5.根据权利要求1的基于两种特征的课堂学生高投入片段提取方法，其特征在于：步骤5所述的设计数据标签、损失函数、评价指标和实验参数，具体是：

...

【技术特征摘要】

2.根据权利要求1基于两种特征的课堂学生高投入片段提取方法，其特征在于：步骤2所述的构建课堂学生高投入片段数据集，具体步骤如下：

3.根据权利要求1所述的基于两种特征的课堂学生高投入片段提取方法，其特征...

【专利技术属性】
技术研发人员：赵晖，胡恒远，
申请(专利权)人：新疆大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人