动态修正的课堂学生状态多模态识别方法及系统技术方案

技术编号：43851780 阅读：17 留言：0更新日期：2024-12-31 18:43

本申请属于动态修正的课堂学生状态多模态识别方法及系统，方法包括：获取课堂内的视频图像，对所述视频图像进行人物检测和截取，得到视频中携带学生信息的截取图像；基于所述截取图像对学生状态进行分类，得到分类结果，基于所述截取图像对学生身份进行识别，得到学生身份信息；利用多模态大语言模型对所述分类结果进行动态修正，得到学生状态时间轴；基于所述学生身份信息和学生状态时间轴进行学生状态识别，得到课堂内学生的状态识别结果和行为评价结果。通过本申请能够提高识别准确度和识别效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于多模态识别领域，更具体地，涉及一种动态修正的课堂学生状态多模态识别方法及系统。

技术介绍

1、随着教育信息化的不断深入，在课堂上学生的状态的实时监测和具体评估分析成了评估学生上课状态和提高教学质量的关键。现有的技术在识别学生的状态方面仍存在较多的局限。目前常用的手段是通过获取课堂的视频图像进行图像分析和图像识别等，然而目前的图像处理过程中由于多模态融合的复杂性、样本获取的困难性以及系统计算资源消耗等缺陷，导致课堂学生状态识别过程中存在着识别结果不精确以及识别效率较差的问题。

2、因此，如何提高学生状态识别的准确度和效率，是当前亟需解决的技术问题。

技术实现思路

1、针对现有技术的缺陷，本申请的目的在于提供一种动态修正的课堂学生状态多模态识别方法及系统，旨在解决课堂学生状态识别准确度和效率不佳的问题。

2、第一方面，本申请提供了一种动态修正的课堂学生状态多模态识别方法，包括：

3、本申请提供一种动态修正的课堂学生状态多模态识别方法，包括：

4、获取课堂内的视频图像，对所述视频图像进行人物检测和截取，得到视频中携带学生信息的截取图像；

5、基于所述截取图像对学生状态进行分类，得到分类结果，基于所述截取图像对学生身份进行识别，得到学生身份信息；

6、利用多模态大语言模型对所述分类结果进行动态修正，得到学生状态时间轴；

7、基于所述学生身份信息和学生状态时间轴进行学生状态识别，得到课堂内学生的状态识别结果和行为评价结果。

8、本申请通过人物检测与截取、身份识别、状态粗分类、多模态大语言模型修正以及状态评价多个步骤，分步骤实现高效的人物检测、精确的状态分类、准确的身份识别和智能的动态修正，从多个不同的角度进行处理，有效地提高了对学生状态的识别准确度和效率，并且先通过模型进行初步的检测，再由多模态大语言模型进行修正，减少了计算资源的需求，进而提高了识别效率。

9、可选地，所述利用多模态大语言模型对所述分类结果进行动态修正之前，还包括：

10、根据每帧截取图像的时间信息，确定学生的初始状态时间轴；

11、所述利用多模态大语言模型对所述分类结果进行动态修正，得到学生状态时间轴，包括：

12、判断所述分类结果的置信度是否低于预设阈值；

13、在所述置信度低于所述预设阈值的情况下，对所述状态时间轴进行标记，将标记对应的截取图像输入到多模态大语言模型中，得到学生的详细状态信息；

14、利用所述详细状态信息和修正前的初始状态时间轴进行组合，得到修正后的学生状态时间轴。

15、本申请通过用多模态大语言模型对分类结果进行动态修正，能够在判断置信度低于预设阈值时，进一步优化状态时间轴的准确性。通过将不确定的分类结果输入模型，系统可以从多模态数据中获取更多的语境信息，从而更准确地识别学生的状态。

16、可选地，所述基于所述学生身份信息和学生状态时间轴进行学生状态识别，得到课堂内学生的状态识别结果和行为评价结果，包括：

17、将所述学生身份信息和学生状态时间轴输入到所述多模态大语言模型中进行识别和评价，得到该学生的状态识别结果和行为评价结果。

18、可选地，所述获取课堂内的视频图像，对所述视频图像进行人物检测和截取，得到视频中携带学生信息的截取图像，包括：

19、从摄像机中获取课堂内的视频图像；

20、将所述视频图像输入到人物检测模型中，得到所述视频图像的检测结果；

21、确定所述检测结果为人物图像，将所述人物图像进行截取，得到多个携带学生信息的小图像作为所述截取图像。

22、可选地，所述基于所述截取图像对学生状态进行分类，得到分类结果，包括：

23、将所述截取图像输入到分类模型中，对学生状态进行八分类，得到所述分类结果；

24、其中，所述分类模型是基于目标检测技术yolo建立，并基于图像样本和所述图像样本对应的分类标签进行训练得到的。

25、可选地，所述基于所述截取图像对学生身份进行识别，得到学生身份信息，包括：

26、将所述截取图像输入到识别模型中，对所述截取图像对应的代码进行识别，得到所述学生身份信息；

27、其中，所述识别模型是基于人脸识别算法arcface建立，收集所有学生的面部信息作为身份信息样本，并基于所述身份信息样本和所述身份信息样本对应的识别标签进行训练得到的。

28、可选地，所述学生状态八分类的分类结果包括：专注状态、阅读状态、书写状态、睡眠状态、环视状态、举手状态、站立状态以及休闲状态。

29、第二方面，本申请还提供一种动态修正的课堂学生状态多模态识别系统，包括：

30、检测与截取单元，用于获取课堂内的视频图像，对所述视频图像进行人物检测和截取，得到视频中携带学生信息的截取图像；

31、分类与识别单元，用于基于所述截取图像对学生状态进行分类，得到分类结果，基于所述截取图像对学生身份进行识别，得到学生身份信息；

32、修正单元，用于利用多模态大语言模型对所述分类结果进行动态修正，得到学生状态时间轴；

33、状态评价单元，用于基于所述学生身份信息和学生状态时间轴进行学生状态识别，得到课堂内学生的状态识别结果和行为评价结果。

34、第三方面，本申请提供一种电子设备，包括：至少一个存储器，用于存储程序；至少一个处理器，用于执行存储器存储的程序，当存储器存储的程序被执行时，处理器用于执行第一方面或第一方面的任一种可能的实现方式所描述的方法。

35、第四方面，本申请提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，当计算机程序在处理器上运行时，使得处理器执行第一方面或第一方面的任一种可能的实现方式所描述的方法。

36、第五方面，本申请提供一种计算机程序产品，当计算机程序产品在处理器上运行时，使得处理器执行第一方面或第一方面的任一种可能的实现方式所描述的方法。

37、可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

38、总体而言，通过本申请所构思的以上技术方案与现有技术相比，具有以下有益效果：

39、(1)本申请通过人物检测与截取、身份识别、状态粗分类、多模态大语言模型修正以及状态评价多个步骤，分步骤实现高效的人物检测、精确的状态分类、准确的身份识别和智能的动态修正，从多个不同的角度进行处理，有效地提高了对学生状态的识别准确度和效率，并且先通过模型进行初步的检测，再由多模态大语言模型进行修正，减少了计算资源的需求，进而提高了识别效率。

40、(2)本申请通过人物检测技术，可以准确识别课堂视频中的学生，确保截取图像与学生的相关性，从而提高了后续处理的效率和准确性，利用截取的学生图像，对学生的状态本文档来自技高网...

【技术保护点】

1.一种动态修正的课堂学生状态多模态识别方法，其特征在于，包括：

2.根据权利要求1所述的动态修正的课堂学生状态多模态识别方法，其特征在于，所述利用多模态大语言模型对所述分类结果进行动态修正之前，还包括：

3.根据权利要求1所述的动态修正的课堂学生状态多模态识别方法，其特征在于，所述基于所述学生身份信息和学生状态时间轴进行学生状态识别，得到课堂内学生的状态识别结果和行为评价结果，包括：

4.根据权利要求1所述的动态修正的课堂学生状态多模态识别方法，其特征在于，所述获取课堂内的视频图像，对所述视频图像进行人物检测和截取，得到视频中携带学生信息的截取图像，包括：

5.根据权利要求1所述的动态修正的课堂学生状态多模态识别方法，其特征在于，所述基于所述截取图像对学生状态进行分类，得到分类结果，包括：

6.根据权利要求1所述的动态修正的课堂学生状态多模态识别方法，其特征在于，所述基于所述截取图像对学生身份进行识别，得到学生身份信息，包括：

7.根据权利要求5所述的动态修正的课堂学生状态多模态识别方法，其特征在于，所述学

8.一种动态修正的课堂学生状态多模态识别系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，当所述计算机程序在处理器上运行时，使得所述处理器执行如权利要求1-7任一所述的方法。

...

【技术特征摘要】

1.一种动态修正的课堂学生状态多模态识别方法，其特征在于，包括：

5.根据权利要求1所述的动态修正的课堂学生状态多模态识别方法，其特征在于，所述基于所述截取图...

【专利技术属性】
技术研发人员：吴宇成，赵梦涵，李志勇，谢夏，黄小欧，
申请(专利权)人：海南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人