System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种用于分析视频的方法及系统,特别是,但非排他地,本专利技术涉及一种用于分析视频中的主体的参与程度的方法及系统。
技术介绍
1、近年来,在线视频通信因其便利性而越来越受欢迎。特别是,covid-19的爆发进一步增加了在线视频通信的需求和应用,例如在线会议、学习和商务会议。然而,与传统的面对面课程相比,在线会议(例如在线课程)的有效性经常受到质疑,因为认为学生普遍在在线上课时的注意力较低。在面对面的课堂上,学生更直接地从实体课堂的互动中受益,导师可以更容易地观察学生的反应,例如学生的情绪、面部表情、肢体语言,以确定学生的参与程度。这些要素在在线课堂上不是缺乏,便是变得更加困难,因为很多时候,学生可能会被静音而使互动学习受到阻碍。因此,检测学生在在线课程期间的参与程度有助于改善学习效率。
2、已开发了各种参与程度识别系统,旨在改善用户在在线会议和学习期间的体验。然而,众所周知传统系统存在局限性,例如但不限于机器训练数据集中的标签质量差和数据不平衡,以及结果参与程度类别与类别内差异。例如,数据集如daisee(gupta,a.;d’cunha,a.;awasthi,k.;and balasubramanian,v.2016.daisee:towards user engagementrecognition in the wild.arxiv preprint arxiv:1609.01885)和engagewild(kaur,a.;mustafa,a.;mehta,l.;and dhall,a.30 2018
3、从视频中选择要分析的特征对于确定学生在在线课程期间的参与程度也至关重要。然而,大多数现有的参与程度检测系统仅限于高层次特征,例如学生的头部和身体位置。分析高层次视觉特征的好处是它忽略了从视频中的背景噪声和/或其他明显不相关的信息。然而,仅关注高层次特征可能会导致损失许多其他有用信息,例如学生的运动和行为信息,而这些信息是无法从高层次特征中收集到的。
4、另一方面,基于人工智能(ai)的图像和视频分析已被用于参与程度预测。例如liao,liang,and pan(liao,j.;liang,y.;and pan,j.2021.deep facial spatiotemporalnetwork for engagement prediction in online learning.applied intelligence,51:6609–6621)公开了将senet和lstm与全局注意力层相结合来提取面部空间特征和时间特性。mehta et al.(mehta,n.k.;prasad,s.s.;saurav,s.;saini,r.;and singh,s.2022.three-dimensional densenet self-attention neural network for automaticdetection of student’s engagement.applied intelligence,52(12):13803–13823)结合3d densenet和3d自注意力模块来拍摄特征之间的全局关系。selim,elkabani,andabdou(selim,t.;elkabani,i.;and abdou,m.a.2022.students engagement leveldetection in online 25e-learning using hybrid efficientnetb7 together withtcn,lstm,and bi-lstm.ieee access,10:99573–99583)进一步利用了efficientnetb7和不同的时间网络,例如lstm、bi-lstm和tcn。然而,所有这些研究都未能证明在线会议或在线学习的设置中确定用户参与程度的实际改善。
5、专利技术目的
6、本专利技术的一个目的是在某种程度上缓解或消除与用于参与程度检测的已知系统和方法相关联的一个或多个问题。
7、本专利技术的另一个目的是提供一种用于分析视频中的主体的参与程度的改进的系统和方法。
8、本专利技术的另一个目的是提供一种用于分析在线课程或会议中的参与者的参与程度的改进的系统和方法。
9、上述目的通过独立权利要求的特征的组合来实施;从属权利要求公开了本专利技术的其他有利实施例。
10、本领域的技术人员将从以下描述中得出本专利技术的其他目的。因此,上述目的的陈述不是穷举性的,仅用于说明本专利技术的许多目的中的一些。
技术实现思路
1、本专利技术总体上涉及一种基于人工智能(ai)的计算机实施的用于分析视频中的一个或多个主体的参与程度的方法和系统。分析可以在实时视频会议或在线课程期间实时进行。视频还可以是预先录制的视频,显示与参与者的在线会议或在线课程。具体地,本专利技术适于分析视频中的一个或多个主体或参与者的多模态特征。可以基于一个或多个人工智能机器学习算法来提取和分析特征,例如与视频相关联的高层次视觉特征、时空特性以及音频特征。更优选地,还可以提取和分析其他非语言通信数据,例如包括即时信息和聊天室信息的文本信息、用户的反应和响应,例如用户在视频会议期间输入的数字图形图标。本专利技术的系统经由人工智能机器学习模型分析多模态特征以生成以标量形式反映参与者的参与程度的分数。还可以生成与分数相对应的建议或提示,并经由系统运行的用户的计算机设备向用户显示这些建议或提示。提示可以以忠告的形式提供以帮助改善用户的参与程度,例如,“请将你自己置于屏幕中央!”。因此,本专利技术提供了一种用于确定用户在视频中的参与程度的有用和有效的系统和方法。本专利技术的应用还可以扩展以方便用户进行演讲或演示,其中演示视频被实时拍摄或记录以供系统分析。
2、在第一主要方面,本专利技术提供一种计算机实施的用于分析视频中的主体的参与程度的方法。所述方法包括经由接收模块接收包括显示主体的一系列图像的视频的数据;经由提取模块提取与视频中的主体相关的特征,所述提取步骤包括:经由第一提取模块从构成视频的一系列图像中的一个或多个图像中提取包括一个或多个视觉特性的第一特征;和经由第二提取模本文档来自技高网...
【技术保护点】
1.一种计算机实施的用于分析视频中的主体的参与程度的方法,包括以下步骤:
2.根据权利要求1所述的方法,其中,所述第一特征的所述视觉特性包括构成所述视频的所述一个或多个图像中所显示的所述主体的一个或多个面部和/或身体特性。
3.根据权利要求2所述的方法,其中,所述一个或多个面部和/或身体特性包括构成所述视频的所述一个或多个图像中所显示的所述主体的面部动作、头部位置和/或凝视方向。
4.根据权利要求1所述的方法,其中,所述提取步骤还包括经由第三提取模块提取第三特征,所述第三特征包括与所述视频的所述数据相关联的一个或多个音频特性。
5.根据权利要求4所述的方法,其中,所述第三特征的所述音频特性包括所述音频特性的或所述音频特性所表示的音量、音调、话语长度、话语持续时间、话语内容和/或所述话语的情绪中的一个或多个。
6.根据权利要求4所述的方法,其中,所述提取步骤还包括经由第四提取模块提取第四特征,所述第四特征包括来自用户的输入,所述输入包括由一个或多个主体在拍摄所述视频期间输入的文本数据、图形数据和/或图像数据中的一个或多个。
7.根据权利要求6所述的方法,其中,所述第四特征还包括来自所述用户的输入频率、来自所述用户的各个输入之间的持续时间、所述用户对一个或多个其他用户的反应和/或所述用户的响应程度中的一个或多个。
8.根据权利要求1所述的方法,其中,所述第二特征的所述空间和/或时间特性由向量数据表示;其中,所述向量数据包括膨胀的三维(I3D)向量。
9.根据权利要求1所述的方法,其中,所述处理步骤包括:
10.根据权利要求9所述的方法,其中,所述第一分析模块适于基于时间卷积网络(TCN)来处理来自所述第一特征的数据;并且其中,所述第二分析模块适于基于多层感知器神经网络(MLP)来处理来自所述第二特征的数据。
11.根据权利要求9所述的方法,其中,所述处理步骤还包括基于来自所述第一特征的已处理的数据和来自所述第二特征的已处理的数据生成注意力权重;使用来自所述第一特征的所述数据进一步处理所述已生成的注意力权重以确定作为所述主体的参与程度的标量代表的分数。
12.根据权利要求6所述的方法,其中,所述处理步骤还包括经由第三分析模块分析所述已提取的第三特征和经由第四分析模块分析所述已提取的第四特征的一个或多个步骤。
13.一种实施权利要求1所述的步骤用于分析视频中的主体的参与程度的系统,所述系统包括:
14.根据权利要求13所述的系统,其中,所述分析模块包括用于分析所述已提取的第一特征的第一分析模块,和用于分析所述已提取的第二特征的第二分析模块;其中,所述分析步骤包括基于一个或多个机器学习算法的处理;其中,所述第一分析模块被配置为基于时间卷积网络(TCN)来处理来自所述第一特征的数据;以及所述第二分析模块被配置为在多层感知器神经网络(MLP)下来处理来自所述第二特征的数据。
15.根据权利要求13所述的系统,其中,所述提取模块还包括用于提取包括与所述视频相关联的音频特性的第三特征的第三提取模块,和用于提取包括来自所述用户的输入的第四特征的第四提取模块中的至少一个;其中,所述分析模块还包括用于处理所述第三特征的第三分析模块和用于处理所述第四特征的第四分析模块中的至少一个。
...【技术特征摘要】
1.一种计算机实施的用于分析视频中的主体的参与程度的方法,包括以下步骤:
2.根据权利要求1所述的方法,其中,所述第一特征的所述视觉特性包括构成所述视频的所述一个或多个图像中所显示的所述主体的一个或多个面部和/或身体特性。
3.根据权利要求2所述的方法,其中,所述一个或多个面部和/或身体特性包括构成所述视频的所述一个或多个图像中所显示的所述主体的面部动作、头部位置和/或凝视方向。
4.根据权利要求1所述的方法,其中,所述提取步骤还包括经由第三提取模块提取第三特征,所述第三特征包括与所述视频的所述数据相关联的一个或多个音频特性。
5.根据权利要求4所述的方法,其中,所述第三特征的所述音频特性包括所述音频特性的或所述音频特性所表示的音量、音调、话语长度、话语持续时间、话语内容和/或所述话语的情绪中的一个或多个。
6.根据权利要求4所述的方法,其中,所述提取步骤还包括经由第四提取模块提取第四特征,所述第四特征包括来自用户的输入,所述输入包括由一个或多个主体在拍摄所述视频期间输入的文本数据、图形数据和/或图像数据中的一个或多个。
7.根据权利要求6所述的方法,其中,所述第四特征还包括来自所述用户的输入频率、来自所述用户的各个输入之间的持续时间、所述用户对一个或多个其他用户的反应和/或所述用户的响应程度中的一个或多个。
8.根据权利要求1所述的方法,其中,所述第二特征的所述空间和/或时间特性由向量数据表示;其中,所述向量数据包括膨胀的三维(i3d)向量。
9.根据权利要求1所述的方法,其中,所述处理步骤包括:
10....
【专利技术属性】
技术研发人员:黄悉偈,林友峰,刘诗扬,吴季轩,王星博,何简奔,盛睿,曾海鹏,张荣,卢卡·明丘洛,黄启耀,吴子昌,关俊豪,
申请(专利权)人:蓝星球培训,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。