一种基于不同呈现方式的教学视频自动化分类方法及系统技术方案

技术编号:33854454 阅读:37 留言:0更新日期:2022-06-18 10:41
本发明专利技术属于人工智能技术领域,公开了一种基于不同呈现方式的教学视频自动化分类方法及系统,以三个卷积神经网络模型,通过自训练的两个YOLOV4目标检测神经网络模型和人体关键点检测技术可以准确的定位教学视频分类所需要的信息,解决了教学视频背景和人物特征改变不明显的问题,增加了特征提取的准确度。自建的卷积神经网络模型的结构适合进行Interview型和Head型两种教学视频分类,网络深度对比经典的几种视频分类算法来说刚好合适,减少了计算机硬件耗能。使用其它相关的图像数据集预处理后作为所需的训练集,突破了教学视频数据集上的瓶颈。提供了一种新的教学视频分类方式,提高了教学视频分类的正确率和效率。率。率。

【技术实现步骤摘要】
一种基于不同呈现方式的教学视频自动化分类方法及系统


[0001]本专利技术属于人工智能
,尤其涉及一种基于不同呈现方式的教学视频自动化分类方法及系统。

技术介绍

[0002]目前,随着教育信息化的飞速发展,在线教学视频在实际的教学中显得格外重要。同时越来越多的学者投入到教学视频的分析者中,伴随着也有风格各异的教学视频被制作出来。分析者分析表明:不同呈现形式的教学视频不仅影响着学习者学习动机和参与度,还影响着学习者的成绩;学习者对于不同呈现形式的教学视频表现出不同的接受度;在心理学上,教学视频信息呈现形式的不同对于学习者认知负荷和社会存在感也有显著影响。教学视频的呈现形式和所要表达的内容同等重要,根据专利技术人对不同呈现形式的教学视频分析,教学视频主要以:单纯PPT类型、PPT+教师形象类型、演播室录播类型、课堂实录类型、Interview类型和Head类型这六种不同的呈现形式出现。将不同呈现形式的教学视频自动化分类,不仅可以帮助学习者快速找到其偏好的视频,提高学习效率,而且也有利于教学视频的制作有所针对的制作视频。
[0003]目前计算机视觉领域中用于视频分类的经典神经网络模型有VGG、GoogLeNet、Residual Network等。这些模型主要是由卷积层、池化层、全连接层构成。卷积层的作用是提取图像的特征,池化层是将特征图压缩,有一个降维效果,全连接层一般出现在卷积神经网络的最后,使卷积神经网络最后输出一维的特征向量。其中卷积层中由卷积核进行卷积,卷积层通过激活函数增加输出的非线性;池化层一般连接在卷积层之后,用来加速运算并且使得一些检测到的特征更加稳定。VGG19包含16个卷积层和3个全连接层;GoogLeNet包含22层,并且采用了Inception结构,即每一个结点是一个小网络;Residual Network引入了残差块,以34

layer为例,表示可以训练参数的有34层,池化层不含可训练参数。
[0004]而这些模型都有共同特点:网络模型较深,对于计算机硬件有较高的要求,若想产生较好的效果需要大量的数据集去训练,而教学视频目前并没有公开的数据集,同时也很难去收集大量的教学视频数据集,直接使用这些分类模型很难取得理想的实验效果。分析显示:很多现有的分类神经网络模型是根据场景的变换或是人物动作的大幅度改变进行分类的。这一点对于不同呈现形式的教学视频而言也并不适用,教学视频拍摄方式通常变化不大,对于教学视频中出现的人物来说,一般指教师,在一个教学视频中教师讲课的行为动作没有显著改变。如果想用现有技术直接对教学视频进行不同呈现方式分类,结果并不理想。
[0005]通过上述分析,现有技术存在的问题及缺陷为:
[0006](1)目前各大教学平台上的教学视频如井喷式出现,风格各异,使用人工进行对教学视频基于不同呈现形式分类是一个十分耗时的过程;
[0007](2)现有的教学视频分类方式对于计算机硬件有较高的要求,需要大量的数据集去训练。所以根据实际情况而言,直接使用现有的方式得到的实验效果较差;
[0008](3)根据教学视频的特点,现有的视频分类网络模型不适用于不同呈现形式的教学视频。
[0009]解决以上问题及缺陷的难度为:用于分析视频分类得数据集有很多,但是关于教学视频不同呈现形式得数据集却不多,导致教学视频训练过程困难;
[0010]关于视频自动化分类的分析很多,但是教学视频与其他场景分类视频有明显差别:场景单一、人物动作变化不明显、镜头转换不明显。所以以现有技术很难直接将教学视频分类成功。
[0011]解决以上问题及缺陷的意义为:
[0012]本专利技术所提出的方法经实验证明是目标检测技术以及深度学习在视频分类领域的合理应用。能够实现自动化对教学视频基于不同呈现形式分类,从而减轻人工教学视频分类的工作量,提升教学视频分类效率;
[0013]为视频和图像分类领域提供了新的卷积神经网络模型,这个模型深度合适,所需训练的数据集并不巨大,可以节约计算机性能,并达到一个良好的效果;
[0014]使用本专利技术方法有效的将教学视频自动化分类后,可在教学视频分析领域,如教学视频质量评价、教学视频个性化推荐等,心理学分析领域,如教学视频不同呈现形式对学习者认影响等,还有其他相关领域为分析者提供新的灵感和思路。

技术实现思路

[0015]针对现有技术存在的问题,本专利技术提供了一种基于不同呈现方式的教学视频自动化分类方法及系统。
[0016]本专利技术是这样实现的,目前有很多基于不同呈现方式教学视频分类的标准,但是没有关于基于不同呈现方式的教学视频自动化分类方法的分析,本专利技术提供的方法解决了这一问题,为后续基于不同呈现方式的教学视频分析提供极大的助力。其次,本方法不是将六种教学视频直接进行分类,而是将六种教学视频根据教学视频图像的特征分为两两分类或是单独分类:课堂实录和单纯PPT这两种类型单独分类,PPT加教师形象型和演播室录播型、interview型head型两两分类,这种分类方式很大程度上提高了教学视频分类的准确率。再次,本方法将教室场景的数据集经过人工标记特征后,提供给自训练的YOLOV4目标检测网络模型1使用,这种转用其他类似的图像数据集进行训练的方式,解决了基于不同呈现方式的教学视频分析领域中数据集不足的缺陷。最后,本方法提供了一个卷积神经网络模型,这个卷积神经网络模型不仅提高了教学视频分类的准确率,而且减少了计算机硬件耗能。
[0017]具体地,本专利技术提供一种基于不同呈现方式的教学视频自动化分类方法包括:
[0018]步骤一,使用自训练的YOLOV4目标检测网络模型1提取视频关键帧中的教室特征,通过输出的教室特征判断视频是否为课堂实录型;
[0019]步骤二,通过自训练的YOLOV4目标检测网络模型2输出的信息判断是否为单纯PPT类型;
[0020]步骤三,根据人体关键点检测区分PPT加教师形象型和演播室录播型;
[0021]步骤四,使用自建的卷积神经网络模型区分interview型head型两种视频特征。
[0022]进一步,所述基于不同呈现方式的教学视频自动化分类方法具体包括:
[0023](1)收集六种类型教学视频,将所收集的视频集按六种教学视频类型进行分类,提取视频关键帧;
[0024](2)提取视频关键帧后,将视频关键帧进行预处理,形成视频文件夹,每一个文件夹由对应的视频关键帧组成,将其作为教学视频检测的测试集;
[0025](3)使用自训练的2个YOLOV4目标检测网络模型对视频预处理好的文件夹关键帧进行检测,并通过输出信息判断视频类型是否为单纯PPT型、PPT加教师形象型、课堂实录型和演播室录播型;
[0026](4)通过人脸检测技术将interview型和head型视频中关键帧的人脸部分裁剪为28*28大小;
[0027](5)由于interview型和head型在头部姿势特征上有部分差异,通过收集人脸图像和头部姿态本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于不同呈现方式的教学视频自动化分类方法,其特征在于,所述基于不同呈现方式的教学视频自动化分类方法包括:使用自训练的YOLOV4目标检测网络模型1提取视频关键帧中的教室特征,通过输出的教室特征判断视频是否为课堂实录型;通过自训练的YOLOV4目标检测网络模型2输出的信息判断是否为单纯PPT类型;根据人体关键点检测区分PPT加教师形象型和演播室录播型;使用自建的卷积神经网络模型区分interview型head型两种视频特征。2.如权利要求1所述的基于不同呈现方式的教学视频自动化分类方法,其特征在于,所述基于不同呈现方式的教学视频自动化分类方法具体包括:(1)收集六种类型教学视频,将所收集的视频集按六种教学视频类型进行分类,提取视频关键帧;(2)提取视频关键帧后,将视频关键帧进行预处理,形成视频文件夹,每一个文件夹由对应的视频关键帧组成,作为教学视频检测的测试集;(3)使用自训练的2个YOLOV4目标检测网络模型对视频预处理好的文件夹关键帧进行检测,并通过输出信息判断视频类型是否为单纯PPT型、PPT加教师形象型、课堂实录型和演播室录播型;(4)通过人脸检测技术将interview型和head型视频中关键帧的人脸部分裁剪为28*28大小;(5)由于interview型和head型在头部姿势特征上有部分差异,通过收集人脸图像和头部姿态的公开数据集并进行分类;(6)将剩下的文件夹关键帧放入训练好的自建的卷积神经网络模型中,进行分类检测操作。3.如权利要求2所述的基于不同呈现方式的教学视频自动化分类方法,其特征在于,所述步骤(1)中的六种类型教学视频分别为:单纯PPT型、PPT加教师形象型、课堂实录型、演播室录播型、interview型和head型。4.如权利要求2所述的基于不同呈现方式的教学视频自动化分类方法,其特征在于,所述步骤(2)中的将视频关键帧进行预处理包括将图片大小统一为416*416,并且给图像去均值处理。5.如权利要求2所述的基于不同呈现方式的教学视频自动化分类方法,其特征在于,步骤(5)中将收集到的公开数据集作为训练区分两种视频类型的训练集和验证集和测试集,将三类数据分别放入自建的卷积神经网络中,得到最优权重后,两种视频提取的...

【专利技术属性】
技术研发人员:闵秋莎李子漪夏丹田元姚璜范炀赵肖雄
申请(专利权)人:华中师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1