视频分类方法、装置、设备及存储介质制造方法及图纸

技术编号：37048266 阅读：17 留言：0更新日期：2023-03-29 19:26

本公开实施例提供了一种视频分类方法、装置、设备及存储介质。该方法包括：获取待分类视频；其中，待分类视频的内容中包括至少一种目标对象的行为动作；将待分类视频对应的第一视频帧输入至目标视频分类模型中，获得待分类视频对应的动作分类结果；其中，目标视频分类模型依次包括稀疏采样层、双路激励通道分组层和分段共识层，所述稀疏采样层、所述双路激励通道分组层和所述分段共识层间级联连接。本实施例，通过双路激励通道分组层，避免了光流计算的巨大时耗和存储资源的占用，以及多流网络需要独立训练带来的困难，并能够大幅度降低计算量，同时进一步提升推理速度和分类准确率。同时进一步提升推理速度和分类准确率。同时进一步提升推理速度和分类准确率。

全部详细技术资料下载

【技术实现步骤摘要】
视频分类方法、装置、设备及存储介质

[0001]本公开实施例涉及人工智能领域，尤其涉及一种视频分类方法、装置、设备及存储介质。

技术介绍

[0002]人工智能的目标之一是：建造一台能够准确理解人类行为和意图的机器，以便更好地为人类服务。而要构建出可以理解人类行为的模型正是行为识别需要研究和探讨的问题。
[0003]在对视频进行人体行为识别时，由于人体行为的丰富性和复杂性，视野遮挡以及背景杂乱等因素，相比于仅仅对图像中的人体行为识别来说，更具难度和挑战性。人体行为识别方法的主流技术之一是深度学习技术。目前主流的基于深度学习的人体行为识别技术可以分为两种：一种是通过双流网络独立学习空间和连续光流等特征，并在后期进行特征融合；另一种是通过高维卷积建模时间维度来提取视频帧中相邻帧间的上下文关系信息。
[0004]然而，多流网络在训练过程中每个分支独立提取特征后再进行特征融合，非端到端训练，训练难度较大，而计算帧间光流信息的过程非常耗时且所提取的光流特征必须存储在磁盘中，对存储成本和计算成本要求较高；高维卷积如3维卷积本身的参数量和计算量大，且只能学习到视频的局部信息。在实际应用过程中，直接通过3维卷积神经网络提取行为特征，也容易引起梯度消失、梯度爆炸和过拟合等问题。

技术实现思路

[0005]本公开实施例提供一种视频分类方法、装置、设备及存储介质，可以提高视频分类的速度和精度。
[0006]第一方面，本公开实施例提供了一种视频分类方法，包括：获取待分类视频；其中，待分类视频的内容中包括...

【技术保护点】

【技术特征摘要】
1.一种视频分类方法，其特征在于，包括：获取待分类视频；其中，待分类视频的内容中包括至少一种目标对象的行为动作；将所述待分类视频对应的第一视频帧输入至目标视频分类模型中，获得所述待分类视频对应的动作分类结果；其中，所述目标视频分类模型依次包括稀疏采样层、双路激励通道分组层和分段共识层，所述稀疏采样层、所述双路激励通道分组层和所述分段共识层间级联连接。2.根据权利要求1所述的方法，其特征在于，将所述待分类视频对应的第一视频帧输入至目标视频分类模型中，获得所述待分类视频对应的动作分类结果，包括：稀疏采样层对所述第一视频帧进行随机采样，获得第二视频帧，并对所述第二视频帧进行数据增强处理，获得增强后的第二视频帧；所述数据增强包括随机翻转和/或角度裁剪操作；其中，所述视频帧包括时刻信息；双路激励通道分组层基于所述增强后的第二视频帧进行深层特征提取，获得深层特征；分段共识层根据所述深层特征计算所述待分类视频对应的各视频帧在同一类别上的平均得分；基于设定函数将所述平均得分转换为概率值；基于所述待分类视频在所有类别上的概率值，将最大的概率值对应的动作类别作为动作分类结果，并输出所述动作分类结果。3.根据权利要求2所述的方法，其特征在于，双路激励通道分组层包括至少四个双路激励通道分组模块，相邻双路激励通道分组模块中的后一双路激励通道分组模块的输入为前一双路激励通道分组模块的输出；双路激励通道分组层基于所述增强后的第二视频帧进行深层特征提取，获得深层特征，包括：双路激励通道分组模块基于所述增强后的第二视频帧进行深层特征提取，获得深层子特征。4.根据权利要求3所述的方法，其特征在于，双路激励通道分组模块包括多个瓶颈单元，各瓶颈单元级联连接，相邻瓶颈单元中的后一瓶颈单元的输入为前一瓶颈单元的输出；所述瓶颈单元包括第一二维卷积子单元、运动激励子单元、通道激励子单元、通道分组子单元和第二二维卷积子单元；所述运动激励子单元和通道激励子单元的输入均为第一二维卷积子单元的输出，将运动激励子单元输出和通道激励子单元的输出进行相加，相加后的输出作为通道分组子单元的输入，通道分组子单元的输出为第二二维卷积子单元的输入；双路激励通道分组模块基于所述增强后的第二视频帧进行深层特征提取，获得深层子特征，包括：若第一二维卷积子单元所属瓶颈单元为第一瓶颈单元，则第一二维卷积子单元基于所述增强后的第二视频帧进行特征提取，获得第一卷积特征；否则，第一二维卷积子单元基于所述前一瓶颈单元的输出进行特征提取，获得第一卷积特征；运动激励子单元基于第一卷积特征进行特征提取，获得运动特征；通道激励子单元基于第一卷积特征进行特征提取，获得通道特征；通道分组子单元基于所述运动特征和所述通道特征相加后的特征进行特征提取，获得
长距离时空特征；第二二维卷积子单元基于所述长距离时空特征进行特征提取，获得第二卷积特征。5.根据权利要求4所述的方法，其特征在于，运动激励子单元基于第一卷积特征进行特征提取，获得运动特征，包括：通过第三二维卷积将所述第一卷积特征进行通道数压缩，获得通道压缩特征；对于相邻时刻的通道压缩特征，通过第四二维卷积对t+1时刻的通道压缩特征进行特征提取，获得第四卷积特征；将所述第四卷积特征与t时刻的通道压缩特征进行相减，获得多个运动子特征；其中t为正整数...

【专利技术属性】
技术研发人员：骆剑平，杨玉琪，
申请(专利权)人：深圳大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人