当前位置: 首页 > 专利查询>深圳大学专利>正文

视频分类方法、装置、设备及存储介质制造方法及图纸

技术编号:37048266 阅读:17 留言:0更新日期:2023-03-29 19:26
本公开实施例提供了一种视频分类方法、装置、设备及存储介质。该方法包括:获取待分类视频;其中,待分类视频的内容中包括至少一种目标对象的行为动作;将待分类视频对应的第一视频帧输入至目标视频分类模型中,获得待分类视频对应的动作分类结果;其中,目标视频分类模型依次包括稀疏采样层、双路激励通道分组层和分段共识层,所述稀疏采样层、所述双路激励通道分组层和所述分段共识层间级联连接。本实施例,通过双路激励通道分组层,避免了光流计算的巨大时耗和存储资源的占用,以及多流网络需要独立训练带来的困难,并能够大幅度降低计算量,同时进一步提升推理速度和分类准确率。同时进一步提升推理速度和分类准确率。同时进一步提升推理速度和分类准确率。

【技术实现步骤摘要】
视频分类方法、装置、设备及存储介质


[0001]本公开实施例涉及人工智能领域,尤其涉及一种视频分类方法、装置、设备及存储介质。

技术介绍

[0002]人工智能的目标之一是:建造一台能够准确理解人类行为和意图的机器,以便更好地为人类服务。而要构建出可以理解人类行为的模型正是行为识别需要研究和探讨的问题。
[0003]在对视频进行人体行为识别时,由于人体行为的丰富性和复杂性,视野遮挡以及背景杂乱等因素,相比于仅仅对图像中的人体行为识别来说,更具难度和挑战性。人体行为识别方法的主流技术之一是深度学习技术。目前主流的基于深度学习的人体行为识别技术可以分为两种:一种是通过双流网络独立学习空间和连续光流等特征,并在后期进行特征融合;另一种是通过高维卷积建模时间维度来提取视频帧中相邻帧间的上下文关系信息。
[0004]然而,多流网络在训练过程中每个分支独立提取特征后再进行特征融合,非端到端训练,训练难度较大,而计算帧间光流信息的过程非常耗时且所提取的光流特征必须存储在磁盘中,对存储成本和计算成本要求较高;高维卷积如3维卷积本身的参数量和计算量大,且只能学习到视频的局部信息。在实际应用过程中,直接通过3维卷积神经网络提取行为特征,也容易引起梯度消失、梯度爆炸和过拟合等问题。

技术实现思路

[0005]本公开实施例提供一种视频分类方法、装置、设备及存储介质,可以提高视频分类的速度和精度。
[0006]第一方面,本公开实施例提供了一种视频分类方法,包括:获取待分类视频;其中,待分类视频的内容中包括至少一种目标对象的行为动作;将所述待分类视频对应的第一视频帧输入至目标视频分类模型中,获得所述待分类视频对应的动作分类结果;其中,所述目标视频分类模型依次包括稀疏采样层、双路激励通道分组层和分段共识层,所述稀疏采样层、所述双路激励通道分组层和所述分段共识层间级联连接。
[0007]第二方面,本公开实施例还提供了一种视频分类装置,包括:待分类视频获取模块,用于获取待分类视频;其中,待分类视频的内容中包括至少一种目标对象的行为动作;动作分类结果获得模块,用于将所述待分类视频对应的第一视频帧输入至目标视频分类模型中,获得所述待分类视频对应的动作分类结果;其中,所述目标视频分类模型依次包括稀疏采样层、双路激励通道分组层和分段共识层,所述稀疏采样层、所述双路激励通道分组层和所述分段共识层间级联连接。
[0008]第三方面,本公开实施例还提供了一种电子设备,所述电子设备包括:
[0009]一个或多个处理器;
[0010]存储装置,用于存储一个或多个程序,
[0011]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本公开实施例所述的视频分类方法。
[0012]第四方面,本公开实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本公开实施例所述的视频分类方法。
[0013]本公开实施例的技术方案,通过获取待分类视频;其中,待分类视频的内容中包括至少一种目标对象的行为动作;将所述待分类视频对应的第一视频帧输入至目标视频分类模型中,获得所述待分类视频对应的动作分类结果;其中,所述目标视频分类模型依次包括稀疏采样层、双路激励通道分组层和分段共识层,所述稀疏采样层、所述双路激励通道分组层和所述分段共识层间级联连接。本公开实施例,通过双路激励通道分组层,不仅利用了视频帧间的关键运动信息、通道间的时间依赖关系以及视频长距离时空信息,还以较少的输入帧数实现了端到端的高效视频分类。本实施例,通过双路激励通道分组层,避免了光流计算的巨大时耗和存储资源的占用,以及多流网络需要独立训练带来的困难,并能够大幅度降低计算量,同时进一步提升推理速度和分类准确率。
附图说明
[0014]结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
[0015]图1为本公开实施例所提供的视频分类方法流程示意图;
[0016]图2为本专利技术实施例提供的一种视频分类方法示意图;
[0017]图3为本专利技术实施例提供的瓶颈单元网络结构示意图;
[0018]图4为本公开实施例所提供的一种视频分类装置结构示意图;
[0019]图5是本公开实施例所提供的一种电子设备的结构示意图。
具体实施方式
[0020]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0021]应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
[0022]本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
[0023]需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0024]需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0025]可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
[0026]图1为本公开实施例所提供的视频分类方法流程示意图,本公开实施例适用于视频分类的情形,例如对视频中目标对象的行为进行分类,该方法可以由视频分类装置来执行,该装置可以通过软件和/或硬件的形式实现,可选的,通过电子设备来实现,该电子设备可以是移动终端、PC端或服务器等。
[0027]如图1所示,所述方法包括:
[0028]S110、获取待分类视频。
[0029]其中,待分类视频的内容中包括至少一种目标对象的行为动作。目标对象可以是人、动物等,目标对象以人为例,目标对象的行为动作可以是“开门”的动作、“关门”的动作等。对于行为动作的数量,本实施例对此不作限制,对于行为动作的类型也不作限制。
[0030]S120、将待分类视频对应的第一视频帧输入至目标视频分类模型中,获得待分类视频对应的动作分类结果。
[0031]其中,目标视频分类模型依次包括稀疏采样本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频分类方法,其特征在于,包括:获取待分类视频;其中,待分类视频的内容中包括至少一种目标对象的行为动作;将所述待分类视频对应的第一视频帧输入至目标视频分类模型中,获得所述待分类视频对应的动作分类结果;其中,所述目标视频分类模型依次包括稀疏采样层、双路激励通道分组层和分段共识层,所述稀疏采样层、所述双路激励通道分组层和所述分段共识层间级联连接。2.根据权利要求1所述的方法,其特征在于,将所述待分类视频对应的第一视频帧输入至目标视频分类模型中,获得所述待分类视频对应的动作分类结果,包括:稀疏采样层对所述第一视频帧进行随机采样,获得第二视频帧,并对所述第二视频帧进行数据增强处理,获得增强后的第二视频帧;所述数据增强包括随机翻转和/或角度裁剪操作;其中,所述视频帧包括时刻信息;双路激励通道分组层基于所述增强后的第二视频帧进行深层特征提取,获得深层特征;分段共识层根据所述深层特征计算所述待分类视频对应的各视频帧在同一类别上的平均得分;基于设定函数将所述平均得分转换为概率值;基于所述待分类视频在所有类别上的概率值,将最大的概率值对应的动作类别作为动作分类结果,并输出所述动作分类结果。3.根据权利要求2所述的方法,其特征在于,双路激励通道分组层包括至少四个双路激励通道分组模块,相邻双路激励通道分组模块中的后一双路激励通道分组模块的输入为前一双路激励通道分组模块的输出;双路激励通道分组层基于所述增强后的第二视频帧进行深层特征提取,获得深层特征,包括:双路激励通道分组模块基于所述增强后的第二视频帧进行深层特征提取,获得深层子特征。4.根据权利要求3所述的方法,其特征在于,双路激励通道分组模块包括多个瓶颈单元,各瓶颈单元级联连接,相邻瓶颈单元中的后一瓶颈单元的输入为前一瓶颈单元的输出;所述瓶颈单元包括第一二维卷积子单元、运动激励子单元、通道激励子单元、通道分组子单元和第二二维卷积子单元;所述运动激励子单元和通道激励子单元的输入均为第一二维卷积子单元的输出,将运动激励子单元输出和通道激励子单元的输出进行相加,相加后的输出作为通道分组子单元的输入,通道分组子单元的输出为第二二维卷积子单元的输入;双路激励通道分组模块基于所述增强后的第二视频帧进行深层特征提取,获得深层子特征,包括:若第一二维卷积子单元所属瓶颈单元为第一瓶颈单元,则第一二维卷积子单元基于所述增强后的第二视频帧进行特征提取,获得第一卷积特征;否则,第一二维卷积子单元基于所述前一瓶颈单元的输出进行特征提取,获得第一卷积特征;运动激励子单元基于第一卷积特征进行特征提取,获得运动特征;通道激励子单元基于第一卷积特征进行特征提取,获得通道特征;通道分组子单元基于所述运动特征和所述通道特征相加后的特征进行特征提取,获得
长距离时空特征;第二二维卷积子单元基于所述长距离时空特征进行特征提取,获得第二卷积特征。5.根据权利要求4所述的方法,其特征在于,运动激励子单元基于第一卷积特征进行特征提取,获得运动特征,包括:通过第三二维卷积将所述第一卷积特征进行通道数压缩,获得通道压缩特征;对于相邻时刻的通道压缩特征,通过第四二维卷积对t+1时刻的通道压缩特征进行特征提取,获得第四卷积特征;将所述第四卷积特征与t时刻的通道压缩特征进行相减,获得多个运动子特征;其中t为正整数...

【专利技术属性】
技术研发人员:骆剑平杨玉琪
申请(专利权)人:深圳大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1