动作识别方法、装置及电子设备制造方法及图纸

技术编号:28131176 阅读:12 留言:0更新日期:2021-04-19 11:53
本发明专利技术实施例提供了一种动作识别方法、装置及电子设备,涉及动作识别技术领域。该方法包括:获取待识别视频中K个图片帧的第一特征;根据所述第一特征对所述待识别视频进行动作识别,得到第一动作识别结果;根据所述第一动作识别结果,获取K个图片帧中M个目标图片帧在所述待识别视频中的目标位置;获取每一所述目标位置前后的N个图片帧的第二特征;将所述第一特征和所述第二特征进行结合,得到第二动作识别结果;其中,M、N、K均为正整数,K大于M。上述方案,不仅可以节省人力,还可以使得动作识别结果更加精确。结果更加精确。结果更加精确。

【技术实现步骤摘要】
动作识别方法、装置及电子设备


[0001]本专利技术涉及动作识别
,尤其涉及一种动作识别方法、装置及电子设备。

技术介绍

[0002]目前,短视频产品风靡互联网,短视频内容大量增长,视频审核日趋重要,而视频内容中的动作识别也成为了内容审核中的重要组成部分。短视频动作识别主要有2个步骤:对视频进行解码;对解码后的图片帧根据时序进行动作识别。
[0003]视频解码可以产生大量的图片帧,解码后的图片帧在空间上一般存在严重的冗余,因此在现有的动作识别场景中有以下3种方法降低冗余度:1)基于稀疏采样的图片帧,使用长短期记忆网络(Long Short

Term Memory,LSTM)对按时序顺序输入的图片进行动作可能发生的起止时间的预测;2)从解码后的首帧图片开始,使用LSTM逐渐预测输入网络的下一帧图片的位置,从而达到稀疏采样的目的;3)对视频进行切段,每一段等间隔稀疏或密集采样。
[0004]根据上述方法获取到稀疏采样的图片帧后,输入动作识别模型。业务场景中的动作识别模型需兼顾效率和多样性,现有主流技术采用深度学习卷积模型,主要有以下2种:1)基于光流和LSTM方法进行识别;2)在图片上基于时间和空间的三维(3Dimensions,3D)卷积、空间2D卷积+时序1D卷积组合进行识别。实际业务场景广泛采用效率更高的第2种方法。
[0005]上述短视频动作识别的技术,在审核业务应用中会存在的问题如下:
[0006]第一:LSTM预测动作发生的起止时间时,已经假设整个短视频动作发生在时间上是连续不间断的,但在真实场景中,短视频会因手机镜头晃动等原因,中间有一段时间动作可能不在视频画面内,从而导致动作仅发生在前后2段时间内,因此,LSTM在仅预测一个起止时间段会导致预测的时段数量不全。
[0007]第二:现有的基于LSTM进行动作发生起止时间推荐的技术方案,都需要标记视频中动作发生的起止时间,需要大量标注人力。
[0008]第三:现有基于空间的2D卷积+时空的3D卷积动作识别,为降低计算力消耗,通常是稀疏采样数据组成序列图片帧后输入3D动作识别,由于动作发生通常在视频的局部,此方法会导致动作识别不准确;如果采用分段密集采样,需要较大的计算力。

技术实现思路

[0009]本专利技术提供一种动作识别方法、装置及电子设备,以便在一定程度上解决现有动作识别过程中全局稀疏采样和局部密集采样不能兼顾以及所需人力较大等问题。
[0010]在本专利技术实施的第一方面,提供了一种动作识别方法,所述方法包括:
[0011]获取待识别视频中K个图片帧的第一特征;
[0012]根据所述第一特征对所述待识别视频进行动作识别,得到第一动作识别结果;
[0013]根据所述第一动作识别结果,获取K个图片帧中M个目标图片帧在所述待识别视频中的目标位置;
[0014]获取每一所述目标位置前后的N个图片帧的第二特征;
[0015]将所述第一特征和所述第二特征进行结合,得到第二动作识别结果;
[0016]其中,M、N、K均为正整数,K大于M。
[0017]在本专利技术实施的第二方面,提供了一种动作识别装置,所述装置包括:
[0018]第一获取模块,用于获取待识别视频中K个图片帧的第一特征;
[0019]第一识别模块,用于根据所述第一特征对所述待识别视频进行动作识别,得到第一动作识别结果;
[0020]第二获取模块,用于根据所述第一动作识别结果,获取K个图片帧中M个目标图片帧在所述待识别视频中的目标位置;
[0021]第三获取模块,用于获取每一所述目标位置前后的N个图片帧的第二特征;
[0022]第二识别模块,用于将所述第一特征和所述第二特征进行结合,得到第二动作识别结果;
[0023]其中,M、N、K均为正整数,K大于M。
[0024]在本专利技术实施的第三方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
[0025]存储器,用于存放计算机程序;
[0026]处理器,用于执行存储器上所存放的程序时,实现如上所述的动作识别方法中的步骤。
[0027]在本专利技术实施的第四方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的动作识别方法。
[0028]在本专利技术实施例的第五方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如上所述的动作识别方法。
[0029]针对在先技术,本专利技术具备如下优点:
[0030]本专利技术实施例中,通过获取待识别视频中K个图片帧的第一特征,根据所述第一特征对所述待识别视频进行动作识别,得到第一动作识别结果,根据所述第一动作识别结果,获取K个图片帧中M个目标图片帧在所述待识别视频中的目标位置,不需要人力标注视频中动作发生的起止时间;并且,获取每一所述目标位置前后的N个图片帧的第二特征,并将所述第一特征和所述第二特征进行结合,得到第二动作识别结果,两次动作识别以及稀疏的第一特征和密集的第二特征的特征结合,可以使得动作识别结果更加精确。
[0031]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0032]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
[0033]图1为本专利技术实施例提供的动作识别方法的流程图之一;
[0034]图2为本专利技术实施例提供的动作识别方法的流程图之二;
[0035]图3为本专利技术实施例提供的ECO模型的结构示意图;
[0036]图4为本专利技术实施例提供的3D卷积网络的结构示意图;
[0037]图5为本专利技术实施例提供的残差块的结构示意图之一;
[0038]图6为本专利技术实施例提供的残差块的结构示意图之二;
[0039]图7为本专利技术实施例提供的动作识别方法的流程图之三;
[0040]图8为本专利技术实施例提供的动作识别装置的结构框图;
[0041]图9为本专利技术实施例提供的电子设备的结构框图。
具体实施方式
[0042]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0043]本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种动作识别方法,其特征在于,所述方法包括:获取待识别视频中K个图片帧的第一特征;根据所述第一特征对所述待识别视频进行动作识别,得到第一动作识别结果;根据所述第一动作识别结果,获取K个图片帧中M个目标图片帧在所述待识别视频中的目标位置;获取每一所述目标位置前后的N个图片帧的第二特征;将所述第一特征和所述第二特征进行结合,得到第二动作识别结果;其中,M、N、K均为正整数,K大于M。2.根据权利要求1所述的方法,其特征在于,所述获取待识别视频中K个图片帧的第一特征,包括:获取待识别视频;将所述待识别视频进行视频解码,得到关于所述待识别视频的S个图片帧;从所述S个图片帧中提取K个图片帧进行组合,得到第一图片帧序列;将所述第一图片帧序列经过图像处理,得到K个图片帧的第一特征;其中,S为正整数,且S大于K。3.根据权利要求2所述的方法,其特征在于,所述将所述第一图片帧序列经过图像处理,得到K个图片帧的第一特征,包括:将所述第一图片帧序列进行图像处理中的第一图像卷积处理,得到处理过程中的中间特征图以及处理后的第一特征图;将所述中间特征图进行图像处理中的第二图像卷积处理,得到处理后的第二特征图;将所述第一特征图和所述第二特征图进行拼接处理,得到K个图片帧的第一特征。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一动作识别结果,获取K个图片帧中M个目标图片帧在所述待识别视频中的目标位置,包括:根据所述第一动作识别结果,获取K个图片帧中每一图片帧对应的热力值;根据所述热力值中的M个目标热力值,确定K个图片帧中的M个目标图片帧;获取每一所述目标图片帧在所述待识别视频中的目标位置。5.根据权利要求4所述的方法,其特征在于,所述根据所述第一动作识别结果,获取K个图片帧中每一图片帧对应的热力值,包括:根据所述第一动作识别结果和所述中间特征图,获取K个图片帧中每一图片帧对应的热力图;对每一所述热力图进行池化处理,得到K个图片帧中每一图片帧对应的热力值。6.根据权利要求5所述的方法,其特征在于,所述根据所述第一动作识别结果和所述中间特征图,获取K个图片帧中每一图片帧对应的热力图,包括:根据所述第一动作识别结果以及预设结果,得到所述第一动作...

【专利技术属性】
技术研发人员:李斌泉
申请(专利权)人:百果园技术新加坡有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1