行为识别方法、电子设备及存储介质技术

技术编号:38720158 阅读:6 留言:0更新日期:2023-09-08 23:15
本申请公开了一种行为识别方法、电子设备及存储介质。其中,该方法应用于行为识别领域,包括:获取包含在视频中的待识别图像序列,并获取至少一个预设图像序列;分别生成待识别图像序列对应的第一文本数据和至少一个预设图像序列对应的第二文本数据,第一文本数据用于对待识别图像序列包含的待识别图像进行描述,第二文本数据用于对至少一个预设图像序列包含的预设图像进行描述;基于第一文本数据和第二文本数据将待识别图像序列和至少一个预设图像序列进行匹配,确定待识别的动作行为的目标类型。本申请解决了相关小样本行为识别技术中对动作行为进行识别的准确率低的技术问题。中对动作行为进行识别的准确率低的技术问题。中对动作行为进行识别的准确率低的技术问题。

【技术实现步骤摘要】
行为识别方法、电子设备及存储介质


[0001]本申请涉及行为识别领域,具体而言,涉及一种行为识别方法、电子设备及存储介质。

技术介绍

[0002]随着网络科技的飞速发展,各种各样的视频内容层出不穷,吸引了用户的注意力,与此同时,可以通过小样本行为识别技术,对视频中目标对象的动作行为进行行为识别,可以得到视频中目标对象的动作行为的类型,进而可以基于动作行为的类型维护网络安全。
[0003]目前所采用的小样本行为识别技术,通常采用提取视频帧的视觉特征进行局部特征匹配的方式实现动作行为的类型识别,但是在匹配的过程中,对一些具有相似视频帧的不同类别的行为,容易产生误判,这就导致小样本行为识别技术对动作行为进行识别的准确率低。
[0004]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本申请实施例提供了一种行为识别方法、电子设备及存储介质,以至少解决相关小样本行为识别技术中对动作行为进行识别的准确率低的技术问题。
[0006]根据本申请实施例的一个方面,提供了一种行为识别方法,包括:获取包含在视频中的待识别图像序列,并获取至少一个预设图像序列,其中,待识别图像序列包含视频中待识别的动作行为的图像,至少一个预设图像序列包含不同类型的动作行为的图像;分别生成待识别图像序列对应的第一文本数据和至少一个预设图像序列对应的第二文本数据,其中,第一文本数据用于对待识别图像序列包含的待识别图像进行描述,第二文本数据用于对至少一个预设图像序列包含的预设图像进行描述;基于第一文本数据和第二文本数据将待识别图像序列和至少一个预设图像序列进行匹配,确定待识别的动作行为的目标类型。
[0007]根据本申请实施例的另一方面,还提供了一种行为识别方法,包括:获取包含在视频中的待识别图像序列,并获取至少一个预设图像序列,其中,待识别图像序列包含视频中待识别的动作行为的图像,至少一个预设图像序列包含不同类型的行为的图像;分别对待识别图像序列包含的待识别图像和至少一个预设图像序列包含的预设图像进行特征提取,得到待识别图像序列对应的第一图像特征和至少一个预设图像序列对应的第二图像特征;基于第一图像特征生成待识别视频对应的第一文本特征,并基于第二图像特征生成至少一个预设视频对应的第二文本特征,其中,第一文本特征用于对待识别图像序列包含的待识别图像进行描述,第二文本特征用于对至少一个预设图像序列包含的预设图像进行描述;对第一图像特征和第一文本特征进行融合,得到第一融合特征,并对第二图像特征和第二文本特征进行融合,得到第二融合特征;基于第一融合特征和第二融合特征将待识别视频和至少一个预设视频进行匹配,确定待识别的动作行为的目标类型。
[0008]根据本申请实施例的另一方面,还提供了一种行为识别方法,包括:响应作用于操
作界面上的输入指令,在操作界面上显示包含在视频中的待识别图像序列,其中,待识别图像序列包含视频中待识别的动作行为的图像;响应作用于操作界面上的行为识别指令,在操作界面上显示待识别的动作行为的目标类型,其中,目标类型是基于待识别图像序列对应的第一文本数据和至少一个预设图像序列对应的第二文本数据,将待识别图像序列和至少一个预设图像序列进行匹配确定的,至少一个预设图像序列包含不同类型的动作行为的图像,第一文本数据用于对待识别图像序列包含的待识别图像进行描述,第二文本数据用于对至少一个预设图像序列包含的预设图像进行描述。
[0009]根据本申请实施例的另一方面,还提供了一种行为识别方法,包括:在虚拟现实VR设备或增强现实AR设备的呈现画面上展示包含在视频中的待识别图像序列,其中,待识别图像序列包含视频中待识别的动作行为的图像;获取至少一个预设图像序列,其中,至少一个预设图像序列包含不同类型的动作行为的图像;分别生成待识别图像序列对应的第一文本数据和至少一个预设图像序列对应的第二文本数据,其中,第一文本数据用于对待识别图像序列包含的待识别图像进行描述,第二文本数据用于对至少一个预设图像序列包含的预设图像进行描述;基于第一文本数据和第二文本数据将待识别图像序列和至少一个预设图像序列进行匹配,确定待识别的动作行为的目标类型;驱动VR设备或AR设备渲染展示待识别的动作行为的目标类型。
[0010]根据本申请实施例的另一方面,还提供了一种行为识别方法,包括:通过调用第一接口获取包含在视频中的待识别图像序列,其中,第一接口包括第一参数,第一参数的参数值为待识别图像序列,待识别图像序列包含视频中待识别的动作行为的图像;获取至少一个预设图像序列,其中,至少一个预设图像序列包含不同类型的动作行为的图像;分别生成待识别图像序列对应的第一文本数据和至少一个预设图像序列对应的第二文本数据,其中,第一文本数据用于对待识别图像序列包含的待识别图像进行描述,第二文本数据用于对至少一个预设图像序列包含的预设图像进行描述;基于第一文本数据和第二文本数据将待识别图像序列和至少一个预设图像序列进行匹配,确定待识别的动作行为的目标类型;通过调用第二接口输出待识别的动作行为的目标类型,其中,第二接口包括第二参数,第二参数的参数值为待识别的动作行为的目标类型。
[0011]根据本申请实施例的另一方面,还提供了一种行为识别装置,包括:获取模块,用于获取包含在视频中的待识别图像序列,并获取至少一个预设图像序列,其中,待识别图像序列包含视频中待识别的动作行为的图像,至少一个预设图像序列包含不同类型的动作行为的图像;生成模块,用于分别生成待识别图像序列对应的第一文本数据和至少一个预设图像序列对应的第二文本数据,其中,第一文本数据用于对待识别图像序列包含的待识别图像进行描述,第二文本数据用于对至少一个预设图像序列包含的预设图像进行描述;匹配模块,用于基于第一文本数据和第二文本数据将待识别图像序列和至少一个预设图像序列进行匹配,确定待识别的动作行为的目标类型。
[0012]根据本申请实施例的另一方面,还提供了一种行为识别装置,包括:获取模块,用于获取包含在视频中的待识别图像序列,并获取至少一个预设图像序列,其中,待识别图像序列包含视频中待识别的动作行为的图像,至少一个预设图像序列包含不同类型的行为的图像;提取模块,用于分别对待识别图像序列包含的待识别图像和至少一个预设图像序列包含的预设图像进行特征提取,得到待识别图像序列对应的第一图像特征和至少一个预设
图像序列对应的第二图像特征;生成模块,用于基于第一图像特征生成待识别视频对应的第一文本特征,并基于第二图像特征生成至少一个预设视频对应的第二文本特征,其中,第一文本特征用于对待识别图像序列包含的待识别图像进行描述,第二文本特征用于对至少一个预设图像序列包含的预设图像进行描述;融合模块,用于对第一图像特征和第一文本特征进行融合,得到第一融合特征,并对第二图像特征和第二文本特征进行融合,得到第二融合特征;匹配模块,用于基于第一融合特征和第二融合特征将待识别视频和至少一个预设视频进行匹配,确定待识别的动作行为的目标类型。
[0013]根据本申请实施例的另一方面,还提供了本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种行为识别方法,其特征在于,包括:获取包含在视频中的待识别图像序列,并获取至少一个预设图像序列,其中,所述待识别图像序列包含所述视频中待识别的动作行为的图像,所述至少一个预设图像序列包含不同类型的动作行为的图像;分别生成所述待识别图像序列对应的第一文本数据和所述至少一个预设图像序列对应的第二文本数据,其中,所述第一文本数据用于对所述待识别图像序列包含的待识别图像进行描述,所述第二文本数据用于对所述至少一个预设图像序列包含的预设图像进行描述;基于所述第一文本数据和所述第二文本数据将所述待识别图像序列和所述至少一个预设图像序列进行匹配,确定所述待识别的动作行为的目标类型。2.根据权利要求1所述的方法,其特征在于,分别生成所述待识别图像序列对应的第一文本数据和所述至少一个预设图像序列对应的第二文本数据,包括:利用预训练的图像特征提取模型分别对所述待识别图像序列包含的待识别图像和所述至少一个预设图像序列包含的预设图像进行特征提取,得到所述待识别图像序列对应的第一图像特征和所述至少一个预设图像序列对应的第二图像特征;利用预训练的字幕生成模型基于所述第一图像特征生成所述第一文本数据,并利用所述预训练的字幕生成模型基于所述第二图像特征生成所述第二文本数据。3.根据权利要求2所述的方法,其特征在于,在利用预训练的字幕生成模型基于所述第一图像特征生成所述第一文本数据,并利用所述预训练的字幕生成模型基于所述第二图像特征生成所述第二文本数据之后,所述方法还包括:输出所述第一文本数据;接收对所述第一文本数据进行修改所得到的第三文本数据;基于所述第三文本数据对所述字幕生成模型的模型参数进行调整。4.根据权利要求1所述的方法,其特征在于,基于所述第一文本数据和所述第二文本数据将所述待识别图像序列和所述至少一个预设图像序列进行匹配,确定所述待识别的动作行为的目标类型,包括:分别对所述待识别图像序列包含的待识别图像和所述至少一个预设图像序列包含的预设图像进行特征提取,得到所述待识别图像序列对应的第一图像特征和所述至少一个预设图像序列对应的第二图像特征;分别对所述第一文本数据和所述第二文本数据进行特征提取,得到所述第一文本数据对应的第一文本特征和所述第二文本数据对应的第二文本特征;对所述第一图像特征和所述第一文本特征进行融合,得到第一融合特征,并对所述第二图像特征和所述第二文本特征进行融合,得到第二融合特征;将所述第一融合特征和所述第二融合特征进行匹配,确定所述待识别的动作行为的目标类型。5.根据权利要求4所述的方法,其特征在于,对所述第一图像特征和所述第一文本特征进行融合,得到第一融合特征,并对所述第二图像特征和所述第二文本特征进行融合,得到第二融合特征,包括:利用第一注意力模型对所述第一文本特征进行自注意力处理,得到第一自注意力特
征,并利用所述第一注意力模型对所述第二文本特征进行自注意力处理,得到第二自注意力特征;利用第二注意力模型对所述第一自注意力特征和所述第一图像特征进行交叉注意力处理,得到第一交叉注意力特征,并利用所述第二注意力模型对所述第二自注意力特征和所述第二图像特征进行交叉注意力处理,得到第二交叉注意力特征;分别对所述第一交叉注意力特征和所述第二交叉注意力特征进行平均池化处理,得到第一池化特征和第二池化特征;利用第三注意力模型对所述第一池化特征进行时序特征融合,得到所述第一融合特征,并利用所述第三注意力模型对所述第二池化特征进行时序特征融合,得到所述第二融合特征。6.根据权利要求5所述的方法,其特征在于,所述第一注意力模型包括:自注意力模块和第一前向反馈模块,其中,利用第一注意力模型对所述第一文本特征进行自注意力处理,得到第一自注意力特征,并利用所述第一注意力模型对所述第二文本特征进行自注意力处理,得到第二自注意力特征,包括:利用所述自注意力模块对所述第一文本特征进行自注意力处理,得到第一目标特征,并利用所述自注意力模块对所述第二文本特征进行自注意力处理,得到第二目标特征;利用所述第一前向反馈模块对所述第一目标特征进行处理,得到所述第一自注意力特征,并利用所述第一前向反馈模块对所述第二目标特征进行处理,得到所述第二自注意力特征。7.根据权利要求5所述的方法,其特征在于,所述第二注意力模型包括:交叉注意力模块和第二前向反馈模块,其中,利用第二注意力模型对所述第一自注意力特征和所述第一图像特征进行交叉注意力处理,得到第一交叉注意力特征,并利用所述第二注意力模型对所述第二自注意力特征和所述第二图像特征进行交叉注意力处理,得到第二交叉注意力特征,包括:利用所述交叉注意力模块对所述第一自注意力特征和所述第一图像特征进行交叉注意力处理,得到第三目标特征,并利用所述交叉注意力模块对所述第二自注意力特征和所述第二图像特征进行交叉注意力...

【专利技术属性】
技术研发人员:王翔张士伟张迎亚
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1