【技术实现步骤摘要】
行为识别方法、电子设备及存储介质
[0001]本申请涉及行为识别领域,具体而言,涉及一种行为识别方法、电子设备及存储介质。
技术介绍
[0002]随着网络科技的飞速发展,各种各样的视频内容层出不穷,吸引了用户的注意力,与此同时,可以通过小样本行为识别技术,对视频中目标对象的动作行为进行行为识别,可以得到视频中目标对象的动作行为的类型,进而可以基于动作行为的类型维护网络安全。
[0003]目前所采用的小样本行为识别技术,通常采用提取视频帧的视觉特征进行局部特征匹配的方式实现动作行为的类型识别,但是在匹配的过程中,对一些具有相似视频帧的不同类别的行为,容易产生误判,这就导致小样本行为识别技术对动作行为进行识别的准确率低。
[0004]针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
[0005]本申请实施例提供了一种行为识别方法、电子设备及存储介质,以至少解决相关小样本行为识别技术中对动作行为进行识别的准确率低的技术问题。
[0006]根据本申请实施例的一个方面,提供了一种行为识别方法,包括:获取包含在视频中的待识别图像序列,并获取至少一个预设图像序列,其中,待识别图像序列包含视频中待识别的动作行为的图像,至少一个预设图像序列包含不同类型的动作行为的图像;分别生成待识别图像序列对应的第一文本数据和至少一个预设图像序列对应的第二文本数据,其中,第一文本数据用于对待识别图像序列包含的待识别图像进行描述,第二文本数据用于对至少一个预设图像序列包含的预设图像进行描述;基于第一文本 ...
【技术保护点】
【技术特征摘要】
1.一种行为识别方法,其特征在于,包括:获取包含在视频中的待识别图像序列,并获取至少一个预设图像序列,其中,所述待识别图像序列包含所述视频中待识别的动作行为的图像,所述至少一个预设图像序列包含不同类型的动作行为的图像;分别生成所述待识别图像序列对应的第一文本数据和所述至少一个预设图像序列对应的第二文本数据,其中,所述第一文本数据用于对所述待识别图像序列包含的待识别图像进行描述,所述第二文本数据用于对所述至少一个预设图像序列包含的预设图像进行描述;基于所述第一文本数据和所述第二文本数据将所述待识别图像序列和所述至少一个预设图像序列进行匹配,确定所述待识别的动作行为的目标类型。2.根据权利要求1所述的方法,其特征在于,分别生成所述待识别图像序列对应的第一文本数据和所述至少一个预设图像序列对应的第二文本数据,包括:利用预训练的图像特征提取模型分别对所述待识别图像序列包含的待识别图像和所述至少一个预设图像序列包含的预设图像进行特征提取,得到所述待识别图像序列对应的第一图像特征和所述至少一个预设图像序列对应的第二图像特征;利用预训练的字幕生成模型基于所述第一图像特征生成所述第一文本数据,并利用所述预训练的字幕生成模型基于所述第二图像特征生成所述第二文本数据。3.根据权利要求2所述的方法,其特征在于,在利用预训练的字幕生成模型基于所述第一图像特征生成所述第一文本数据,并利用所述预训练的字幕生成模型基于所述第二图像特征生成所述第二文本数据之后,所述方法还包括:输出所述第一文本数据;接收对所述第一文本数据进行修改所得到的第三文本数据;基于所述第三文本数据对所述字幕生成模型的模型参数进行调整。4.根据权利要求1所述的方法,其特征在于,基于所述第一文本数据和所述第二文本数据将所述待识别图像序列和所述至少一个预设图像序列进行匹配,确定所述待识别的动作行为的目标类型,包括:分别对所述待识别图像序列包含的待识别图像和所述至少一个预设图像序列包含的预设图像进行特征提取,得到所述待识别图像序列对应的第一图像特征和所述至少一个预设图像序列对应的第二图像特征;分别对所述第一文本数据和所述第二文本数据进行特征提取,得到所述第一文本数据对应的第一文本特征和所述第二文本数据对应的第二文本特征;对所述第一图像特征和所述第一文本特征进行融合,得到第一融合特征,并对所述第二图像特征和所述第二文本特征进行融合,得到第二融合特征;将所述第一融合特征和所述第二融合特征进行匹配,确定所述待识别的动作行为的目标类型。5.根据权利要求4所述的方法,其特征在于,对所述第一图像特征和所述第一文本特征进行融合,得到第一融合特征,并对所述第二图像特征和所述第二文本特征进行融合,得到第二融合特征,包括:利用第一注意力模型对所述第一文本特征进行自注意力处理,得到第一自注意力特
征,并利用所述第一注意力模型对所述第二文本特征进行自注意力处理,得到第二自注意力特征;利用第二注意力模型对所述第一自注意力特征和所述第一图像特征进行交叉注意力处理,得到第一交叉注意力特征,并利用所述第二注意力模型对所述第二自注意力特征和所述第二图像特征进行交叉注意力处理,得到第二交叉注意力特征;分别对所述第一交叉注意力特征和所述第二交叉注意力特征进行平均池化处理,得到第一池化特征和第二池化特征;利用第三注意力模型对所述第一池化特征进行时序特征融合,得到所述第一融合特征,并利用所述第三注意力模型对所述第二池化特征进行时序特征融合,得到所述第二融合特征。6.根据权利要求5所述的方法,其特征在于,所述第一注意力模型包括:自注意力模块和第一前向反馈模块,其中,利用第一注意力模型对所述第一文本特征进行自注意力处理,得到第一自注意力特征,并利用所述第一注意力模型对所述第二文本特征进行自注意力处理,得到第二自注意力特征,包括:利用所述自注意力模块对所述第一文本特征进行自注意力处理,得到第一目标特征,并利用所述自注意力模块对所述第二文本特征进行自注意力处理,得到第二目标特征;利用所述第一前向反馈模块对所述第一目标特征进行处理,得到所述第一自注意力特征,并利用所述第一前向反馈模块对所述第二目标特征进行处理,得到所述第二自注意力特征。7.根据权利要求5所述的方法,其特征在于,所述第二注意力模型包括:交叉注意力模块和第二前向反馈模块,其中,利用第二注意力模型对所述第一自注意力特征和所述第一图像特征进行交叉注意力处理,得到第一交叉注意力特征,并利用所述第二注意力模型对所述第二自注意力特征和所述第二图像特征进行交叉注意力处理,得到第二交叉注意力特征,包括:利用所述交叉注意力模块对所述第一自注意力特征和所述第一图像特征进行交叉注意力处理,得到第三目标特征,并利用所述交叉注意力模块对所述第二自注意力特征和所述第二图像特征进行交叉注意力...
【专利技术属性】
技术研发人员:王翔,张士伟,张迎亚,
申请(专利权)人:阿里巴巴中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。