一种基于高阶建模的视频行为识别方法技术

技术编号:34445572 阅读:53 留言:0更新日期:2022-08-06 16:40
本发明专利技术公开了一种基于高阶建模的视频行为识别方法,包括:在2D卷积神经网络的不同阶段插入相关性模块,对该网络末端进行迭代矩阵平方根归一化的协方差池化操作获得高阶相关性网络;获取视频数据集和标签,将视频数据集分为训练集和测试集;将所有的帧输入至高阶相关性网络中;采用训练集训练高阶相关性网络,在每次迭代中更新网络参数,每次迭代中对帧进行训练和验证,并根据最优验证集精度保存高阶相关性网络的最优权重;使用最优权重初始化高阶相关性网络,在测试集上对该网络的准确率进行评估,将测试集数据输入该网络中获得测试结果,将测试结果与标签数据进行对比,统计正确和错误的个数从而计算该网络在测试集上的准确率。确率。确率。

【技术实现步骤摘要】
一种基于高阶建模的视频行为识别方法


[0001]本专利技术涉及视频行为识别领域,具体涉及一种基于高阶建模的视频行为识别方法。

技术介绍

[0002]视频识别是基于视频的任务中的一个基本问题。在智能监控、人机交互、自动驾驶和虚拟现实等各种基于视频的应用中,它的要求越来越高。由于深度学习的出现,研究人员见证了视频识别的巨大进步。通过合理考虑时间维度,出现了许多设计良好的网络。就模型架构设计而言,该领域有四个典型方向:双流网络、三维卷积神经网络(CNN)、计算高效网络和基于Transformer的网络。由于视频涉及外观和视觉节奏引起的复杂动态变化,强大的表示方式可以提高视频识别的性能,然而现有的这些视频架构通常通过网络末端的全局平均池化生成视频表示。全局平均池化只是用简单的方式以无序的方式计算卷积特征的一阶统计量,丢弃了时空特征中固有的更丰富的统计信息,并且捕获视频复杂动态的能力有限。

技术实现思路

[0003]根据现有技术存在的问题,本专利技术公开了一种基于高阶建模的视频行为识别方法,具体包括如下步骤:
[0004]将预训练的2D卷积神经网络作为骨干模型,在2D卷积神经网络的不同阶段插入相关性模块,对该网络末端进行迭代矩阵平方根归一化的协方差池化操作获得高阶相关性网络;
[0005]获取视频数据集和标签,将视频数据集分为训练集和测试集,对视频数据集进行抽帧并保存;
[0006]将所有的帧输入至高阶相关性网络中;
[0007]采用训练集训练高阶相关性网络,在每次迭代中更新网络参数,每次迭代中对帧进行训练和验证,并根据最优验证集精度保存高阶相关性网络的最优权重;
[0008]使用最优权重初始化高阶相关性网络,在测试集上对该网络的准确率进行评估,将测试集数据输入该网络中获得测试结果,将测试结果与标签数据进行对比,统计正确和错误的个数从而计算该网络在测试集上的准确率。
[0009]使用2D卷积神经网络中的ResNet50作为整个网络的骨干模型。
[0010]在高阶相关性网络的res4和res5后插入相关性模块,在res4后直接插入相关性模块,在res5后先进行降维操作再插入相关性模块。
[0011]所述相关性模块计算两个相邻帧的固定滑动窗口中特征的点积,通过点积计算近似获得图像高阶统计信息;
[0012]设两帧为X
l
‑1和X
l
,每一帧用三维张量C
×
H
×
W表示,其中C是通道数,H
×
W是空间分辨率,在帧X
l
中给定一个特征块计算该特征块与帧X
l
‑1中另一个特征块
的相似度,其中(i,j)是特征块的空间位置,将特征块的大小减少到单个像素,则相关性模块计算结果如下:
[0013][0014]其中用于归一化,W
C
是引入的一个权重向量,(i',j')通常限制在(i,j)的K
×
K邻域内,K是特征块匹配的最大位移。
[0015]对该网络末端进行迭代矩阵平方根归一化的协方差池化操作时:先执行相关协方差池化操作:
[0016][0017]其中Cov
i
,i={1,2,...,L}代表相邻两帧之间进行协方差操作后的结果,L代表共有L帧,CP
L
(
·
)代表由相关性模块处理后的协方差池化,即为:
[0018][0019]使用迭代矩阵平方根归一化方法,该方法包括:将计算出的协方差矩阵除以其迹,将矩阵方程重复固定次数,计算近似协方差矩阵平方根,再乘以协方差矩阵平方根迹。
[0020]由于采用了上述技术方案,本专利技术提供的一种基于高阶建模的视频行为识别方法,该方法使用2D CNN中的ResNet50作为骨干模型,比起双流网和3D CNN极大的降低了计算成本;通过相关性来计算早期层视频的近似二阶特征统计,相关模块通过计算相邻两帧固定滑动窗口中特征的内积,获得两帧之间复杂的时间动态信息,通过将其插入深度网络的各个阶段,二阶信息可以在不同空间分辨率的特征地图上建模,从而增强特征学习,解决捕捉复杂时间动态能力有限的问题;同时利用末端层的协方差池的迭代矩阵平方根归一化提高了二阶统计量,以此增强了深度特征的表示;网络最终获得了更健壮的视频特征的高阶表达,很好地模拟了视频的复杂时空分布;本专利技术相对于其他方法,在性能上达到了有竞争力的结果,准确率有所提升。
附图说明
[0021]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1为本专利技术方法的流程图
[0023]图2为本专利技术中高阶相关性网络总体结构图
[0024]图3为本专利技术中相关性模块结构图
[0025]图4为本专利技术中迭代矩阵平方根归一化的协方差池化模块结构图
具体实施方式
[0026]为使本专利技术的技术方案和优点更加清楚,下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚完整的描述:
[0027]如图1所示的一种基于高阶建模的视频行为识别方法,具体包括如下步骤:
[0028]S1:将预训练的2D ResNet网络作为骨干模型,在2D卷积神经网络的不同阶段插入相关性模块,对该网络末端进行迭代矩阵平方根归一化的协方差池化操作获得高阶相关性网络;
[0029]S11:获取视频数据集Kinetics

400(K

400)及其标签,视频数据及所有数据构成为DataSet=[x1,x1,...,x
N
],将视频数据集分为训练集和测试集;
[0030]S12:将上述视频数据进行片段采样(采样数为3);
[0031]S13:使用FFmpeg对采样后的数据进行抽帧(帧数为8),抽帧后的数据为DataSet_RGB=[x
11
,x
12
,...,x
1M
,x
21
,

,x
NM
];
[0032]S14:将数据集中训练集的所有数据定义为D∈Z
T
×
C
×
H
×
W
,其中T是输入的帧数,C是输入的通道数,H和W分别是每一帧的高度和宽度,将其缩放为224
×
224,即最终输入数据大小为[64
×
24,3,224,224];
[0033]S15:将所有的帧输入至高阶相关性网络中;
[0034]S16:采用训练集训练高阶相关性网络,在每次迭代中通过反向传播更新网络参数;
[0035]S17本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于高阶建模的视频行为识别方法,其特征在于包括:将预训练的2D卷积神经网络作为骨干模型,在2D卷积神经网络的不同阶段插入相关性模块,对该网络末端进行迭代矩阵平方根归一化的协方差池化操作获得高阶相关性网络;获取视频数据集和标签,将视频数据集分为训练集和测试集,对视频数据集进行抽帧并保存;将所有的帧输入至高阶相关性网络中;采用训练集训练高阶相关性网络,在每次迭代中更新网络参数,每次迭代中对帧进行训练和验证,并根据最优验证集精度保存高阶相关性网络的最优权重;使用最优权重初始化高阶相关性网络,在测试集上对该网络的准确率进行评估,将测试集数据输入该网络中获得测试结果,将测试结果与标签数据进行对比,统计正确和错误的个数从而计算该网络在测试集上的准确率。2.根据权利要求1所述的视频行为识别方法,其特征在于:使用2D卷积神经网络中的ResNet50作为整个网络的骨干模型。3.根据权利要求2所述的视频行为识别方法,其特征在于:在高阶相关性网络的res4和res5后插入相关性模块,在res4后直接插入相关性模块,在res5后先进行降维操作再插入相关性模块。4.根据权利要求3所述的视频行为识别方法,其特征在于:所述相关性模块计算两个相邻帧的固定滑动窗口中特征的点积,通过点积计算近似获得图像高阶统计信息;设两帧为X
...

【专利技术属性】
技术研发人员:张建新董微张冰冰韩雨童赵诚辉石金龙何昆仑
申请(专利权)人:大连民族大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1