一种短视频分类方法技术

技术编号:23025341 阅读:20 留言:0更新日期:2020-01-03 17:01
本发明专利技术公开了一种短视频分类方法,包括以下步骤:网络训练;网络测试,包括对待分类的短视频进行等间隔截帧,每个视频截取一定帧数;对截取的帧,通过图像处理,取出一定大小的图片输入模型进行预测,在Softmax之前融合截取的帧和不同流的预测分数,最终得出结果,所述模型通过如下方式得到:一个输入视频被分为K段,一个片段从它对应的段中随机采样得到,不同片段的类别得分采用段共识函数进行融合来产生段共识,得到一个视频级的预测,然后对所有模式的预测融合产生最终的预测结果。

A short video classification method

【技术实现步骤摘要】
一种短视频分类方法
本专利技术属于计算机视觉
,具体涉及一种短视频分类方法。
技术介绍
现有技术中视频分类训练有基于Two-Stream及其衍生系列的,基本原理是训练两个卷积网络,分别对视频帧图像(spatial)和密集光流(temporal)进行建模,两个网络的结构是一样的,都是二维卷积(2DConvNets),如图1所示。两个stream的网络分别对视频的类别进行判断,得到类别分数(classscore),然后进行分数的融合,得到最终的分类结果。使用以上方法进行视频分类训练存在以下问题:(1)提前计算光流需要额外占用GPU计算时间和存储空间,已经成为two-stream算法的瓶颈;(2)传统的光流计算方法完全独立于two-stream框架,不是端到端训练,提前的运动信息不是最优的;(3)无法解决长时序问题。另一种是基于3D卷积及其衍生系列,现有技术中2D的卷积操作是将卷积核在输入图像或特征图上进行滑窗,得到下一层的特征图。例如,在一个单通道的图像上做卷积在一个多通道的图像上做卷积(这里的多通道图像可以指同一张图片的3个颜色通道,也指多张堆叠在一起的帧,即一小段视频),最终的输出都是一张二维的特征图,也就是说,多通道的信息被完全压缩了。而在3D卷积中,为了保留时序的信息,对卷积核进行了调整,增加了一维时域深度。3D卷积的输出仍是一个三维的特征图。因此通过3D卷积,C3D(深度3维卷积网络,3DConvNets)可以直接处理视频,同时利用表观特征和时序特征。使用以上方法进行视频分类训练存在以下问题:参数量巨大,训练时间长,容易过拟合,在各个公开数据集上表现一般计算量大,不能实时应用。
技术实现思路
鉴于以上存在的技术问题,本专利技术用于提供一种短视频分类方法,用于解决长时序问题,可以实现3DCNN的性能,但保持2D复杂性。为解决上述技术问题,本专利技术采用如下的技术方案:一种短视频分类方法,包括以下步骤:网络训练,包括选择BN-Inception构建模块;在学习过程中,BatchNormalization将估计每个batch内的激活均值和方差,并使用它们将这些激活值转换为标准高斯分布;在用预训练模型初始化后,冻结所有BatchNormalization层的均值和方差参数,但第一个标准化层除外;在BN-Inception的全局pooling层后添加一个额外的dropout层;使用小批量随机梯度下降算法来学习网络参数;用在ImageNet上预训练的模型对网络权重进行初始化;网络测试,包括对待分类的短视频进行等间隔截帧,每个视频截取一定帧数;对截取的帧,通过图像处理,取出一定大小的图片输入模型进行预测,在Softmax之前融合截取的帧和不同流的预测分数,最终得出结果,所述模型通过如下方式得到:一个输入视频被分为K段,一个片段从它对应的段中随机采样得到,不同片段的类别得分采用段共识函数进行融合来产生段共识,得到一个视频级的预测,然后对所有模式的预测融合产生最终的预测结果。优选地,dropout层的dropout比例设置:空间流卷积网络设置为0.8,时间流卷积网络设置为0.7。优选地,所述一个输入视频被分为K段,一个片段从它对应的段中随机采样得到,不同片段的类别得分采用段共识函数进行融合来产生段共识,得到一个视频级的预测,然后对所有模式的预测融合产生最终的预测结果具体包括:给定一段视频V,把它按相等间隔分为K段{S1,S2,S3,.......,SK},接着,TSN按如下方式对一系列片段进行建模:TSN(T1,T2,......,TK)=H(G(F(T1;W),F(T2;W),......,F(TK;W)))其中:(T1,T2,......,TK)代表片段序列,每个片段Tk从它对应的段Sk中随机采样得到;F(Tk;W)函数代表采用W作为参数的卷积网络作用于短片段Tk,函数返回Tk相对于所有类别的得分;段共识函数G结合多个短片段的类别得分输出以获得他们之间关于类别假设的共识;基于这个共识,预测函数H预测整段视频属于每个行为类别的概率;结合标准分类交叉熵损失,关于部分共识的最终损失函数G的形式为:其中,C是行为总类别数,yi是类别i的标定好的真实数据,Gi=g(Fi(T1),...,Fi(TK)),采用聚合函数g从所有片段中相同类别的得分中推断出某个类别分数Gi,聚合函数g采用均匀平均法来表示最终识别精度。优选地,用标准反向传播算法,利用多个片段来联合优化模型参数W,在反向传播过程中,模型参数W关于损失值L的梯度为:其中,K是TSN使用的段数,TSN从整个视频中学习模型参数而不是一个短的片段,通过对所有视频固定K。采用本专利技术具有如下的有益效果:(1)结合了稀疏时间采样策略和视频级监控,可以使用整个动作视频实现高效和有效的学习,解决长时序问题;(2)基于时间片段网络(TSN)进行视频的动作识别的新颖框架。这是基于远程时间结构建模的思想。附图说明图1为本专利技术实施例的一种短视频分类方法的步骤流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参照图1,本专利技术公开了一种短视频分类方法,包括以下步骤:网络训练,包括选择BN-Inception构建模块,因为它在准确率和效率之间有比较好的平衡。在学习过程中,BatchNormalization将估计每个batch内的激活均值和方差,并使用它们将这些激活值转换为标准高斯分布,这一操作虽可以加快训练的收敛速度,但由于要从有限数量的训练样本中对激活分布的偏移量进行估计,也会导致过拟合问题。因此,由于光流的分布和RGB图像的分布不同,第一个卷积层的激活值将有不同的分布,于是,需要重新估计的均值和方差,称这种策略为部分BN。与此同时在用预训练模型初始化后,冻结所有BatchNormalization层的均值和方差参数,但第一个标准化层除外;在BN-Inception的全局pooling层后添加一个额外的dropout层,来进一步降低过拟合的影响;dropout比例设置:空间流卷积网络设置为0.8,时间流卷积网络设置为0.7。使用小批量随机梯度下降算法来学习网络参数;用在ImageNet上预训练的模型对网络权重进行初始化。batchsize设置为256,momentum设置为0.9。用在ImageNet上预训练的模型对网络权重进行初始化。实验中learningrate设置较小:对于空间网络,初始化为0.01,并且每2000次迭代降为它的110110,训练过程共迭代4500次;对于时间网络,初始化为0.005,并且在第12000和18000次迭代之后降为它的110110,训练过程共迭代本文档来自技高网
...

【技术保护点】
1.一种短视频分类方法,其特征在于,包括以下步骤:/n网络训练,包括选择BN-Inception构建模块;在学习过程中,Batch Normalization将估计每个bach内的激活均值和方差,并使用它们将这些激活值转换为标准高斯分布;在用预训练模型初始化后,冻结所有Batch Normalization层的均值和方差参数,但第一个标准化层除外;在BN-Inception的全局pooling层后添加一个额外的dropout层;使用小批量随机梯度下降算法来学习网络参数;用在ImageNet上预训练的模型对网络权重进行初始化;/n网络测试,包括对待分类的短视频进行等间隔截帧,每个视频截取一定帧数;对截取的帧,通过图像处理,取出一定大小的图片输入模型进行预测,在Softmax之前融合截取的帧和不同流的预测分数,最终得出结果,所述模型通过如下方式得到:一个输入视频被分为K段,一个片段从它对应的段中随机采样得到,不同片段的类别得分采用段共识函数进行融合来产生段共识,得到一个视频级的预测,然后对所有模式的预测融合产生最终的预测结果。/n

【技术特征摘要】
1.一种短视频分类方法,其特征在于,包括以下步骤:
网络训练,包括选择BN-Inception构建模块;在学习过程中,BatchNormalization将估计每个bach内的激活均值和方差,并使用它们将这些激活值转换为标准高斯分布;在用预训练模型初始化后,冻结所有BatchNormalization层的均值和方差参数,但第一个标准化层除外;在BN-Inception的全局pooling层后添加一个额外的dropout层;使用小批量随机梯度下降算法来学习网络参数;用在ImageNet上预训练的模型对网络权重进行初始化;
网络测试,包括对待分类的短视频进行等间隔截帧,每个视频截取一定帧数;对截取的帧,通过图像处理,取出一定大小的图片输入模型进行预测,在Softmax之前融合截取的帧和不同流的预测分数,最终得出结果,所述模型通过如下方式得到:一个输入视频被分为K段,一个片段从它对应的段中随机采样得到,不同片段的类别得分采用段共识函数进行融合来产生段共识,得到一个视频级的预测,然后对所有模式的预测融合产生最终的预测结果。


2.如权利要求1所述的短视频分类方法,其特征在于,dropout层的dropout比例设置:空间流卷积网络设置为0.8,时间流卷积网络设置为0.7。


3.如权利要求1所述的短视频分类方法,其特征在于,所述一个输入视频被分为K段,一个片段从它对应的段中随机采样得到,不同片段的类别得分采用段共识函数进行融合来产...

【专利技术属性】
技术研发人员:魏陈超范俊
申请(专利权)人:杭州趣维科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1