针对人类动作视频基于全张量化循环神经网络的分类方法技术

技术编号:23891958 阅读:47 留言:0更新日期:2020-04-22 06:50
本发明专利技术公开了一种针对人类动作视频基于全张量化循环神经网络的分类方法,本发明专利技术将全部视频文件先随机选取训练集和测试集,把每个视频文件按时间步读取成每一帧的形式保存成数组;往网络中输入当时时刻输入

Classification method of human motion video based on full tensor cyclic neural network

【技术实现步骤摘要】
针对人类动作视频基于全张量化循环神经网络的分类方法
本专利技术涉及结合张量(Tensor)与RNN(RecurrentNeuralNetwork)的深度学习领域,具体涉及一种针对人类动作视频基于全张量化表示循环神经网络结构的分类方法。
技术介绍
人类的每个动作,不管是不是不经意的,都带有其目的。比如说当我们渴望被注意到时,我们会挥舞我们的双手。每个人的视觉系统会捕捉每个动作并理解,但是在现实世界,如果要一直监控人类的动作需要昂贵的人力资源。如果能让机器分辨出这些动作的目的就能解决这一问题。所以本文提出了一种利用全张量化循环神经网络的方法来学习并分类人类动作。视频是一个天然的张量,一阶是时间戳,剩余的阶就是图像的长和宽以及RGB三个通道的值。固定时间戳那一阶,可以得到某一帧,也就是一张图片。所以视频分类任务也可以是看作是时序的图像分类任务。而循环神经网络刚好很适合处理时序数据,所以传统的时序图像分类问题都是直接用传统RNN或其变种完成的。前面提到了如果视频的每一帧都是一个RGB图像的话,那就是一个高阶的时序数据,当这样的高阶数据传入到传统的循环神经网络中时,权重矩阵是没法与之运算的。所以,这就需要我们提出一种适用于高阶时序数据的神经网络通用模型,并且网络结构中的运算也是适用于高阶的,损失函数也采用了更适合于高阶数据的TensorDistance。
技术实现思路
本专利技术针对现有技术的不足,提出了一种针对动作视频分类基于全张量化循环神经网络的方法。要解决的技术问题是由于视频是天然的高阶数据,普通的循环神经网络只能接受矩阵形式的输入,因此矩阵的操作并不再适用,而且数据的表示形式也发生了改变,这时需要一种更加通用的高阶模型。为了解决这一问题,本专利技术通过以下技术方案予以实现:一种针对人类动作视频基于全张量化循环神经网络的分类方法,包括如下步骤:1)所有分类的全部视频文件先随机选取80%作为训练集,剩下20%作为测试集;2)把每个视频文件按时间步读取成每一帧的形式保存成数组;3)在每个时间步都往RNN中传入一个N阶输入张量Xt,代表的是每帧RGB图片;输入张量Xt与(M+N)阶的权重张量U爱因斯坦乘;初始化一个M阶隐含层状态Ht-1,与(M+M)阶的权重张量W爱因斯坦乘之后的结果,然后两者结果相加,经过一个激励函数tanh之后,生成当前时刻的隐含层状态Ht,具体公式为Ht=tanh(U*NXt+W*MHt-1);4)步骤3)得到的当前时刻的M阶隐含层状态Ht与(L+M)阶权重张量V爱因斯坦乘,其结果经过一个激励函数tanh,得到当前时刻的L阶输出张量Ot,具体公式为Ot=tanh(V*MHt);5)把步骤4)得到的输出张量Ot展开成向量形式,然后经过Softmax函数之后,得到一个当前时刻包含每个分类概率结果的向量yt;此向量中权重值最大的元素便是网络预测的最终分类结果,具体公式为yt=softmax(reshape(Ot));6)把步骤5)得到的分类结果向量yt和当前时刻的标签值分别作为TensorDistance损失函数的两个输入,计算其损失值;公式中glm代表是l和m之间的系数,G代表的是系数矩阵,I1×I2×…×IN代表的是N阶张量每个阶的大小,l、m代表的是选取的元素序号,xl、xm代表张量X展开成向量形式后的第l个元素即xl与第m个元素即xm,yl、ym同理;通过误差反向传播,修正网络中的权重张量W,V,U;其中σ1代表的是正则化参数,||pl-pm||2代表是张量X展开成向量形式后的第l个元素即xl与第m个元素即xm之间的位置距离;所以损失函数L:7)重复执行步骤3)到步骤6),待16帧全部输入之后,取最后时刻的输出作为此动作视频文件的最终分类结果。作为优选,把每个视频文件按时间步读取成每一帧的形式保存成数组,具体为:按时间顺序随机取16帧,截取每一帧图片大小为112pixel*112pixel代表这个视频文件的内容;每张图片都是RGB图片,即3个通道,所以每个视频文件最后作为输入的数据大小是shape为3*16*112*112的4阶张量。本专利技术相对于现有技术所具有的效果:1)本专利技术使用了一种基于全张量化神经网络的方法,旨在提出高阶的通用模型。使得网络模型的可适用性大大提升,可处理更加高维的数据。2)本专利技术使用了EinsteinProduct,也就是爱因斯坦乘。该乘法用于张量之间的收缩操作,类似于矩阵乘法的高阶形式。引入该乘法是为了在高阶张量之间做运算,使得模型的通用性更强,适用于任意阶的数据。3)本专利技术使用了TensorDistance,也就是张量距离这一损失函数。该函数用于计算张量之间各个元素之间的损失,类似于欧式距离的高阶形式。引入这一损失函数是为了让网络考虑张量各个阶下标之间的关系。能够让网络模型适用性更强,适合高阶形式的输出。附图说明图1是本专利技术提出的全张量化之后的RNN网络结构图;图2是本专利技术的整体流程图。具体实施方式下面结合附图与具体实施方式对本专利技术做进一步的描述:如图1所示的是本专利技术提出的基于全张量化之后的循环神经网络模型。左边是网络的结构和大体流程。网络中的所有权重、输入、输出都是张量,而且权重张量W,V,U是共享的。左边图沿着时间步展开就得到右边的图,其代表的就是循环神经网络的整个训练过程。由右图可看到,在初始时刻,会有一个初始化的权重W以及初始化的隐含层状态H,然后每一时刻都有一个输出O,但是在视频分类的任务中,我们只需要最后时刻的输出就够了,所以我们的模型其实是一种many-to-one的模式。输出的张量要经过向量化、Softmax等操作以后得到分类结果y,然后与标签分别传入到损失函数TensorDistance,也就是L中得到误差值。通过误差反向传播更新权重张量W,V,U,使得最后的输出分类更加精确。如图2所示的一种针对人类动作视频基于全张量化RNN的分类方法:1)所有分类的全部视频文件先随机选取80%作为训练集,剩下20%作为测试集。2)把每个视频文件按时间步读取成每一帧的形式保存成数组,按时间顺序随机取16帧,截取每一帧图片大小为112pixel*112pixel代表这个视频文件的内容。每张图片都是RGB图片,即3个通道,所以每个视频文件最后作为输入的数据大小是shape为(3*16*112*112)的4阶张量。3)在每个时间步都往RNN中传入一个(3*112*112)的3阶输入张量X,代表的是每帧RGB图片,一共选取了16帧,也就是16个时间步。3阶的输入张量X与6阶的权重张量U爱因斯坦乘最后得到一个3阶的张量。爱因斯坦乘也就是收缩积,举个例子,两个存在相同N阶的张量,张量A与张量B之间的爱因斯坦乘可以表示为:其中初始化一个4阶的隐含层状态Ht-1,与7阶的权重张量W爱因斯坦乘之后同样得到一个3阶的张量,两个3阶的张量相加,经过一个激励函数tanh之本文档来自技高网...

【技术保护点】
1.针对人类动作视频基于全张量化循环神经网络的分类方法,其特征在于,该方法具体包括以下步骤:/n1)所有分类的全部视频文件先随机选取80%作为训练集,剩下20%作为测试集;/n2)把每个视频文件按时间步读取成每一帧的形式保存成数组;/n3)在每个时间步都往RNN中传入一个N阶输入张量

【技术特征摘要】
1.针对人类动作视频基于全张量化循环神经网络的分类方法,其特征在于,该方法具体包括以下步骤:
1)所有分类的全部视频文件先随机选取80%作为训练集,剩下20%作为测试集;
2)把每个视频文件按时间步读取成每一帧的形式保存成数组;
3)在每个时间步都往RNN中传入一个N阶输入张量Xt,代表的是每帧RGB图片;输入张量Xt与(M+N)阶的权重张量U爱因斯坦乘;初始化一个M阶隐含层状态Ht-1,与(M+M)阶的权重张量W爱因斯坦乘之后的结果,然后两者结果相加,经过一个激励函数tanh之后,生成当前时刻的隐含层状态Ht,具体公式为Ht=tanh(U*NXt+W*MHt-1);
4)步骤3)得到的当前时刻的M阶隐含层状态Ht与(L+M)阶权重张量V爱因斯坦乘,其结果经过一个激励函数tanh,得到当前时刻的L阶输出张量Ot,具体公式为Ot=tanh(V*MHt);
5)把步骤4)得到的输出张量Ot展开成向量形式,然后经过Softmax函数之后,得到一个当前时刻包含每个分类概率结果的向量yt;此向量中权重值最大的元素便是网络预测的最终分类结果,具体公式为yt=softmax(reshape(Ot));
6)把...

【专利技术属性】
技术研发人员:江喆程雨夏吴卿
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1