一种端到端的视频动作检测定位系统技术方案

技术编号:29402920 阅读:17 留言:0更新日期:2021-07-23 22:40
本发明专利技术公开了一种端到端的视频动作检测定位系统,涉及人体动作识别领域。端到端的视频动作检测定位系统的定位过程:视频解码;数据重组;设定数据采样频率,读取固定长度的视频片段,将数据重新组合为可输入数据模式输入到下一模块;对输入数据进行计算操作;空间关键信息提取;将时空信息解析单元模块提取的特征信息进行处理,使网络提取的特征更能关注图像中更加有用空间信息,滤除背景信息,对图像中动作发生的位置特征进行增强;通道信息整合挖掘;将时空信息解析单元模块得到的数据特征进行通道级别的信息整合,挖掘运动信息,关注帧之间运动信息挖掘,关注行为动作发生的类型;预测结果输出;采用1x1卷积输出对应的通道数量的特征图。

【技术实现步骤摘要】
一种端到端的视频动作检测定位系统
本专利技术涉及人体动作识别领域,具体涉及一种端到端的视频动作检测定位系统。
技术介绍
行为识别将给定得一段视频片段进行连续得多帧分析,能够实现识别视频中得内容,通常为识别人的动作,如打架、倒地等等,在实际应用场景中能够识别出场景内发生得危险行为,应用场景广泛,是计算机视觉一直研究的热点问题,目前基于深度学习的行为识别算法不仅能够识别动作发生的类型,还能定位动作发生的空间位置,在多目标,复杂场景下取得了较高的准确度。DuTran等人在论文《LearningSpatiotemporalFeatureswith3DConvolutionalNetworks》中提出了一个简单有效的方法,在大规模有监督视频数据集上使用深度3维卷积网络(3DConvNets),该方法相比于2DConvNets更适用于时空特征的学习,更能表达帧与帧之间的连续信息,在UCF101数据集上用更少的维度与当时最好的方法精度相当,采用简单的3D卷积架构,计算效率高,前向传播速度快,更易于训练和使用,该方法的不足之处在于识别目标为单人简单场景,在复杂场景下应用识别精度低误报率高,基本无泛化能力,无法在实际复杂环境下推广应用,而且无法对画面中动作发生的位置进行定位。论文《Two-StreamConvolutionalNetworksforActionRecognitioninVideos》针对动作分类提出了一种双流网络检测方法,该方法采用并行网络spatialstreamConvNet和temporalstreamConvNet,前者是一个分类网络,输入的是静态图像,得到图像信息,后者输入的连续多帧的稠密光流,得到运动信息,两个网络最后经过softmax做分类分数的融合,通过该方法计算准确度高,能够应用于复杂多人场景,但是该方法的不足之处在于需要预先得到待检测视频片段的光流信息,无法达到实时检测,同样无法定位动作发生的位置。专利号为201810292563的中国专利,公开了专利一种视频动作分类模型训练方法、装置及视频动作分类方法,优点在于可以获取多个带有标签的训练视频中的训练图像帧,能够在学习到训练难度较小的训练视频帧特征的基础上,学习训练难度较大的训练图像帧与其他训练难度较小的训练图像帧之间的差异性特征,能够为训练视频进行更准确的分类,但是该方法仍然存在无法定位画面中动作发生得空间位置和起始时间。专利号为201810707711的中国专利专利,公开了一种基于视频的行为识别方法、行为识别装置及终端设备,创新点在于利用卷积神经网络和长短记忆网络LSTM进行时序建模,增加帧与帧之间的时序信息,有效解决现有行为识别方法存在背景信息复杂、对时序建模能力不够强等问题,但是该方法不能实现端到端的训练,对单张RGB图像帧单独检测,在背景复杂场景下识别精度较低。专利号为201210345589.X的中国专利,公开了一种基于动作子空间与权重化行为识别模型的行为识别方法优势在于输入为待检测得视频序列,提取了动作的时间信息,利用减背景的方法去除背景噪声对于前景的影响,不仅能够准确地识别随时间、区域内外人员变化的人类行为,而且对噪声和其它影响因素鲁棒性强,但是该方法对同一场景下多种存在多种行为时无法准确的做出判断。
技术实现思路
本专利技术的目的是针对上述不足,提出了一种当输入待检测视频序列后能够定位动作发生的空间位置的端到端的视频动作检测定位系统。本专利技术具体采用如下技术方案:一种端到端的视频动作检测定位系统,包括视频解码模块和数据重组模块,定位过程包括以下步骤:(1)视频解码;视频解码模块将网络视频流通过网络线路输入到视频解码单元,通过SOC片上系统将视频流解码为一帧帧的RGB图像,然后输入到数据重组模块,进行数据的预处理操作;(2)数据重组;设定数据采样频率,读取固定长度的视频片段,将数据重新组合为可输入数据模式输入到下一模块;(3)对输入数据进行计算操作;(4)空间关键信息提取;将时空信息解析单元模块提取的特征信息进行处理,使网络提取的特征更能关注图像中更加有用空间信息,滤除背景信息,对图像中动作发生的位置特征进行增强;(5)通道信息整合挖掘;将时空信息解析单元模块得到的数据特征进行通道级别的信息整合,挖掘运动信息,关注帧之间运动信息挖掘,关注行为动作发生的类型;(6)预测结果输出;采用1x1卷积输出对应的通道数量的特征图。优选地,数据重组具体的过程为:预测开始取固定长度n的视频片段处理后组成单元数据Ydst输入到时空信息解析单元模块,n等于8或者16,输入到时空信息解析单元模块之前需要将单元数据Ydst每张RGB图像的尺寸调整成固定尺寸大小;假定源视频片段单张图片用Xsrc表示,输入到时空信息解析单元模块的固定尺寸的图片用Xdst表示,尺寸缩放后对于Xdst中的每个像素的计算方法如下:(1)对于Xdst中的每个像素,设置坐标通过反向变换得到的浮点坐标为(i+u,j+v),其中i、j均为浮点坐标的整数部分,u、v为浮点坐标的小数部分,是取值[0,1)区间的浮点数;(2)这个像素值f(i+u,j+v)可由原来图像中坐标为(i,j)、(i+1,j)、(i,j+1)、(i+1,j+1)所对应的周围四个像素值决定,即f(i+u,j+v)=(1-u)(1-v)f(i,j)+(1-u)vf(i,j+1)+u(1-v)f(i+1,j)+uvf(i+1,j+1)其中f(i,j)表示源图像(i,j)处的像素值。优选地,对输入数据进行计算操作包括以下过程:(1)将视频单元数据Ydst输入到时空信息解析单元模块中,将一系列的RGB图像帧RCxDxHxW输入到该模块,C=3代表每一张RGB图像帧的通道数,D表示每组单元数据Ydst的图片的数量,最大为16,H和W代表该组单元数据Ydst的每张图片的宽和高;时空信息解析单元模块输出特征图C1、H1、W1分别表示输出特征图的通道数、宽和高,为了适应空间关键信息提取模块的输出维度,强制D′=1,然后通过维度变换将时空信息解析单元模块输出的四维数据变换为三维数据,输出的特征图表示为(2)采用增加空间关键信息提取模块,使网络更加关注行为发生的对象的特征,该模块的输入为输出特征图为优选地,空间关键信息提取包括以下过程:(1)设定时空信息解析单元模块输出特征图尺寸为将特征图输入到空间关键信息提取模块获取Rf1,Rf2;其中f1()表示对特征矩阵均值化操作,f2()表示对矩阵的特征抽取操作;(2)将Rf1和Rf2按照第一个维度进行相加的处理,获取合并后的空间特征信息Rf=Rf1+Rf2(3)将Rf进行空间特征融合,将Rf输入到融合特征归一化单元,该单元可以将空间特征增强化,对增强化后的特征进行归一化处理后计算效率更加高效:x=ffuse(Rf)Xout=fnormalize(X)...

【技术保护点】
1.一种端到端的视频动作检测定位系统,包括视频解码模块和数据重组模块,其特征在于,定位过程包括以下步骤:/n(1)视频解码;视频解码模块将网络视频流通过网络线路输入到视频解码单元,通过SOC片上系统将视频流解码为一帧帧的RGB图像,然后输入到数据重组模块,进行数据的预处理操作;/n(2)数据重组;设定数据采样频率,读取固定长度的视频片段,将数据重新组合为可输入数据模式输入到下一模块;/n(3)对输入数据进行计算操作;/n(4)空间关键信息提取;将时空信息解析单元模块提取的特征信息进行处理,使网络提取的特征更能关注图像中更加有用空间信息,滤除背景信息,对图像中动作发生的位置特征进行增强;/n(5)通道信息整合挖掘;将时空信息解析单元模块得到的数据特征进行通道级别的信息整合,挖掘运动信息,关注帧之间运动信息挖掘,关注行为动作发生的类型;/n(6)预测结果输出;采用1x1卷积输出对应的通道数量的特征图。/n

【技术特征摘要】
1.一种端到端的视频动作检测定位系统,包括视频解码模块和数据重组模块,其特征在于,定位过程包括以下步骤:
(1)视频解码;视频解码模块将网络视频流通过网络线路输入到视频解码单元,通过SOC片上系统将视频流解码为一帧帧的RGB图像,然后输入到数据重组模块,进行数据的预处理操作;
(2)数据重组;设定数据采样频率,读取固定长度的视频片段,将数据重新组合为可输入数据模式输入到下一模块;
(3)对输入数据进行计算操作;
(4)空间关键信息提取;将时空信息解析单元模块提取的特征信息进行处理,使网络提取的特征更能关注图像中更加有用空间信息,滤除背景信息,对图像中动作发生的位置特征进行增强;
(5)通道信息整合挖掘;将时空信息解析单元模块得到的数据特征进行通道级别的信息整合,挖掘运动信息,关注帧之间运动信息挖掘,关注行为动作发生的类型;
(6)预测结果输出;采用1x1卷积输出对应的通道数量的特征图。


2.如权利要求1所述的一种端到端的视频动作检测定位系统,其特征在于,数据重组具体的过程为:
预测开始取固定长度n的视频片段处理后组成单元数据Ydst输入到时空信息解析单元模块,n等于8或者16,输入到时空信息解析单元模块之前需要将单元数据Ydst每张RGB图像的尺寸调整成固定尺寸大小;
假定源视频片段单张图片用Xsrc表示,输入到时空信息解析单元模块的固定尺寸的图片用Xdst表示,尺寸缩放后对于Xdst中的每个像素的计算方法如下:
(1)对于Xdst中的每个像素,设置坐标通过反向变换得到的浮点坐标为(i+u,j+v),其中i、j均为浮点坐标的整数部分,u、v为浮点坐标的小数部分,是取值[0,1)区间的浮点数;
(2)这个像素值f(i+u,j+v)可由原来图像中坐标为(i,j)、(i+1,j)、(i,j+1)、(i+1,j+1)所对应的周围四个像素值决定,即
f(i+u,j+v)=(1-u)(1-v)f(i,j)+(1-u)vf(i,j+1)+u(1-v)f(i+1,j)+uvf(i+1,j+1)
其中f(i,j)表示源图像(i,j)处的像素值。


3.如权利要求1所述的一种端到端的视频动作检测定位系统,其特征在于,对输入数据进行计算操作包括以下过程:
(1)将视频单元数据Ydst输入到时空信息解析单元模块中,将一系列的RGB图像帧RCxDxHxW输入到该模块,C=3代表每一张RGB图像帧的通道数,D表示每组单元数据Ydst的图片的数量,最大为16,H和W代表该组单元数据Ydst的每张图片的宽和高;时空信息解析单元模块输出特征图C1、H1、W1分别表示输出特征图的通道数、宽和高,为了适应空间关键信息提取模块的输出维度,强制D′=1,然后通过维度变换将时空信息解析单元模块输出的四维数据变换为三维数据,输出的特征图表示为
(2)采用增加空间关键信息提取模块,使网络更加关注行为发生的对象的特征,该模块的输入为输出特征图为


4.如权利要求1所述的一种端到端的视频动作检测定位系统,其特征在于,空间关键信息提取包括以下过程:
(1)设定时空信息解析单元模块输出特征图尺寸为将特征图输入到空间关键信息提取模块获...

【专利技术属性】
技术研发人员:席道亮许野平刘辰飞陈英鹏张朝瑞高朋
申请(专利权)人:神思电子技术股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1