一种端到端的视频动作检测定位系统技术方案

技术编号：29402920 阅读：17 留言：0更新日期：2021-07-23 22:40

本发明专利技术公开了一种端到端的视频动作检测定位系统，涉及人体动作识别领域。端到端的视频动作检测定位系统的定位过程：视频解码；数据重组；设定数据采样频率，读取固定长度的视频片段，将数据重新组合为可输入数据模式输入到下一模块；对输入数据进行计算操作；空间关键信息提取；将时空信息解析单元模块提取的特征信息进行处理，使网络提取的特征更能关注图像中更加有用空间信息，滤除背景信息，对图像中动作发生的位置特征进行增强；通道信息整合挖掘；将时空信息解析单元模块得到的数据特征进行通道级别的信息整合，挖掘运动信息，关注帧之间运动信息挖掘，关注行为动作发生的类型；预测结果输出；采用1x1卷积输出对应的通道数量的特征图。

全部详细技术资料下载

【技术实现步骤摘要】
一种端到端的视频动作检测定位系统
本专利技术涉及人体动作识别领域，具体涉及一种端到端的视频动作检测定位系统。
技术介绍
行为识别将给定得一段视频片段进行连续得多帧分析，能够实现识别视频中得内容，通常为识别人的动作，如打架、倒地等等，在实际应用场景中能够识别出场景内发生得危险行为，应用场景广泛，是计算机视觉一直研究的热点问题，目前基于深度学习的行为识别算法不仅能够识别动作发生的类型，还能定位动作发生的空间位置，在多目标，复杂场景下取得了较高的准确度。DuTran等人在论文《LearningSpatiotemporalFeatureswith3DConvolutionalNetworks》中提出了一个简单有效的方法，在大规模有监督视频数据集上使用深度3维卷积网络(3DConvNets)，该方法相比于2DConvNets更适用于时空特征的学习，更能表达帧与帧之间的连续信息，在UCF101数据集上用更少的维度与当时最好的方法精度相当，采用简单的3D卷积架构，计算效率高，前向传播速度快，更易于训练和使用，该方法的不足之处在于识别目标为单人简单场景，在复杂场景下应用识别精度低误报率高，基本无泛化能力，无法在实际复杂环境下推广应用，而且无法对画面中动作发生的位置进行定位。论文《Two-StreamConvolutionalNetworksforActionRecognitioninVideos》针对动作分类提出了一种双流网络检测方法，该方法采用并行网络spatialstreamConvNet和temporalstr

【技术保护点】
1.一种端到端的视频动作检测定位系统，包括视频解码模块和数据重组模块，其特征在于，定位过程包括以下步骤：/n(1)视频解码；视频解码模块将网络视频流通过网络线路输入到视频解码单元，通过SOC片上系统将视频流解码为一帧帧的RGB图像，然后输入到数据重组模块，进行数据的预处理操作；/n(2)数据重组；设定数据采样频率，读取固定长度的视频片段，将数据重新组合为可输入数据模式输入到下一模块；/n(3)对输入数据进行计算操作；/n(4)空间关键信息提取；将时空信息解析单元模块提取的特征信息进行处理，使网络提取的特征更能关注图像中更加有用空间信息，滤除背景信息，对图像中动作发生的位置特征进行增强；/n(5)通道信息整合挖掘；将时空信息解析单元模块得到的数据特征进行通道级别的信息整合，挖掘运动信息，关注帧之间运动信息挖掘，关注行为动作发生的类型；/n(6)预测结果输出；采用1x1卷积输出对应的通道数量的特征图。/n

【技术特征摘要】
1.一种端到端的视频动作检测定位系统，包括视频解码模块和数据重组模块，其特征在于，定位过程包括以下步骤：
(1)视频解码；视频解码模块将网络视频流通过网络线路输入到视频解码单元，通过SOC片上系统将视频流解码为一帧帧的RGB图像，然后输入到数据重组模块，进行数据的预处理操作；
(2)数据重组；设定数据采样频率，读取固定长度的视频片段，将数据重新组合为可输入数据模式输入到下一模块；
(3)对输入数据进行计算操作；
(4)空间关键信息提取；将时空信息解析单元模块提取的特征信息进行处理，使网络提取的特征更能关注图像中更加有用空间信息，滤除背景信息，对图像中动作发生的位置特征进行增强；
(5)通道信息整合挖掘；将时空信息解析单元模块得到的数据特征进行通道级别的信息整合，挖掘运动信息，关注帧之间运动信息挖掘，关注行为动作发生的类型；
(6)预测结果输出；采用1x1卷积输出对应的通道数量的特征图。

2.如权利要求1所述的一种端到端的视频动作检测定位系统，其特征在于，数据重组具体的过程为：
预测开始取固定长度n的视频片段处理后组成单元数据Ydst输入到时空信息解析单元模块，n等于8或者16，输入到时空信息解析单元模块之前需要将单元数据Ydst每张RGB图像的尺寸调整成固定尺寸大小；
假定源视频片段单张图片用Xsrc表示，输入到时空信息解析单元模块的固定尺寸的图片用Xdst表示，尺寸缩放后对于Xdst中的每个像素的计算方法如下：
(1)对于Xdst中的每个像素，设置坐标通过反向变换得到的浮点坐标为(i+u，j+v)，其中i、j均为浮点坐标的整数部分，u、v为浮点坐标的小数部分，是取值[0,1)区间的浮点数；
(2)这个像素值f(i+u，j+v)可由原来图像中坐标为(i，j)、(i+1，j)、(i，j+1)、(i+1，j+1)所对应的周围四个像素值决定，即
f(i+u，j+v)＝(1-u)(1-v)f(i，j)+(1-u)vf(i，j+1)+u(1-v)f(i+1，j)+uvf(i+1，j+1)
其中f(i，j)表示源图像(i，j)处的像素值。

3.如权利要求1所述的一种端到端的视频动作检测定位系统，其特征在于，对输入数据进行计算操作包括以下过程：
(1)将视频单元数据Ydst输入到时空信息解析单元模块中，将一系列的RGB图像帧RCxDxHxW输入到该模块，C＝3代表每一张RGB图像帧的通道数，D表示每组单元数据Ydst的图片的数量，最大为16，H和W代表该组单元数据Ydst的每张图片的宽和高；时空信息解析单元模块输出特征图C1、H1、W1分别表示输出特征图的通道数、宽和高，为了适应空间关键信息提取模块的输出维度，强制D′＝1，然后通过维度变换将时空信息解析单元模块输出的四维数据变换为三维数据，输出的特征图表示为
(2)采用增加空间关键信息提取模块，使网络更加关注行为发生的对象的特征，该模块的输入为输出特征图为

4.如权利要求1所述的一种端到端的视频动作检测定位系统，其特征在于，空间关键信息提取包括以下过程：
(1)设定时空信息解析单元模块输出特征图尺寸为将特征图输入到空间关键信息提取模块获...

【专利技术属性】
技术研发人员：席道亮，许野平，刘辰飞，陈英鹏，张朝瑞，高朋，
申请(专利权)人：神思电子技术股份有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人