当前位置: 首页 > 专利查询>广东顺德中山大学卡内基梅隆大学国际联合研究院专利>正文

一种基于深度卷积特征多通道金字塔池化的动作识别方法技术

技术编号：15640267 阅读：104 留言：0更新日期：2017-06-16 04:50

本发明专利技术公开一种基于深度卷积特征多通道金字塔池化的动作识别方法，包括：1)对输入视频每一帧采用空间流深度网络模型，得到每帧的表观特征；对视频中每连续M帧采用时间流深度网络模型，提取视频的运动特征；2）对空间流深度网络模型和时间流深度网络模型得到的多通道深度特征图采用4层空间金字塔结构，得到的每个局部块用最大池化方法计算该块的最大值表达，获取特征图在不同尺度下的局部信息；3）将深度特征图中在相同时空位置的多通道局部块的表达连接起来，形成视频的特征描述子；4）采用增强型局部级联描述子向量方法进行特征表示，得到视频的中层表示；4）采用线性支持向量机进行特征分类，得到识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度卷积特征多通道金字塔池化的动作识别方法
本专利技术涉及计算机视觉领域，更具体地，涉及一种基于深度卷积特征多通道金字塔池化的动作识别方法。
技术介绍
科技的发展使得摄像设备得到了普及，数量巨大的视频数据也随之产生。同时，针对视频的应用也应运而生：智能视频监控、视频数据分类、高级人机交互等。在这些应用中，针对人的动作进行理解是最核心的关注点，也是人们研究的核心内容。由于人体动作识别有很大的潜在价值，所以此课题作为一个研究热点已经持续了至少十年时间，很多种方法都被提出，例如：基于密集轨迹(DT)的方法、基于时空兴趣点的方法以及基于卷积神经网络(CNN)的方法等。其中，基于CNN的方法研究的人数最多，这种方法能够取得目前最好的结果。然而，大多数深层CNN网络都将单张卷积图看成一个整体来用，而卷积图中的局部信息往往被忽略，所以，我们的动作识别研究将会针对基于深度卷积特征多通道金字塔池化的动作识别方法以提取深度特征中的局部信息。基于卷积神经网络的方法的主要思想是：首先，对视频采用多层的卷积层、池化层和全连接层，提取视频的描述子特征；接下来将这些特征放入分类器中进行分类，以完成最终的识别过程。很多学者在这个基础上进行了探索和改进。Annane等人提出了一种双流卷积网络用于动作识别，包括空间流和时间流网络，空间流用于提取视频帧的表观特征，时间流用于提取视频连续帧的运动特征，将二者进行融合，以此提升识别效果。Wang等人将深度卷积特征和人工特征进行融合，学习到深度特征和人工特征这两种不同类型特征的优势。以上方法都取得了较好的效果，但是现存的基于深度网络的研究通常...
一种基于深度卷积特征多通道金字塔池化的动作识别方法

【技术保护点】
一种基于深度卷积特征多通道金字塔池化的动作识别方法，其特征在于，包括以下步骤：(1)输入待识别的视频，采用two‑stream深度网络模型得到多通道深度卷积图；其中two‑stream网络模型包括空间流(spatial‑stream)深度网络模型和时间流(temporal‑stream)深度网络模型。具体是：对输入视频的每一帧采用空间流网络，得到帧的表观特征；对输入视频的每连续M帧，利用时间流网络模型得到运动特征；其中空间流网络和时间流网络模型均包含5个卷积层，3个池化层，以及3个全连接层；(2)对空间流深度网络模型和时间流深度网络模型得到的多通道深度特征图采用4层空间金字塔结构，得到的每个局部块用最大池化方法计算该局部块的最大值表达，获取特征图在不同尺度下的局部信息；(3)将深度特征图中在相同时空位置的多通道局部块的表达连接起来，形成视频的特征描述子；(4)对步骤(3)提取的描述子特征采用局部级联描述子向量方法(VLAD)进行特征建模，形成该视频最终的向量表示；(5)采用支持向量机(SVM)进行特征分类，最终输出分类结果，获取视频的动作识别结果。

【技术特征摘要】
1.一种基于深度卷积特征多通道金字塔池化的动作识别方法，其特征在于，包括以下步骤：(1)输入待识别的视频，采用two-stream深度网络模型得到多通道深度卷积图；其中two-stream网络模型包括空间流(spatial-stream)深度网络模型和时间流(temporal-stream)深度网络模型。具体是：对输入视频的每一帧采用空间流网络，得到帧的表观特征；对输入视频的每连续M帧，利用时间流网络模型得到运动特征；其中空间流网络和时间流网络模型均包含5个卷积层，3个池化层，以及3个全连接层；(2)对空间流深度网络模型和时间流深度网络模型得到的多通道深度特征图采用4层空间金字塔结构，得到的每个局部块用最大池化方法计算该局部块的最大值表达，获取特征图在不同尺度下的局部信息；(3)将深度特征图中在相同时空位置的多通道局部块的表达连接起来，形成视频的特征描述子；(4)对步骤(3)提取的描述子特征采用局部级联描述子向量方法(VLAD)进行特征建模，形成该视频最终的向量表示；(5)采用支持向量机(SVM)进行特征分类，最终输出分类结果，获取视频的动作识别结果。2.根据权利要求1所述的深度卷积特征多通道金字塔池化的动作识别方法，其特征在于，所述步骤(1)中，空间流网络模型和时间流深度网络模型将视频每帧作为输入，对原始图像做多层的卷积和池化操作，得到每层的输出都是多个通道的深度特征图，获取更具抽象的图像特征表达。3.根据权利要求1所述的深度卷积特征多通道金字塔池化的动作识别方法，其特征在于，所述步骤(2)中，选取空间流网络模型的第5层卷积层的输出特征图以及时间流网络模型的第4层卷积层的输出卷积图来进行空间金字塔的操作，对多通道卷积图采用4层金字塔结构，其中4层金字塔结构为(1×1,2×2,3×3,...

【专利技术属性】
技术研发人员：胡海峰，肖翔，李昊曦，
申请(专利权)人：广东顺德中山大学卡内基梅隆大学国际联合研究院，中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人