一种基于CNN和卷积LSTM网络的行人再识别方法技术

技术编号：13994840 阅读：54 留言：0更新日期：2016-11-15 00:17

本发明专利技术提出了一种基于CNN和卷积LSTM网络的行人再识别方法，属于图像处理技术领域。首先用一组CNN提取编码在帧中的空间信息，再利用卷积LSTM构成的编码‑解码框架，得到帧级别的深度时空外观描述器，最后使用Fisher向量编码，使描述器可以描述视频级别的特征。通过这种方式可以提取一种特征表示，这一特征表示能将视频当作排列好的序列，同时保持其空间信息，建立精确的模型。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频图像处理领域，特别涉及一种基于CNN和卷积LSTM网络的行人再识别方法。
技术介绍
行人再识别是指，从无重叠的摄像机视图中识别单个行人，即确认不同位置的摄像机在不同时间捕捉到的是否为同一个行人。这一问题在视频监控领域有重要的现实价值。通常通过匹配空间外观特征的方式进行行人再识别。匹配的方法包括：基于一对单帧的行人图像，匹配它们的颜色和强度梯度直方图。但是，单帧的外观特征本质上很容易改变，因为光照，位置，姿势和视角不同都会导致人体外观的巨大变化。此外，匹配从不同人体部位提取出的空间外观特征本质上是空间校正的一种形式，而在一个动作的不同阶段，人体部位也会呈现不同的外观。基于多帧行人图像的算法虽然提高了匹配的稳定性，但依然只是运用了一部分视频中的信息，它们的效果取决于识别对应帧的机制是否表现良好，即是否能识别不同时间，地点和视角的视频的对应帧。基于视频的行人再识别提供了一种更加自然的在监控系统下识别行人的方法。监控系统中很容易捕捉行人的视频，与视频中的一部分图像相比，完整的视频蕴含了更丰富的信息。在以往的研究中，时空信息并没有很好地运用于行人再识别。传统的基于视频解决行人再识别问题的方式为：选取最能表示特征的帧或是手动调整时间序列，而后进行低等级的特征提取，这种方法的最大缺点在于，它不能精确地从视频序列中学习特征。此外，该方法在提取低水平特征中表现出色，但是这些特征与行人外观的关系并不紧密，尤其难于区分不同人的外观特征。
技术实现思路
本专利技术针对现有技术存在的不足，提出一种基于CNN和卷积LSTM网络的行人再识别方法，既能提升行人再识别的准确...

【技术保护点】
一种基于CNN和卷积LSTM网络的行人再识别方法，其特征在于：所述网络使用CNN提取空间信息，用卷积LSTM网络构成的编码‑解码网络，提取帧级别的深度时空外观描述器，使用Fisher向量编码，使描述器可以描述视频级别的特征；具体包括如下步骤：步骤A：采集视频图像；步骤B：视频图像预处理，提取步行周期；步骤C：训练CNN；步骤D：训练卷积LSTM网络；步骤E：提取CNN特征：将提取的步行周期送入完成训练的CNN，从conv5输出CNN特征，每个输入序列都能用帧级别的256个特征映射表示；步骤F：编码和解码：将CNN特征送入编码网络，编码LSTM用隐藏状态张量进行编码，将输入序列压缩为固定长度的表示；复制编码网络的最后状态和细胞输出，作为解码网络的初始状态，进行解码，解码LSTM将编码网络得到的表示展开；步骤G：视频级别特征提取：将LSTM解码后的特征图展开为向量，使用Fisher向量编码，用Θ＝{(μk,σk,πk),k＝1,2,…,C}表示具有C个组成部分的高斯混合模型(GMM)，μk，σk和πk分别为帧级别下第c个组成部分的均值、方差和先验参数，上述组成部分从LSTM重新构建的帧级别...

【技术特征摘要】
1.一种基于CNN和卷积LSTM网络的行人再识别方法，其特征在于：所述网络使用CNN提取空间信息，用卷积LSTM网络构成的编码-解码网络，提取帧级别的深度时空外观描述器，使用Fisher向量编码，使描述器可以描述视频级别的特征；具体包括如下步骤：步骤A：采集视频图像；步骤B：视频图像预处理，提取步行周期；步骤C：训练CNN；步骤D：训练卷积LSTM网络；步骤E：提取CNN特征：将提取的步行周期送入完成训练的CNN，从co...

【专利技术属性】
技术研发人员：尤鸣宇，沈春华，徐杨柳，
申请(专利权)人：同济大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人