基于合成数据生成和协同优化的域适应行人重识别方法技术

技术编号:30971146 阅读:36 留言:0更新日期:2021-11-25 20:51
本发明专利技术提供了一种基于合成数据生成和协同优化的域适应行人重识别方法。首先,利用大型电子游戏侠盗猎车手GTA V构建一个合成数据采集器,并利用Mask RCNN和哈希值构建标注信息,得到最大规模的合成行人重识别数据集;然后,利用合成数据集进行特征编码器预训练;接着,构建多域协同优化网络模型,并利用已有数据集对模型进行训练;最后,利用训练好的网络模型实现数据集的行人识别检测。本发明专利技术能够显著降低采集和标注的成本,具有较强的泛化能力,能够显著提升无监督跨域行人重识别任务的性能。性能。性能。

【技术实现步骤摘要】
基于合成数据生成和协同优化的域适应行人重识别方法


[0001]本专利技术属计算机视觉、图像检索
,具体涉及一种基于合成数据生成和协同优化的域适应行人重识别方法。

技术介绍

[0002]作为一个经典的图像检索和是计算机视觉任务,行人重识别致力于在给定一个监控行人图像后,从其他多个位置的摄像头采集的图像或者视频序列中检索该行人的方法。随着公共安全的迫切需求以及在大学校园、公园和街道等公共场所监控摄像头数量的不断增加,这项技术已被广泛应用于商业、安防、搜寻等领域。如何识别、定位出监控中的特定行人,对于刑事侦查、搜寻救援等具有很重要的意义。Ye等人在文献“Ye,Mang,Jianbing Shen,Gaojie Lin,Tao Xiang,Ling Shao,and Steven CH Hoi."Deep learning for person re

identification:A survey and outlook."IEEE Transactions on Pattern Analysis and Machine Intelligence(2021).”中总结了行人重识别近年来的发展,但也指出行人重识别仍然受到视角变换、光照改变、行人遮挡等因素导致不同数据之间的差异。
[0003]行人重识别方法一般包括五个步骤:摄像头采集数据、数据预处理、数据标注、模型设计与训练、模型测试与泛化。受益于深度学习的快速发展和标注数据集的构建,基于监督学习的行人重识别方法已经取得了显著的成果。但是现有方法仍然具有如下的缺点:(1)缺乏大规模精确标注数据,精确标注大规模的数据集不得不耗费大量人力物力,采集和标注行人也会侵犯个人隐私;(2)模型训练过拟合,由于大规模精确标注数据的匮乏使模型很难得到充分训练;(3)泛化能力差,由于不同数据集之间的差异,导致训练在一个数据集(源域)上得模型迁移到其他未标注的数据集或真实场景(目标域)上时,产生了严重的性能退化。
[0004]为解决上述问题,一些研究开展了新的探索,如在数据集构建层面,通过使用商业虚拟人物生成软件进行合成数据采集和标注,但由于生成软件的局限性,合成数据集只能提供简单场景和和不真实的人物模型,致使训练在一个合成数据集上的模型迁移到未标注的真实数据集上时,模型的性能产生了更加严重的退化;在模型设计层面,设计了基于无监督学习的模型,包含基于源域转化的方法和基于目标域的伪标签生成办法。前者通过对抗生成网络对源域的数据实施域转化,生成域转化数据,但在域转化后直接丢弃了源域;后者利用聚类算法对无标注目标域的数据实施聚类,产生伪标签(簇),但是产生的伪标签往往含有大量噪声,并不精确,同时源域与目标域之间的差异并未得到有效的处理。

技术实现思路

[0005]为了克服现有技术的不足,本专利技术提供一种基于合成数据生成和协同优化的域适应行人重识别方法。首先,利用大型电子游戏侠盗猎车手(GTA V)构建了一个合成数据采集器,并利用Mask RCNN和哈希值构建了标注信息,得到了最大规模的合成行人重识别数据集;然后,利用合成数据集进行特征编码器预训练;接着,构建了多域协同优化网络模型,并
利用已有数据集对模型进行训练;最后,利用训练好的网络模型实现数据集的行人识别检测。本专利技术利用电脑软件进行数据的自动采集和标注,能够显著降低采集和标注的成本,同时避免侵犯个人隐私;通过实现多个域之间的混合训练和多路协同训练,能够解决当前基于无监督域适应的行人重识别方法训练不充分、泛化能力差的问题,具有较强的泛化能力,能够显著提升无监督跨域行人重识别任务的性能。
[0006]一种基于合成数据生成和协同优化的域适应行人重识别方法,其特征在于步骤如下:
[0007]步骤1,数据采集和标注:在252公里的GTA V虚拟世界中选择包括商场、街道、山区和沙漠地带在内的26个不同环境的场景,在每一个场景设置12个不同高度和旋转角度的视角,并随机选定天气状况和时间,让游戏中的2369个人中分别在每一个选择的场景中沿数据采集者预先指定的方向行走并做出随机动作,在每一个场景从设置的12个视角采集人的图像,得到游戏合成的行人图像数据集,再利用Mask RCNN算法对数据集中的每一幅图像进行分割处理,得到去除冗余背景信息后的图像,每幅图像中的人的身份、场景和视角的哈希值,构成图像的标注信息;
[0008]步骤2,基于合成数据的模型预训练:将步骤1得到的游戏合成行人图像数据集输入到生成对抗网络eSPGAN,输出得到与真实世界采集的数据具有相似图像风格的图像数据集;然后,将得到的合成数据与原行人图像数据输入到特征编码器进行预训练,得到预训练后的特征编码器;所述的特征编码器为iBN

ResNet

50网络;
[0009]步骤3,多域协同训练:以Market1501数据集作为源域数据,以DukeMTMC

ReID数据集作为目标域数据,对多域协同优化网络模型进行训练,训练次数设置为60,其模型参数按照以下公式进行更新,得到训练好的模型:
[0010]M
k
(θ)=αM
k
‑1(θ)+(1

α)θ
k ,
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0011]其中,M
k
(θ)表示第k次迭代训练得到的更新的编码器参数,M
k
‑1(θ)表示第k

1次迭代训练得到的更新的编码器参数,θ
k
是第k次迭代训练时编码器反向传播更新的参数;α是缓步更新系数,可取值范围为(0,1];k表示迭代训练次数;
[0012]所述的多域协同优化网络模型包括风格相似混合学习模块和关系不变混合学习模块,其中,风格相似混合学习模块包括转化器、特征编码器、标签生成器,源域图像数据输入到转化器得到域转化数据,域转化数据和目标域数据再同时输入到预训练后的特征编码器,得到风格相似的多域混合特征,得到的特征经标签生成器,得到不同簇的伪标签;关系不变混合学习模块包括特征编码器、标签生成器,将源域数据和目标域数据同时输入到特征编码器,再经标签生成器,得到相应的伪标签;所述的转化器采用生成对抗网络eSPGAN,所述的特征编码器采用步骤2得到的预训练后的特征编码器,所述的标签生成器采用DBSCAN聚类算法对输入数据进行聚类处理,以标签生成器得到的伪标签作为分类目标;
[0013]步骤4,行人识别检测:将DukeMTMC

ReID数据集输入到步骤3训练好的多域协同优化模型,对模型两个模块中的特征编码器的输出特征按下式进行加权平均融合,得到最终的行人识别检测结果:
[0014][0015]其中,y0表示最终的行人识别检测结果,λ表示两个模块之间的平衡系数,取值为
0.5,C1和C2分别表示风格相似混合学习模块和关系不变混合学习模块的特征分类器;和分别表示风格相似本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于合成数据生成和协同优化的域适应行人重识别方法,其特征在于步骤如下:步骤1,数据采集和标注:在252公里的GTA V虚拟世界中选择包括商场、街道、山区和沙漠地带在内的26个不同环境的场景,在每一个场景设置12个不同高度和旋转角度的视角,并随机选定天气状况和时间,让游戏中的2369个人中分别在每一个选择的场景中沿数据采集者预先指定的方向行走并做出随机动作,在每一个场景从设置的12个视角采集人的图像,得到游戏合成的行人图像数据集,再利用Mask RCNN算法对数据集中的每一幅图像进行分割处理,得到去除冗余背景信息后的图像,每幅图像中的人的身份、场景和视角的哈希值,构成图像的标注信息;步骤2,基于合成数据的模型预训练:将步骤1得到的游戏合成行人图像数据集输入到生成对抗网络eSPGAN,输出得到与真实世界采集的数据具有相似图像风格的图像数据集;然后,将得到的合成数据与原行人图像数据输入到特征编码器进行预训练,得到预训练后的特征编码器;所述的特征编码器为iBN

ResNet

50网络;步骤3,多域协同训练:以Market1501数据集作为源域数据,以DukeMTMC

ReID数据集作为目标域数据,对多域协同优化网络模型进行训练,训练次数设置为60,其模型参数按照以下公式进行更新,得到训练好的模型:M
k
(θ)=αM
k
‑1(θ)+(1

α)θ
k
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,M
...

【专利技术属性】
技术研发人员:王琦白思开李学龙
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1