本发明专利技术公开了一种视觉目标检测与标注方法,包括:图像输入步骤,输入待检测图像;候选区域提取步骤,使用选择性搜索算法从所述待检测图像中提取候选窗口作为候选区域;特征描述提取步骤,使用预先训练的大规模卷积神经网络对候选区域进行特征描述并输出该候选区域的特征描述;视觉目标预测步骤,基于所述候选区域的特征描述,利用预先训练的物体检测模型对候选区域进行预测,估计存在所述视觉目标的区域;位置标注步骤,根据所述估计结果对所述视觉目标的位置进行标注。实验表明本发明专利技术与主流弱监督视觉目标检测与标注方法相比,具有更强的正样本挖掘能力和更一般的应用前景,适合于在大规模数据集上的视觉目标检测与自动标注任务。
【技术实现步骤摘要】
【专利摘要】本专利技术公开了,包括:图像输入步骤,输入待检测图像;候选区域提取步骤,使用选择性搜索算法从所述待检测图像中提取候选窗口作为候选区域;特征描述提取步骤,使用预先训练的大规模卷积神经网络对候选区域进行特征描述并输出该候选区域的特征描述;视觉目标预测步骤,基于所述候选区域的特征描述,利用预先训练的物体检测模型对候选区域进行预测,估计存在所述视觉目标的区域;位置标注步骤,根据所述估计结果对所述视觉目标的位置进行标注。实验表明本专利技术与主流弱监督视觉目标检测与标注方法相比,具有更强的正样本挖掘能力和更一般的应用前景,适合于在大规模数据集上的视觉目标检测与自动标注任务。【专利说明】
本专利技术涉及计算机视觉中物体检测
,特别涉及一种基于弱监督学习的视 觉目标检测与标注方法。
技术介绍
图像中物体检测与自动位置标注是计算机视觉领域一个基本问题,也是该领域要 研究的核心问题之一。图像中物体检测就是给定测试图像,回答什么东西在什么地方这一 问题。物体检测在很多其他视觉研究问题中有着广泛的应用,如物体识别、行人检测、人脸 检测、监控场景下的前景检测、运动跟踪、行为识别与分析等。 -般的物体检测需要给定标注好物体外接矩形的数据库,以便使用基于梯度方向 直方图(H0G)、形变部件模型(DPM)等纯有监督的物体检测模型进行模型训练。数字媒体技 术的高速发展,使得图像、视频等数据出现爆炸式增长,互联网的普及则使得人们能够更加 容易地获取到海量的图像、视频数据。面对这样海量的图像数据,目前的物体检测与标准算 法需要面对的一个严峻的问题是大量的数据并没有可用的物体位置标注信息。对海量图像 数据进行位置标注,是一个劳动强度非常高、代价非常高的任务。 相对来说,对整张图像进行类别标注则要容易得多,采用无监督聚类等方法进行 预先过滤也可以实现短时间内构建出较大规模的分类数据库。因而,利用只有分类标注的 图像数据库,实现自动进行物体类别学习与定位,即通过弱监督学习实现视觉目标检测与 标注,有着重要的理论价值和现实意义。 传统的弱监督学习算法中,对于候选区域的选择,一般基于密集采集的候选窗口 算法,窗口数目非常庞大,召回率和重合度都不是很理想。同时,对候选窗口通常采用词包 模型进行描述,词包模型的特征变换层次通常不多,得到的特征可以认为是中层表达,缺少 更高层的信息让模型能够自动从图像中发掘出物体表观模型。 目前弱监督物体检测与标注方面主流的方法包括多示例学习、主题模型、条件随 机场等。传统的很多多示例学习算法由于很大程度上依赖于核学习或基于距离度量的学习 框架,并且使用启发式算法、二次规划、整数规划等复杂度很高的优化算法,很难在大规模 数据集上得到高效应用。 因此,如何改进和优化弱监督学习算法来高效实现海量图像的物体检测与自动位 置标注,是现有技术中的急需解决的一个重要问题。
技术实现思路
有鉴于此,本专利技术的主要目的是提供弱监督场景下的视觉目标检测与标注方法, 可以在只给定图像类别标签的情况下,自动从图像集合中定位感兴趣的目标,也可以对图 像进行物体位置自动标注。 为了达到上述目的,本专利技术提供了以下技术方案: ,其特征在于,包括: toon] 图像输入步骤,输入待检测图像; 候选区域提取步骤,使用选择性搜索算法从所述待检测图像中提取候选窗口作为 候选区域; 特征描述提取步骤,使用预先训练的大规模卷积神经网络对候选区域进行特征描 述并输出该候选区域的特征描述; 视觉目标预测步骤,基于所述候选区域的特征描述,利用预先训练的物体检测模 型对候选区域进行预测,估计存在所述视觉目标的区域; 位置标注步骤,根据所述估计结果对所述视觉目标的位置进行标注。 优选的,所述候选区域提取步骤中的选择性搜索算法进一步包括: 将待检测图像的颜色空间转换为预定空间,利用基于Graph的过分割算法对所述 图像进行分割,不断合并相似度最高的两块区域,得到图像的层次化分割结果,将多个颜色 空间以及多层次的分割区域集合合并以及去重处理后,获得该图像的候选区域集合。 优选的,所述预定颜色空间包括:HSV,RGI,I,Lab。 优选的,所述预先训练的卷积神经网络为:基于物体分类数据库ImageNet 2013 训练的卷积神经网络。 优选的,还包括物体检测模型训练步骤,具体包括: 输入带有图像类别标签的训练集图像; 采用选择性搜索算法从训练集图像中提取候选窗口作为候选区域; 使用预先训练的大规模卷积神经网络对候选区域进行特征描述并输出该候选区 域的特征描述; 基于所述候选区域的特征描述,利用多示例线性支持向量机训练物体表观模型。 优选的,所述使用多示例线性支持向量机训练物体检测模型,包括: 采用MILinear无约束大间隔多示例学习算法对物体检测模型进行训练,其目标 函数为: 【权利要求】1. ,其特征在于,包括: 图像输入步骤,输入待检测图像; 候选区域提取步骤,使用选择性搜索算法从所述待检测图像中提取候选窗口作为候选 区域; 特征描述提取步骤,使用预先训练的大规模卷积神经网络对候选区域进行特征描述并 输出该候选区域的特征描述; 视觉目标预测步骤,基于所述候选区域的特征描述,利用预先训练的物体检测模型对 候选区域进行预测,估计存在所述视觉目标的区域; 位置标注步骤,根据所述估计结果对所述视觉目标的位置进行标注。2. 根据权利要求1所述的方法,其特征在于,所述候选区域提取步骤中的选择性搜索 算法进一步包括: 将待检测图像的颜色空间转换为预定颜色空间,利用基于Graph的过分割算法对所述 图像进行分割,不断合并相似度最高的两块区域,得到图像的层次化分割结果,将多个颜色 空间以及多层次的分割区域集合合并以及去重处理后,获得该图像的候选区域集合。3. 根据权利要求2所述的方法,其特征在于,所述预定颜色空间包括:HSV,RGI,I,Lab。4. 根据权利要求1所述的方法,其特征在于,所述预先训练的卷积神经网络为:基于物 体分类数据库ImageNet 2013训练的卷积神经网络。5. 根据权利要求1所述的方法,其特征在于,还包括物体检测模型训练步骤,具体包 括: 输入带有图像类别标签的训练集图像; 采用选择性搜索算法从训练集图像中提取候选窗口作为候选区域; 使用预先训练的大规模卷积神经网络对候选区域进行特征描述并输出该候选区域的 特征描述; 基于所述候选区域的特征描述,利用多示例线性支持向量机训练物体表观模型。6. 根据权利要求5所述的方法,其特征在于,所述使用多示例线性支持向量机训练物 体检测模型,包括: 采用MILinear无约束大间隔多示例学习算法对物体检测模型进行训练,其目标函数 为其中,一张图像I1通过一个包含d个d维示例的包来描述,其中第j个示例记为若一个包中至少包含有一个示例为正样本,那么该包的标签y1为+1,若所有的示例都是负 样本,那么该包的标签yi为-1,训练集为是训练集 样本数目,w是分类器系数,C是正则项用于控制对错误分类的惩罚,是包 中预测分数最高的示例的索引值。7. 根据权利要求6所述的方本文档来自技高网...
【技术保护点】
一种视觉目标检测与标注方法,其特征在于,包括:图像输入步骤,输入待检测图像;候选区域提取步骤,使用选择性搜索算法从所述待检测图像中提取候选窗口作为候选区域;特征描述提取步骤,使用预先训练的大规模卷积神经网络对候选区域进行特征描述并输出该候选区域的特征描述;视觉目标预测步骤,基于所述候选区域的特征描述,利用预先训练的物体检测模型对候选区域进行预测,估计存在所述视觉目标的区域;位置标注步骤,根据所述估计结果对所述视觉目标的位置进行标注。
【技术特征摘要】
【专利技术属性】
技术研发人员:黄凯奇,任伟强,王冲,张俊格,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。