当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于目标框的大尺寸图像自适应裁剪方法和装置制造方法及图纸

技术编号:37480130 阅读:24 留言:0更新日期:2023-05-07 09:20
本发明专利技术公开了一种基于目标框的大尺寸图像自适应裁剪方法和装置,基于包含目标框的训练样本图像和未标注的测试样本图像,从训练样本中分层采样部分数据作为验证样本,使用循环聚类算法提取训练样本图像的目标框特征集合,使用验证样本对目标框特征集合筛选并验证,得到最优的自适应的目标框特征集合,以此作为滑窗平铺裁剪的重叠像素基准,将大图裁剪成多个子图。该方法提出了多尺度融合的特征提取改进算法、新的特征筛选算法及裁剪评价函数,优化了滑窗平铺裁剪算法,一定程度上解决了大尺寸图像裁剪预处理过程中的关键信息丢失,裁剪子图数量多、信息冗余,耗时长的问题。耗时长的问题。耗时长的问题。

【技术实现步骤摘要】
一种基于目标框的大尺寸图像自适应裁剪方法和装置


[0001]本专利技术涉及计算机视觉领域,尤其涉及一种基于目标框的大尺寸图像自适应裁剪方法和装置。

技术介绍

[0002]在遥感图像检测领域,用于网络训练和测试的样本图像是由不同分辨率的仪器采集,图像具有多尺度、大尺寸的特征,例如卫星图像和航空遥感图像。若直接缩放进入目标检测网络,不仅极易导致中小像素尺寸的关键目标的信息丢失,还耗时巨大。因此,首先需要将原始大图裁剪成较小尺寸的子图,再将子图放入网络进行训练或推理。
[0003]目前的大尺寸图像裁剪方法主要分为三类:方法一是基于目标框位置,人工手动裁剪;方法二是直接固定子图尺寸,顺着图像的宽高方向,将原始大图切割成一个个子图;方法三基于方法二,但相邻子图间有像素重叠,且重叠区域较大。对于第一类方法,手动裁剪需要一定的技术门槛,且耗费时间。对于第二类方法,在滑窗切图的过程中,暴力裁剪导致关键目标的像素被分割独立成四块,目标像素的连续性和完整性被破坏,子图中都没有完整的目标信息,导致关键信息的丢失。对于第三类方法,虽然解决了对关键目标像素信息的丢失问题,但因重叠区域较大,导致原始大图被切割成的子图数量增加很多,子图信息冗余,增加了裁剪的耗时及后续网络推理的耗时。

技术实现思路

[0004]本专利技术的目的在于针对现有技术的不足,提供了一种基于目标框的大尺寸图像自适应裁剪方法和装置。
[0005]本专利技术的目的是通过以下技术方案来实现的:一种基于目标框的大尺寸图像自适应裁剪方法,包括以下步骤:(1)获取大尺寸图像集合P,对所述大尺寸图像集合P进行标注,得到矩形框的宽高信息集合(W,H);基于B类关键目标,将大尺寸图像集合P分为B类,每类抽取5%~50%的图像作为大尺寸图像集合P

;(2)基于B类关键目标,将矩形框的宽高信息集合(W,H)分为B个宽高信息集合;对每个宽高信息集合进行过滤,得到B个单类的宽高矩阵;将B个单类的宽高矩阵进行整合,得到所有类的宽高矩阵;随后对B个单类的宽高矩阵以及所有类的宽高矩阵进行循环聚类操作,得到B个单类的宽高基准集合和所有类的宽高基准集合;并对B个单类的宽高基准集合和所有类的宽高基准集合进行整合,得到宽高基准集合A;(3)根据宽高基准集合A,计算得到宽高基准集合A
best
;(4)输入待裁剪图像,若待裁剪图像包含关键目标的宽高信息,获取待裁剪图像的关键目标的平均宽高信息,将平均宽高信息与宽高基准集合A
best
进行匹配,得到与平均宽高信息的欧式距离最小的宽高基准作为待裁剪图像固定的宽高基准,对待裁剪图像进行裁剪处理,得到相同尺寸的多个子图集合;
若待裁剪图像不包含宽高信息,从宽高基准集合A
best
中随机选取宽基准和高基准对待裁剪图像进行裁剪处理,得到相同尺寸的多个子图集合。
[0006]进一步地,所述步骤(1)具体包括以下子步骤:(1.1)从大尺寸图像数据库中选取包括B类关键目标的M幅不同尺度的大尺寸图像集合,对大尺寸图像集合P中的每幅图像中的关键目标进行标注,得到N个被标注的矩形框,得到矩形框的宽高信息集合;其中,P
m
为第m幅大尺寸图像,W
n
为第n个被标注的矩形框的宽,H
n
为第n个被标注的矩形框的高;(1.2)基于B类关键目标,将大尺寸图像集合P分为B类,每类抽取5%

50%的图像作为大尺寸图像集合P


[0007]进一步地,所述步骤(2)具体包括以下子步骤:(2.1)基于B类关键目标,将矩形框的宽高信息集合(W,H)分为B个宽高信息集合;对每个宽高信息集合进行过滤,过滤宽或高小于最小像素过滤值的宽高信息,得到B个单类的宽高矩阵;将B个单类的宽高矩阵进行整合,得到所有类的宽高矩阵;所述最小像素过滤值为1~15像素;(2.2)对B个单类的宽高矩阵分别进行循环聚类操作,得到B个单类的宽高基准集合;(2.3)对所有类的宽高矩阵进行循环聚类操作,得到所有类的宽高基准集合;(2.4)将B个单类的宽高基准集合和所有类的宽高基准集合进行整合,得到宽高基准集合A。
[0008]进一步地,所述循环聚类操作具体包括以下子步骤:(a1)对宽高矩阵进行标准化,得到宽高矩阵标准化数据和宽高矩阵标准化系数;(a2)将宽高矩阵标准化数据循环进行K

means聚类,K

means聚类过程中聚类质心数k由1依次递增,每次增加1;所述宽高矩阵标准化数据为,其中,表示第g个宽高标准化数据,宽高矩阵标准化数据中总共G个宽高标准化数据;(a3)在第k轮K

means聚类中,将宽高矩阵标准化数据分别聚类到k个聚类簇,计算第k轮中每一个聚类簇的聚类质心为,计算公式如下:;其中,表示第k轮中第e个聚类簇的聚类质心,;表示第k轮中第e个聚类簇的宽高矩阵标准化数据的数量;表示第k轮中第e个聚类簇中第f个宽高标准化数据;随后计算任意一个宽高标准化数据与每一个聚类质心的绝对差,并降序排序,得到最小值,并将该宽高标准化数据分到最小值对应的聚类簇中;将所有宽高标准化数据重复该步骤,更新每一个聚类簇得到新的k个聚类簇;
计算第k轮的失真值D
k
,计算公式如下:;其中,表示第k轮中更新后的第e个聚类簇的聚类质心;表示第k轮中更新后的第e个聚类簇的宽高矩阵标准化数据的数量;表示第k轮中更新后的第e个聚类簇中第h个宽高标准化数据;(a4)判断(D
k
‑ꢀ
D
k
‑1)/ D
k
‑1是否小于失真减小阈值,其中,D
k
‑1为第k

1轮的失真值;若小于,则退出循环聚类操作;若大于,则继续步骤(a3)进行第k+1轮K

means聚类;(a5)退出循环聚类操作后,将本轮求得的更新后的k个聚类质心作为聚类质心矩阵乘上步骤(a1)求得的宽高矩阵标准化系数,输出宽高基准集合。
[0009]进一步地,所述步骤(3)具体包括以下子步骤:(3.1)计算得到宽高基准集合A的宽高基准的数量为R,并将宽高基准集合A存入列表A
list
中;(3.2)根据宽高基准集合A进行第p轮循环裁剪处理,将宽高基准集合A聚类,聚类点簇的个数为R

p,求得每一聚类点簇的聚类质心并作为宽高基准集合A
p
存入列表A
list
中;(3.3)对大尺寸图像集合P

中任意一张大尺寸图像进行实际自适应的重叠裁剪,得到张大小为win1*win2的子图;(3.4)对大尺寸图像集合P

中任意一张大尺寸图像进行重叠为0的裁剪,得到张大小为win1*win2的子图;(3.5)计算在第p轮循环裁剪处理中,裁剪大尺寸图像的裁剪评价函数,计算公式如下:;所述的计算公式为;所述的计算公式为;其中,n
o
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于目标框的大尺寸图像自适应裁剪方法,其特征在于,包括以下步骤:(1)获取大尺寸图像集合P,对所述大尺寸图像集合P进行标注,得到矩形框的宽高信息集合(W,H);基于B类关键目标,将大尺寸图像集合P分为B类,每类抽取5%~50%的图像作为大尺寸图像集合P

;(2)基于B类关键目标,将矩形框的宽高信息集合(W,H)分为B个宽高信息集合;对每个宽高信息集合进行过滤,得到B个单类的宽高矩阵;将B个单类的宽高矩阵进行整合,得到所有类的宽高矩阵;随后对B个单类的宽高矩阵以及所有类的宽高矩阵进行循环聚类操作,得到B个单类的宽高基准集合和所有类的宽高基准集合;并对B个单类的宽高基准集合和所有类的宽高基准集合进行整合,得到宽高基准集合A;(3)根据宽高基准集合A,计算得到宽高基准集合A
best
;(4)输入待裁剪图像,若待裁剪图像包含关键目标的宽高信息,获取待裁剪图像的关键目标的平均宽高信息,将平均宽高信息与宽高基准集合A
best
进行匹配,得到与平均宽高信息的欧式距离最小的宽高基准作为待裁剪图像固定的宽高基准,对待裁剪图像进行裁剪处理,得到相同尺寸的多个子图集合;若待裁剪图像不包含宽高信息,从宽高基准集合A
best
中随机选取宽基准和高基准对待裁剪图像进行裁剪处理,得到相同尺寸的多个子图集合。2.根据权利要求1所述的一种基于目标框的大尺寸图像自适应裁剪方法,其特征在于,所述步骤(1)具体包括以下子步骤:(1.1)从大尺寸图像数据库中选取包括B类关键目标的M幅不同尺度的大尺寸图像集合 ,对大尺寸图像集合P中的每幅图像中的关键目标进行标注,得到N个被标注的矩形框,得到矩形框的宽高信息集合;其中,P
m
为第m幅大尺寸图像,W
n
为第n个被标注的矩形框的宽,H
n
为第n个被标注的矩形框的高;(1.2)基于B类关键目标,将大尺寸图像集合P分为B类,每类抽取5%

50%的图像作为大尺寸图像集合P

。3.根据权利要求2所述的一种基于目标框的大尺寸图像自适应裁剪方法,其特征在于,所述步骤(2)具体包括以下子步骤:(2.1)基于B类关键目标,将矩形框的宽高信息集合(W,H)分为B个宽高信息集合;对每个宽高信息集合进行过滤,过滤宽或高小于最小像素过滤值的宽高信息,得到B个单类的宽高矩阵;将B个单类的宽高矩阵进行整合,得到所有类的宽高矩阵;所述最小像素过滤值为1~15像素;(2.2)对B个单类的宽高矩阵分别进行循环聚类操作,得到B个单类的宽高基准集合;(2.3)对所有类的宽高矩阵进行循环聚类操作,得到所有类的宽高基准集合;(2.4)将B个单类的宽高基准集合和所有类的宽高基准集合进行整合,得到宽高基准集合A。4.根据权利要求3所述的一种基于目标框的大尺寸图像自适应裁剪方法,其特征在于,所述循环聚类操作具体包括以下子步骤:(a1)对宽高矩阵进行标准化,得到宽高矩阵标准化数据和宽高矩阵标准化系数;
(a2)将宽高矩阵标准化数据循环进行K

means聚类,K

means聚类过程中聚类质心数k由1依次递增,每次增加1;所述宽高矩阵标准化数据为,其中,表示第g个宽高标准化数据,宽高矩阵标准化数据中总共G个宽高标准化数据;(a3)在第k轮K

means聚类中,将宽高矩阵标准化数据分别聚类到k个聚类簇,计算第k轮中每一个聚类簇的聚类质心为,计算公式如下:;其中,表示第k轮中第e个聚类簇的聚类质心,;表示第k轮中第e个聚类簇的宽高矩阵标准化数据的数量;表示第k轮中第e个聚类簇中第f个宽高标准化数据;随后计算任意一个宽高标准化数据与每一个聚类质心的绝对差,并降序排序,得到最小值,并将该宽高标准化数据分到最小值对应的聚类簇中;将所有宽高标准化数据重复该步骤,更新每一个聚类簇得到新的k个聚类簇;计算第k轮的失真值D
k
,计算公式如下:;其中,表示第k轮中更新后的第e个聚类簇的聚类质心;表示第k轮中更新后的第e个聚类簇的宽高矩阵标准化数据的数量;表示第k轮中更新后的第e个聚类簇中第h个宽高标准化数据;(a4)判断(D
k
‑ꢀ
D
k

1 )/ D
k
‑1是否小于失真减小阈值,其中,D
k
‑1为第k

1轮的失真值;若小于,则退出循环聚类操作;若大于,则继续步骤(a3)进行第k+1轮K

means聚类;(a5)退出循环聚类操作后,将本轮求得的更新后的k个聚类质心作为聚类质心矩阵乘上步骤(a1)求得的宽高矩阵标准化系数,输出宽高基准集合。5.根据权利要求4所述的一种基于目标框的大尺寸图像自适应裁剪方法,其特征在于,所述步骤(3)具体包括以下子步骤:(3.1)计算得到宽高基准集合A的宽高基准的数量为R,并将宽高基准集合A存入列表A
list
中;(3.2)根据宽高基准集合A进行第p轮循环裁剪处理,将宽高基准集合A聚类,聚类点簇的个数为R

p,求得每一聚类点簇的聚类质心并作为宽高基准集合A
p
存入列表A
list
中;(3.3)对大尺寸图像集合P

中任意一张大尺寸图像进行实际自适应的重叠裁剪,得到张大小为win1*win2的子图;
(3.4)对大尺寸图像集合P

中任意一张大尺寸图像进行重叠为0的裁剪,得到张大小为win1*win2的子图;(3.5)计算在第p轮循环裁剪处理中,裁剪大尺寸图像的裁剪评价函数,计算公式如下:;所述的计算公式为;所述的计算公式为;其中,n
o
表示大尺寸图像的包含的矩形框数;表示大尺寸图像的第u个矩形框的面积;表示张子图与大尺寸图像的第u个矩形框的并集部分的面积集合的集合;表示张子图与大尺寸图像的第u个矩形框的并集部分的面积集合的集合;所述的计算公式为;(3.6)大尺寸图像集合P

共包含O张大尺寸图像,对每张大尺寸图像重复步骤(3.3)

步骤(3.5),得到每张大尺寸图像在第p轮循环裁剪处理中的裁剪评价函数,随后计算得到第p轮循环裁剪处理的评价裁剪评价函数J
p
:;将评价裁剪评价函数J
p
作为宽高基准集合A
p
的评价裁剪评价函数,并存入列表J
list
中;(3.7)重复步骤(3.2)

步骤(3.6),直到第R

1轮循环裁剪处理,得到更新完成的列表J
list
;从更新完成的列表J
list
中取出最大的裁剪评价函数,并从列表A
list
中取出最大的裁剪评价函数相对应的宽高基准集合作为宽高基准集合A
best
。6.根据权利要求5所述的一种基于目标框的大尺寸图像自适应裁剪方法,其特征在于,所述步骤(3.3)具体包括以下子步骤:(3.3.1)大尺寸图像的尺寸为W
o
*H
...

【专利技术属性】
技术研发人员:黄智华李超刁博宇王京胡泽辰宫禄齐郑新千
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1