本发明专利技术公开了一种近重复图像检测方法及装置,涉及图像搜索领域。其中的方法包括:将待检测图片集合中的图片分别输入深度学习网络模型,输出待检测图片集合中的每个图片的全局特征;通过二值哈希算法将待检测图片集合中每个图片的全局特征量化为二值比特串;根据待检测图片集合中各个图片的二值比特串之间的距离,确定待检测图片集合中的近重复图。从而准确、快速地在大规模数据集中检测近重复图。
【技术实现步骤摘要】
近重复图像检测方法与装置
本专利技术涉及图像搜索领域,特别涉及一种近重复图像检测方法与装置。
技术介绍
伴随着互联网的发展产生了越来越多的商品图片。目前用户有获取近重复图(即相近程度小于预设值的图片)的需求。然而图片的特征数据比较复杂,对于动辄拥有网上商城上亿的商品图片这样的大型的数据库来说,检测近重复图是一个难题。现有的图像检测方法通常先检测相似的图片,然后通过设定合理的阈值判定近重复图。其中,多数的图像检测方法依赖于视觉词袋模型。视觉词袋模型提取图片的局部特征,用信息检测与图像检测的常用加权技术TF-IDF(termfrequency-inversedocumentfrequency)进行加权评分,获得相似图片。这种方法由于利用图片的局部特征进行检测,因此误检率比较高,并且检测效率比较低,难以用于大规模数据集的近重复图的检测。
技术实现思路
本专利技术解决的一个技术问题是,寻求一种适用于大规模数据集的近重复图的检测技术。根据本专利技术实施例的一个方面,提供了一种近重复图像检测方法,其特征在于,包括:将待检测图片集合中的图片分别输入深度学习网络模型,输出待检测图片集合中的每个图片的全局特征;通过二值哈希算法将待检测图片集合中每个图片的全局特征量化为二值比特串;根据待检测图片集合中各个图片的二值比特串之间的距离,确定待检测图片集合中的近重复图。在一些实施例中,将待检测图片集合中的图片分别输入深度学习网络模型,输出待检测图片集合中的每个图片的全局特征包括:将待检测图片集合中的图片分别输入GoogleNET网络模型;将GoogleNET网络模型中平均池化averagepooling层输出的信息作为输入图片的全局特征。在一些实施例中,该方法还包括:利用待检测图片集合中的图片的全局特征训练二值哈希算法。在一些实施例中,根据待检测图片集合中各个图片的二值比特串之间的距离,确定待检测图片集合中的近重复图包括:根据图片的全局特征,对待检测图片集合中的各个图片进行聚类;在每个聚类中,计算各个图片的二值比特串之间的距离,并将距离小于预设阈值的图片确定为近重复图。在一些实施例中,根据待检测图片集合中各个图片的二值比特串之间的距离,确定待检测图片集合中的近重复图包括:根据图片的全局特征,对待检测图片集合中的各个图片进行聚类;确定与样本图片的全局特征最接近的聚类中心;计算最接近的聚类中心所对应的聚类中的各个图片的二值比特串与样本图片的二值比特串之间的距离;将距离小于预设阈值的图片确定为样本图片的近重复图。在一些实施例中,根据待检测图片集合中各个图片的二值比特串之间的距离,确定待检测图片集合中的近重复图包括:根据待检测图片集合中各个图片的二值比特串之间的距离,对距离小于预设阈值的图片进行颜色过滤,将颜色相近程度符合预设值的图片确定为近重复图。在一些实施例中,将颜色相近程度符合预设值的图片确定为近重复图包括:将距离符合要求的图片由RGB颜色空间转换为HSV颜色空间;按照像素点的H、S、V的不同取值量化为相应的颜色;统计每种颜色的像素点的占比信息;将各种颜色的像素点的占比差异小于预设值的图片确定为近重复图。根据本专利技术实施例的另一个方面,提供了一种近重复图像检测装置,其特征在于,包括:全局特征确定模块,用于将待检测图片集合中的图片分别输入深度学习网络模型,输出待检测图片集合中的每个图片的全局特征;全局特征量化模块,用于通过二值哈希算法将待检测图片集合中每个图片的全局特征量化为二值比特串;近重复图确定模块,用于根据待检测图片集合中各个图片的二值比特串之间的距离,确定待检测图片集合中的近重复图。在一些实施例中,将全局特征确定模块包括:模型输入单元,用于将待检测图片集合中的图片分别输入GoogleNET网络模型;全局特征确定单元,用于将GoogleNET网络模型中平均池化averagepooling层输出的信息作为输入图片的全局特征。在一些实施例中,装置还包括:二值哈希算法训练模块,用于利用待检测图片集合中的图片的全局特征训练二值哈希算法。在一些实施例中,近重复图确定模块包括:聚类单元,用于根据图片的全局特征,对待检测图片集合中的各个图片进行聚类;距离计算单元,用于在每个聚类中,计算各个图片的二值比特串之间的距离;近重复图确定单元,用于将距离小于预设阈值的图片确定为近重复图。在一些实施例中,近重复图确定模块包括:聚类单元,用于根据图片的全局特征,对待检测图片集合中的各个图片进行聚类;聚类中心确定单元,用于确定与样本图片的全局特征最接近的聚类中心;距离计算单元,用于计算最接近的聚类中心所对应的聚类中的各个图片的二值比特串与样本图片的二值比特串之间的距离;近重复图确定单元,用于将距离小于预设阈值的图片确定为样本图片的近重复图。在一些实施例中,近重复图确定模块包括:距离过滤单元,用于根据待检测图片集合中各个图片的二值比特串之间的距离,过滤出距离小于预设阈值的图片;颜色过滤单元,用于对距离小于预设阈值的图片进行颜色过滤,将颜色相近程度符合预设值的图片确定为近重复图。在一些实施例中,颜色过滤单元包括:颜色空间转换子单元,用于将距离符合要求的图片由RGB颜色空间转换为HSV颜色空间;颜色量化子单元,用于按照像素点的H、S、V的不同取值量化为相应的颜色;信息统计子单元,用于统计每种颜色的像素点的占比信息;近重复图确定子单元,用于将各种颜色的像素点的占比差异小于预设值的图片确定为近重复图。根据本专利技术实施例的又一个方面,提供了一种近重复图像检测装置,其特征在于,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行上述的图像检测方法。本专利技术利用图片的全局特征来检测图片,准确性比较高,并且将图片的全局特征量化为二值比特串,根据二值比特串之间的距离确定近重复图,检测效率比较高。这种准确和快速的检测方法可以适用于大规模数据集的近重复图的检测。通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1示出本专利技术近重复图像检测方法的一个实施例的流程示意图。图2示出本专利技术近重复图像检测方法的另一个实施例的流程示意图。图3A和图3B分别示出本专利技术带有logo的商品图片和去除logo后的商品图片的示意图。图4示出本专利技术近重复图像检测装置的一个实施例的结构示意图。图5示出近重复图像检测装置的另一个实施例的结构示意图。图6示出本专利技术近重复图像检测装置的又一个实施例的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本专利技术及其应用或使用的任何限制。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术中的近重复本文档来自技高网...
【技术保护点】
一种近重复图像检测方法,其特征在于,包括:将待检测图片集合中的图片分别输入深度学习网络模型,输出待检测图片集合中的每个图片的全局特征;通过二值哈希算法将待检测图片集合中每个图片的全局特征量化为二值比特串;根据待检测图片集合中各个图片的二值比特串之间的距离,确定待检测图片集合中的近重复图。
【技术特征摘要】
1.一种近重复图像检测方法,其特征在于,包括:将待检测图片集合中的图片分别输入深度学习网络模型,输出待检测图片集合中的每个图片的全局特征;通过二值哈希算法将待检测图片集合中每个图片的全局特征量化为二值比特串;根据待检测图片集合中各个图片的二值比特串之间的距离,确定待检测图片集合中的近重复图。2.如权利要求1所述的方法,其特征在于,所述将待检测图片集合中的图片分别输入深度学习网络模型,输出待检测图片集合中的每个图片的全局特征包括:将待检测图片集合中的图片分别输入GoogleNET网络模型;将GoogleNET网络模型中平均池化averagepooling层输出的信息作为输入图片的全局特征。3.如权利要求1所述的方法,其特征在于,所述方法还包括:利用待检测图片集合中的图片的全局特征训练所述二值哈希算法。4.如权利要求1所述的方法,其特征在于,所述根据待检测图片集合中各个图片的二值比特串之间的距离,确定待检测图片集合中的近重复图包括:根据图片的全局特征,对待检测图片集合中的各个图片进行聚类;确定与样本图片的全局特征最接近的聚类中心;计算最接近的聚类中心所对应的聚类中的各个图片的二值比特串与样本图片的二值比特串之间的距离;将距离小于预设阈值的图片确定为所述样本图片的近重复图。5.如权利要求1所述的方法,其特征在于,所述根据待检测图片集合中各个图片的二值比特串之间的距离,确定待检测图片集合中的近重复图包括:根据待检测图片集合中各个图片的二值比特串之间的距离,对距离小于预设阈值的图片进行颜色过滤,将颜色相近程度符合预设值的图片确定为近重复图。6.如权利要求5所述的方法,其特征在于,所述将颜色相近程度符合预设值的图片确定为近重复图包括:将距离符合要求的图片由RGB颜色空间转换为HSV颜色空间;按照像素点的H、S、V的不同取值量化为相应的颜色;统计每种颜色的像素点的占比信息;将各种颜色的像素点的占比差异小于预设值的图片确定为近重复图。7.一种近重复图像检测装置,其特征在于,包括:全局特征确定模块,用于将待检测图片集合中的图片分别输入深度学习网络模型,输出待检测图片集合中的每个图片的全局特...
【专利技术属性】
技术研发人员:安山,陈宇,黄志标,汪振华,麻晓珍,翁志,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。