本申请涉及图像处理领域,提供一种海量数据智能搜索方法及系统,包括:根据每一像素点在不同K值下的第一影响范围确定像素点的最终影响范围;所述第一影响范围表示像素点的周围像素点受到K值大小的变化情况;基于像素点的最终影响范围确定每一个K值的优选程度,并基于每一个K值的优选程度确定最终K值;利用最终K值对待搜索图像进行聚类,得到聚类结果;基于所述聚类结果从数据库中搜索所述待搜索图像的匹配图像。该方法能够基于待搜索图像中像素点的影响范围确定待搜索图像在聚类时的K值,进而提高待搜索图像的聚类结果的准确性,并进一步提高数据的搜索速度以及搜索精度。一步提高数据的搜索速度以及搜索精度。一步提高数据的搜索速度以及搜索精度。
【技术实现步骤摘要】
一种海量数据智能搜索方法及系统
[0001]本申请涉及图像处理领域,特别是涉及一种海量数据智能搜索方法及系统。
技术介绍
[0002]随着数字化时代的到来,越来越多的信息和数据转换成了电子格式。其中证照作为个人身份、资格等重要信息的承载物,其数量也在快速增长,各类企业、政府部门和组织面临着大量证照管理和检索任务,传统的人工搜索方式已无法满足日益增长的需求。在这种背景下,海量证照智能搜索系统显得尤为重要。
[0003]海量证照数据智能搜索是利用先进的计算机视觉技术,在海量证照数据中高效准确地查找相关证照图像,可以大大提高搜索效率,降低人力成本。然而,海量数据带来更高的计算复杂度和存储压力,因此亟待一种有效的证照数据处理方法提高搜索速度。
[0004]K
‑
Means是一种无监督学习方法,通过将相似数据点聚集在一起,实现数据点的自动分类压缩,可以将原始数据转换为更少的代表性样本来降低计算复杂度,并提高搜索速度。由于证照数据中的分布位置具有较强的规律性以及较强的规范性,K
‑
Means算法中K值的大小决定着K
‑
Means的结果,进而决定着搜索速度以及搜索精度。但是现有算法中并不能准确的得到K值,这使得聚类结果存在误差,进而影响搜索速度以及搜索精度。
技术实现思路
[0005]本专利技术提供一种海量数据智能搜索方法及系统,其方法能够提高聚类结果的准确性,进而提高数据的搜索速度以及搜索精度。
[0006]第一方面,本申请提供一种海量数据智能搜索方法,包括:根据每一像素点在不同K值下的第一影响范围确定待搜索图像中像素点的最终影响范围;所述第一影响范围表示像素点的周围像素点受到K值大小的变化情况;基于像素点的最终影响范围确定每一个K值的优选程度,并基于每一个K值的优选程度确定最终K值;利用最终K值对待搜索图像进行聚类,得到聚类结果;基于所述聚类结果从数据库中搜索所述待搜索图像的匹配图像。
[0007]可选的,根据每一像素点在不同K值下的第一影响范围确定待搜索图像中像素点的最终影响范围,包括:将同一像素点在不同K值下的第一影响范围叠加,以得到待搜索图像中每一像素点的最终影响范围;将同一像素点在不同K值下的第一影响范围叠加之前,还包括:计算不同K值下像素点在不同角度的第二影响范围;将同一K值中同一像素点在不同角度的第二影响范围组合,得到同一像素点在对应K值下的第一影响范围。
[0008]可选的,基于像素点的最终影响范围确定每一个K值的优选程度,并基于每一个K
值的优选程度确定最终K值包括:根据像素点的最终影响范围确定像素点的影响范围程度值;根据像素点的影响范围程度值计算像素点在第l个K值下的信息表征程度;基于像素点在第l个K值下的信息表征程度确定第l个K值的优选程度;将优选程度最大的K值作为所述最终K值。
[0009]可选的,计算不同K值下像素点在不同角度的第二影响范围,包括:利用当前K值对所述待搜索图像进行聚类,得到多个聚类簇,聚类簇为所述聚类簇中每一像素点的连通域;基于当前角度方向上的像素点序列的热力值的方差值、所有角度方向上的像素点序列的热力值的最大值以及当前角度方向上当前像素点到参考像素点之间的欧式距离计算得到当前K值下,当前像素点在当前角度的第二影响范围,从而得到不同K值下像素点在不同角度的第二影响范围;其中,像素点序列为当前角度方向上当前像素点到参考像素点之间的像素点组成的序列,所述参考像素点为当前像素点所在连通域的连通域边缘像素点。
[0010]可选的,根据像素点的最终影响范围确定像素点的影响范围程度值,包括:基于当前像素点的最终影响范围中像素点的数量、当前像素点在当前K值下的第一影响范围中像素点的数量以及K值的数量计算确定当前像素点的影响范围程度值。
[0011]可选的,根据像素点的影响范围程度值计算像素点在第l个K值下的信息表征程度,包括:基于不同的连通域的连续变化程度确定第一分布因子,所述第一分布因子表征当前像素点的在不同K值下的所在连通域的分布的连续程度;基于当前像素点的最终影响范围内连通域的离散程度确定第二分布因子,第二分布因子表征当前像素点的在不同K值下的与其他连通域的分布的区分程度:基于当前像素点的影响范围程度、第一分布因子和第二分布因子计算像素点在第l个K值下的信息表征程度。
[0012]可选的,基于不同的连通域的连续变化程度确定第一分布因子,包括:基于各个角度方向上连通域标记序列之间的组合数量、第w个组合的连通域标记序列之间的距离计算得到所述第一分布因子;其中,连通域的标记序列为标记每一像素点所属的连通域后得到的;两个不同角度方向上的连通域标记序列为一个组合;其中,所述第一分布因子的计算方式为:式中,表示各个角度方向上连通域标记序列之间的组合数量;和表示第个组合的第一个角度方向上的连通域标记序列和第二个角度方向的连通域标记序列;表示第个组合的第一个角度方向上的连通域标记序列和第二个角度方向
的连通域标记序列之间的距离,表示以自然常数为底数的指数函数。
[0013]可选的,基于当前像素点的最终影响范围内连通域的离散程度确定第二分布因子,包括:基于当前像素点的最终影响范围内不同类别连通域的组合数量、不同类别连通域组合中其中一个连通域中像素点占最终影响范围内所有像素点个数的比例、当前像素点的最终影响范围中第q个不同类别连通域组合中其中一个连通域的像素点的灰度值均值、当前像素点的最终影响范围中像素点的灰度值均值计算第二分布因子;其中,所述第二分布因子的计算方式为:式中,表示第个像素点的最终影响范围内不同类别的连通域的组合数量;表示第个不同类别连通域组合的其中一个连通域的像素点占最终影响范围内所有像素点个数的比例;表示第个像素点的最终影响范围中第个不同类别连通域组合的其中一个连通域的像素点的灰度值均值;表示第个像素点的最终影响范围像素点的灰度值均值;表示以自然常数为底数的指数函数。
[0014]可选的,基于像素点在第l个K值下的信息表征程度确定第l个K值的优选程度,包括:基于待搜索图像中像素点的数量、当前像素点的热力值、当前像素点在第l个K值下的信息表征程度计算得到第l个K值的优选程度。
[0015]第二方面,本申请提供一种海量数据智能搜索系统,包括:范围计算模块,用于根据每一像素点在不同K值下的第一影响范围确定像素点的最终影响范围;所述第一影响范围表示像素点的周围像素点受到K值大小的变化情况;K值确定模块,用于基于像素点的最终影响范围确定每一个K值的优选程度,并基于每一个K值的优选程度确定最终K值;聚类模块,用于利用最终K值对待搜索图像进行聚类,得到聚类结果;搜索模块,用于基于所述聚类结果从数据库中搜索所述待搜索图像的匹配图像。
[0016]本申请的有益效果,区别于现有技术,本申请的一种海量数据智能搜索方法及系统,包括:根据每一像素点在不同K值下的第一影响范围确定像素点的最终影响范围;所述第一影响范围表示像素点的周围像素点受到K值大小的变化情况;基于像素点的本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种海量数据智能搜索方法,其特征在于,包括:根据每一像素点在不同K值下的第一影响范围确定待搜索图像中像素点的最终影响范围;所述第一影响范围表示像素点的周围像素点受到K值大小的变化情况;基于像素点的最终影响范围确定每一个K值的优选程度,并基于每一个K值的优选程度确定最终K值;利用最终K值对待搜索图像进行聚类,得到聚类结果;基于所述聚类结果从数据库中搜索所述待搜索图像的匹配图像。2.根据权利要求1所述的一种海量数据智能搜索方法,其特征在于,根据每一像素点在不同K值下的第一影响范围确定待搜索图像中像素点的最终影响范围,包括:将同一像素点在不同K值下的第一影响范围叠加,以得到待搜索图像中每一像素点的最终影响范围;将同一像素点在不同K值下的第一影响范围叠加之前,还包括:计算不同K值下像素点在不同角度的第二影响范围;将同一K值中同一像素点在不同角度的第二影响范围组合,得到同一像素点在对应K值下的第一影响范围。3.根据权利要求1所述的一种海量数据智能搜索方法,其特征在于,基于像素点的最终影响范围确定每一个K值的优选程度,并基于每一个K值的优选程度确定最终K值包括:根据像素点的最终影响范围确定像素点的影响范围程度值;根据像素点的影响范围程度值计算像素点在第l个K值下的信息表征程度;基于像素点在第l个K值下的信息表征程度确定第l个K值的优选程度;将优选程度最大的K值作为所述最终K值。4.根据权利要求2所述的一种海量数据智能搜索方法,其特征在于,计算不同K值下像素点在不同角度的第二影响范围,包括:利用当前K值对所述待搜索图像进行聚类,得到多个聚类簇,聚类簇为所述聚类簇中每一像素点的连通域;基于当前角度方向上的像素点序列的热力值的方差值、所有角度方向上的像素点序列的热力值的最大值以及当前角度方向上当前像素点到参考像素点之间的欧式距离计算得到当前K值下,当前像素点在当前角度的第二影响范围,从而得到不同K值下像素点在不同角度的第二影响范围;其中,像素点序列为当前角度方向上当前像素点到参考像素点之间的像素点组成的序列,所述参考像素点为当前像素点所在连通域的连通域边缘像素点。5.根据权利要求3所述的一种海量数据智能搜索方法,其特征在于,根据像素点的最终影响范围确定像素点的影响范围程度值,包括:基于当前像素点的最终影响范围中像素点的数量、当前像素点在当前K值下的第一影响范围中像素点的数量以及K值的数量计算确定当前像素点的影响范围程度值。6.根据权利要求3所述的一种海量数据智能搜索方法,其特征在于,根据像素点的影响范围程度值计算像素点在第l个K值下的信息表征程度,包括:基于不同的连通域的连续变化程度确定第一分布因子,所述第一分布因子表征当前像素点的在不同K值下的所在连通域的分布的连续程度;
基于当前像素点的...
【专利技术属性】
技术研发人员:王伟,赵一新,殷方勇,李晓杰,李晓彤,
申请(专利权)人:山东省大数据中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。