System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及图像档案处理的,具体而言,涉及一种档案合并方法及系统、电子设备和存储介质。
技术介绍
1、图片档案数据库是一种用于管理和存储图像数据的数据库,其包含大量图片数据及相关信息,主要用于图像识别和分析等应用。
2、目前一般通过聚类技术对大量图片数据进行数据处理,通过提取图片关键信息进行图片档案数据的分类管理,以形成相应的档案(如人脸图片档案、车辆图片档案或动植物图片档案等)。
3、但本申请的专利技术人发现,由于聚类算法是基于图片结构化信息进行构图的,因为存在不同的照片角度,可能会使得同一目标物形成多个档案,而产生分裂档案;以及由于聚类算法采用的数据量较大,基于时间或空间对图片数据进行分批处理时,也会产生分裂档案的问题。
4、分裂档案会使得图片档案的召回率降低,从而影响图片档案数据库后续的终端应用;以及分裂档案也会造成冗余档案管理,为数据档案管理带来管理负担。
5、目前对于分裂档案的档案合并方法一般是根据预先训练的相似度网络模型计算相似度,以将相似的分裂档案进行合并。但专利技术人发现,该档案合并方法并未对分裂档案中的样本进行双向相似度验证,存在计算资源大、档案合并精度较低的问题。
技术实现思路
1、本申请提供了一种档案合并方法及系统、电子设备和存储介质,用于解决目前分裂档案的档案合并方法存在的计算资源大、档案合并精度较低的问题。
2、根据本申请的一方面,本申请提供了一种档案合并方法。所述档案合并方法包括:在预设图片档案中
3、根据本申请的一些实施例,基于相似度确定每个样本所对应的相似样本阵列包括:基于相似度,选取预设数量的与样本相似的相似样本;根据预设数量的相似样本和相似度,构建相似样本阵列;其中,在相似样本阵列中,预设数量的相似样本根据相似样本与样本的相似度依次排列。
4、根据本申请的一些实施例,预设阈值与预设配置系数为反比关系,每一个预设配置系数对应一个预设阈值;其中,预设配置系数的取值范围为1≤α≤k,α为预设配置系数,α为大于等于1的正整数,k为第一目标数量;遍历相似样本阵列,若确定出两个预设图片档案中均存在至少第二目标数量的目标样本,则判定两个预设图片档案为相似档案包括:遍历相似样本阵列;确定出两个预设图片档案均存在至少第二目标数量的目标样本,目标样本与两个预设图片档案中的另一预设图片档案中样本的相似度大于第一预设阈值,则确定两个预设图片档案为第一预设阈值所对应的子集相似档案;遍历所有的预设阈值,以得到至少两个子集相似档案;对至少两个子集相似档案取并集,以得到相似档案。
5、根据本申请的一些实施例,在遍历相似样本阵列,若两个预设图片档案中均存在至少第二目标数量的目标样本,则判定两个预设图片档案为相似档案之后,档案合并方法还包括:确定两个预设图片档案之外存在第三预设图片档案与两个预设图片档案中任意一个为相似档案,则确定第三预设图片档案与两个预设图片档案均为相似档案。
6、根据本申请的另一方面,本申请提供了一种档案合并系统。所述档案合并系统包括样本处理模块、相似度计算模块、相似档案处理模块和相似档案合并模块。样本处理模块在预设图片档案中获取第一目标数量的样本,以及将在至少两个预设图片档案中获取的所有样本构建为样本组;相似度计算模块确定每个样本与样本组中的其它样本之间的相似度;相似档案处理模块基于相似度确定每个样本所对应的相似样本阵列;以及相似档案处理模块遍历相似样本阵列,若两个预设图片档案中均存在至少第二目标数量的目标样本,则判定两个预设图片档案为相似档案,其中,目标样本与两个预设图片档案中的另一预设图片档案中的样本的相似度大于预设阈值,预设阈值为浮动变化阈值且与第一目标数量相关;相似档案合并模块合并相似档案。
7、根据本申请的一些实施例,相似档案处理模块基于相似度,选取预设数量的与样本相似的相似样本,以及根据预设数量的相似样本和相似度,构建相似样本阵列;其中,在相似样本阵列中,预设数量的相似样本根据相似样本与样本的相似度依次排列。
8、根据本申请的一些实施例,预设阈值与预设配置系数为反比关系,每一个预设配置系数对应一个预设阈值;其中,预设配置系数的取值范围为1≤α≤k,α为预设配置系数,α为大于等于1的正整数,k为第一目标数量;相似档案处理模块遍历相似样本阵列;相似档案处理模块确定出两个预设图片档案均存在至少第二目标数量的目标样本,目标样本与两个预设图片档案中的另一预设图片档案中样本的相似度大于第一预设阈值,则确定两个预设图片档案为第一预设阈值所对应的子集相似档案;相似档案处理模块遍历所有的预设阈值,以得到至少两个子集相似档案;相似档案处理模块对至少两个子集相似档案取并集,以得到相似档案。
9、根据本申请的一些实施例,相似档案处理模块确定两个预设图片档案之外存在第三预设图片档案与两个预设图片档案中任意一个为相似档案,则确定第三预设图片档案与两个预设图片档案均为相似档案。
10、根据本申请的又一方面,本申请还提供了一种电子设备。电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器,能够实现如上文所述的档案合并方法。
11、根据本申请的又一方面,本申请还提供了一种非易失性计算机可读存储介质。该存储介质上存储有计算机程序,该计算机程序能够实现如上文所述的档案合并方法。
12、本申请通过在预设图片档案中抽取预设数量的样本,根据样本之间的相似度构建相似样本阵列,通过交叉验证的方式,对至少两个预设图片档案基于相似样本阵列进行双向相似验证,从而得到相似档案。
13、本申请具有计算资源需求小、计算简单和相似度验证精度高的特点,可以快速实现高精度的相似档案的判断和合并,以有效的降低档案分裂率,从而为后续的档案管理或产品应用提供有效支持。
本文档来自技高网...【技术保护点】
1.一种档案合并方法,其特征在于,包括:
2.根据权利要求1所述的档案合并方法,其特征在于,所述基于所述相似度确定每个所述样本所对应的相似样本阵列包括:
3.根据权利要求1所述的档案合并方法,其特征在于,所述预设阈值与预设配置系数为反比关系,每一个所述预设配置系数对应一个预设阈值;
4.根据权利要求1所述的档案合并方法,其特征在于,所述在遍历所述相似样本阵列,若两个所述预设图片档案中均存在至少第二目标数量的目标样本,则判定所述两个预设图片档案为相似档案之后,所述档案合并方法还包括:
5.一种档案合并系统,其特征在于,包括:
6.根据权利要求5所述的档案合并系统,其特征在于,所述相似档案处理模块基于所述相似度,选取预设数量的与所述样本相似的相似样本,以及根据所述预设数量的相似样本和所述相似度,构建所述相似样本阵列;
7.根据权利要求5所述的档案合并系统,其特征在于,所述预设阈值与预设配置系数为反比关系,每一个所述预设配置系数对应一个预设阈值;
8.根据权利要求5所述的档案合并系统,其特征在于,所述相
9.一种电子设备,其特征在于,包括:
10.一种非易失性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序实现如权利要求1-4任一所述的档案合并方法。
...【技术特征摘要】
1.一种档案合并方法,其特征在于,包括:
2.根据权利要求1所述的档案合并方法,其特征在于,所述基于所述相似度确定每个所述样本所对应的相似样本阵列包括:
3.根据权利要求1所述的档案合并方法,其特征在于,所述预设阈值与预设配置系数为反比关系,每一个所述预设配置系数对应一个预设阈值;
4.根据权利要求1所述的档案合并方法,其特征在于,所述在遍历所述相似样本阵列,若两个所述预设图片档案中均存在至少第二目标数量的目标样本,则判定所述两个预设图片档案为相似档案之后,所述档案合并方法还包括:
5.一种档案合并系统,其特征在于,包括:
6.根据权利要求5所述的档案合并系统,其特征在于,所述相似档案处理模块基于所述相似度,选...
【专利技术属性】
技术研发人员:田贤材,谢友平,
申请(专利权)人:深圳云天励飞技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。