图像聚类簇质量评估方法、系统、介质及装置制造方法及图纸

技术编号:28451716 阅读:19 留言:0更新日期:2021-05-15 21:14
本发明专利技术属于图像处理技术领域,具体涉及一种图像聚类质量评估方法、系统、介质及装置。本发明专利技术旨在解决如何统一对聚类簇进行质量评估而实现自动纠错以减少错误聚类的低质量簇,进而提升图像处理性能的技术问题。为此目的,本发明专利技术通过为对增量聚类中的待评估的簇,通过遍历结点和对遍历到的结点经向量相似度检索到近邻结点,计算该结点的近邻覆盖率进而获得簇近邻覆盖率,进而淘汰覆盖率低于阈值的簇。如此,通过簇近邻覆盖率淘汰掉质量差的新的或改变的簇,避免了图像处理效率低,浪费资源等缺陷。陷。陷。

【技术实现步骤摘要】
图像聚类簇质量评估方法、系统、介质及装置


[0001]本专利技术属于图像处理的
,具体涉及一种图像聚类簇 质量评估方法、系统、介质及装置。

技术介绍

[0002]在需要进行图像处理的环境和场景,比如人员管理系统、视 频监控系统,往往需要从数据库存储的海量的图像数据样本中获得对应 的目标图像样本,比如对于监控识别人脸来说,视频监控系统采集的人 脸数量一般呈指数增长,形成海量的人脸库。然而,对于大规模的人脸 这类图像目标来说,对图像数据样本的特征库进行逐一比对,计算复杂 度高,因而会先将无标注的要识别的样本进行聚类,以缩小检索和比对 的样本数量,更优针对性的检索,进而能减小算法复杂度、缩减检索时 间。
[0003]其中,聚类是指对无标注的数据进行分类,使得类别相同的 数据尽可能在同一类,不同类别的数据在不同类。其中,增量聚类则是 指对数据分批次进行聚类,使得同一批次内部、不同批次间的数据得以 聚类。增量聚类在安防监控、辅助标注等场景中有着广泛的应用。
[0004]但是,受到环境因素影响,复杂的数据样本分布往往会导致 聚类得到的簇质量较差,大量不同类别的数据样本往往会应为环境/场景 等因素被错误的聚到一起(如戴墨镜或戴帽子的不同人脸被聚到同一簇 中)。
[0005]相应地,本领域需要对现有的图像处理过程中的聚类簇的质 量进行评估并由此纠正错误,从而提升聚类簇的质量、提升整体图像处 理的性能。

技术实现思路

[0006]为了克服上述缺陷,提出了本专利技术,以提供解决或至少部分 解决:如何统一对聚类簇进行质量评估而实现自动纠错,以减少错误聚 类的低质量簇,进而提升图像处理性能的技术问题。本专利技术为解决上述 技术问题提供了一种基于聚类簇质量评估的自动纠错方法、系统、介质 及装置。
[0007]第一方面,本专利技术提供一种图像聚类簇质量评估方法,包括: 对图像数据进行聚类,得到待评估的簇,对所有待评估的簇中每个簇进 行结点遍历,以获得所有待评估的簇的所有结点;通过向量相似度检索 算法获得所述所有结点中每个结点的近邻结点;针对每一待评估的簇, 根据各待评估的簇内每个结点及其相应的近邻结点,获得所述各待评估 的簇的簇近邻覆盖率;将所述各待评估的簇的簇近邻覆盖率与一阈值比 较,确定所述各待评估的簇的质量。
[0008]其中,所述通过向量相似度检索算法获得所述所有结点中每 个结点的近邻结点,具体包括:将所述所有结点中每个结点的特征向量 作为查询向量,在预设的底库向量中进行向量相似度检索,以获得与所 述每个结点的特征向量最相似的k个底库向量;将所述k个底库向量对应 的结点作为所述每个结点的近邻结点,并将所述所有结点相应的所有近 邻
结点建立集合I;其中,所述最相似的k个底库向量为向量相似度检索获 得的相似度分值最大的k个底库向量。
[0009]其中,针对每一待评估的簇,根据各待评估的簇内每个结点 及其相应的近邻结点,获得所述各待评估的簇的簇近邻覆盖率,具体包 括:遍历所述所有待评估的簇,以选定一当前待评估的簇;遍历所述当 前待评估的簇内的全部结点,以选取任一当前结点;获取所述当前结点 相应的近邻结点,计算所述当前结点的近邻覆盖率;将计算的所述当前 待评估的簇内的全部结点的近邻覆盖率取平均值,得到所述当前待评估 的簇的簇近邻覆盖率。
[0010]其中,计算所述当前结点的近邻覆盖率,具体包括:计算所 述当前结点的近邻结点与所述当前结点所在当前待评估的簇内的全部结 点的交集,记交集大小为n;取所述当前结点相应的近邻结点个数与所述 当前结点所在当前待评估的簇内的全部结点个数中的最小值,记最小值 为m;计算所述当前结点的近邻覆盖率为n/m;其中,如果m为0,则所述 当前结点的近邻覆盖率为0。
[0011]其中,对图像数据进行聚类,得到待评估的簇,包括:对所 述图像数据中的新增图像数据进行增量聚类获得新簇;将所述新簇以及 由于插入新增图像数据而发生改变的老簇作为所述所有待评估的簇,并 建立集合C为:
[0012]C={c1,c2,...c
i
,

}
[0013]其中,i为大于等于1的自然数,表示个数,c
i
为第i个待评估 簇;其中,还建立所述所有待评估的簇的所有结点集合N为:
[0014][0015]其中,为属于集合c的第i个结点;
[0016]其中,通过所述向量相似度检索,得到的所述所有结点集合 N的近邻结点集合I及其相应的相似度分值集合D,分别为:
[0017][0018][0019]其中,表示集合N中的第i个结点的第j个近邻结点,j∈ [1,k],k为大于或等于1的自然数;其中,表示集合N中第i个结点与其 第j个近邻结点之间的相似度;
[0020]其中,所述当前待评估的簇记为c:
[0021][0022]其中,为遍历所述当前待评估的簇c后任选的第i个当前 结点;
[0023]其中,从近邻结点集合I中获取第i个当前结点的近邻结点集 合记为I
i
,计算第i个当前结点的近邻覆盖率r,并且,计算簇c中所有的近 邻覆盖率r的平均值作为簇c的簇近邻覆盖率,其中,所述r计算公式为:
[0024][0025]其中,|c∩I
i
|表示第i个当前结点的近邻结点集合I
i
与簇c内的 全部结点的交集
大小n,min(|c|,|I
i
|)表示从所述近邻结点集合I
i
内结点个 数与簇c内的全部结点个数之间选取最小值m。
[0026]其中,将所述各待评估的簇的簇近邻覆盖率与一阈值比较, 确定所述各待评估的簇的质量,具体包括:如果各待评估的簇的簇近邻 覆盖率小于所述阈值,则所述各待评估的簇的质量不合格;将质量不合 格所述各待评估的簇内的全部结点加入下一次需要聚类的图像数据中或 丢弃。
[0027]其中,所述增量聚类采用的算法为K

means、DBSCAN或层 次聚类算法;并且/或者,所述向量相似度检索算法为采用暴力检索、Hash 检索、IVFFlat、IVFPQ、HNSW中的任一种算法;并且/或者,所述向量 相似度采用向量内积计算、L1距离计算、L2距离计算中的任一种方式进 行计算。
[0028]第二方面,本专利技术提供一种图像聚类簇质量评估系统,包括: 结点获取单元,用于对选择的所有待评估的簇中每个簇进行结点遍历, 以获得所有待评估的簇的所有结点;检索单元,用于通过向量相似度检 索算法获得所述所有结点中每个结点的近邻结点;覆盖率获取单元,用 于针对每一待评估的簇,根据各待评估的簇内每个结点及其相应的近邻 结点,获得所述各待评估的簇的簇近邻覆盖率;评估单元,用于将所述 各待评估的簇的簇近邻覆盖率与一阈值比较,确定所述各待评估的簇的 质量。
[0029]其中,所述检索单元具体用于:将所述所有结点中每个结点 的特征向量作为查询向量,在预设的底库向量中进行向量相似度检本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像聚类簇质量评估方法,其特征在于,包括:对图像数据进行聚类,得到待评估的簇,对所有待评估的簇中每个簇进行结点遍历,以获得所有待评估的簇的所有结点;通过向量相似度检索算法获得所述所有结点中每个结点的近邻结点;针对每一待评估的簇,根据各待评估的簇内每个结点及其相应的近邻结点,获得所述各待评估的簇的簇近邻覆盖率;将所述各待评估的簇的簇近邻覆盖率与一阈值比较,确定所述各待评估的簇的质量。2.如权利要求1所述的方法,其特征在于,所述通过向量相似度检索算法获得所述所有结点中每个结点的近邻结点,具体包括:将所述所有结点中每个结点的特征向量作为查询向量,在预设的底库向量中进行向量相似度检索,以获得与所述每个结点的特征向量最相似的k个底库向量;将所述k个底库向量对应的结点作为所述每个结点的近邻结点,并将所述所有结点相应的所有近邻结点建立集合I;其中,所述最相似的k个底库向量为向量相似度检索获得的相似度分值最大的k个底库向量。3.如权利要求1所述的方法,其特征在于,针对每一待评估的簇,根据各待评估的簇内每个结点及其相应的近邻结点,获得所述各待评估的簇的簇近邻覆盖率,具体包括:遍历所述所有待评估的簇,以选定一当前待评估的簇;遍历所述当前待评估的簇内的全部结点,以选取任一当前结点;获取所述当前结点相应的近邻结点,计算所述当前结点的近邻覆盖率;将计算的所述当前待评估的簇内的全部结点的近邻覆盖率取平均值,得到所述当前待评估的簇的簇近邻覆盖率。4.如权利要求3所述的方法,其特征在于,计算所述当前结点的近邻覆盖率,具体包括:计算所述当前结点的近邻结点与所述当前结点所在当前待评估的簇内的全部结点的交集,记交集大小为n;取所述当前结点相应的近邻结点个数与所述当前结点所在当前待评估的簇内的全部结点个数中的最小值,记最小值为m;计算所述当前结点的近邻覆盖率为n/m。5.如权利要求1至4中任一项所述的方法,其特征在于,对图像数据进行聚类,得到待评估的簇,包括:对所述图像数据中的新增图像数据进行增量聚类获得新簇;将所述新簇以及由于插入新增图像数据而发生改变的老簇作为所述所有待评估的簇,并建立集合C为:C={c1,c2,...c
i
,...}其中,i为大于等于1的自然数,表示个数,c
i
为第i个待评估簇;其中,还建立所述所有待评估的簇的所有结点集合N为:其中,为属于集合c的第i个结点;
其中,通过所述向量相似度检索,得到的所述所有结点集合N的近邻结点集合I及其相应的相似度分值集合D,分别为:分别为:其中,表示集合N中第i个结点的第j个近邻结点,j∈[1,k],k为大于或等于1的自然数;其中,表示集合N中所述第i个结点与其第j个近邻结点之间的相似度;其中,所述各待评估的簇记为c:其中,为遍历所述各待评估的簇c后任选的第i个当前结点;其中,从近邻结点集合I中获取第i个当前结点的近邻结点集合记为I
i
,计算第i个当前结点的近邻覆盖率r,并且,计算簇c中所有的近邻覆盖率r的平均值作为簇c的簇近邻覆盖率,其中,所述r计算公式为:其中,|c∩I
i
|表示第i个当前结点的近邻结点集合I
i
与簇c内的全部结点的交集大小n,min(|c|,|I
i
|)表示从所述近邻结点集合I
i
内结点个数与簇c内的全部结点个数之间选取最小值m。6.如权利要求1所述的方法,其特征在于,将所述各待评估的簇的簇近邻覆盖率与一阈值比较,确定所述各待评估的...

【专利技术属性】
技术研发人员:凌英剑田国栋
申请(专利权)人:广州云从鼎望科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1