图像聚类簇质量评估方法、系统、介质及装置制造方法及图纸

技术编号：28451716 阅读：19 留言：0更新日期：2021-05-15 21:14

本发明专利技术属于图像处理技术领域，具体涉及一种图像聚类质量评估方法、系统、介质及装置。本发明专利技术旨在解决如何统一对聚类簇进行质量评估而实现自动纠错以减少错误聚类的低质量簇，进而提升图像处理性能的技术问题。为此目的，本发明专利技术通过为对增量聚类中的待评估的簇，通过遍历结点和对遍历到的结点经向量相似度检索到近邻结点，计算该结点的近邻覆盖率进而获得簇近邻覆盖率，进而淘汰覆盖率低于阈值的簇。如此，通过簇近邻覆盖率淘汰掉质量差的新的或改变的簇，避免了图像处理效率低，浪费资源等缺陷。陷。陷。

全部详细技术资料下载

【技术实现步骤摘要】
图像聚类簇质量评估方法、系统、介质及装置

[0001]本专利技术属于图像处理的
，具体涉及一种图像聚类簇质量评估方法、系统、介质及装置。

技术介绍

[0002]在需要进行图像处理的环境和场景，比如人员管理系统、视频监控系统，往往需要从数据库存储的海量的图像数据样本中获得对应的目标图像样本，比如对于监控识别人脸来说，视频监控系统采集的人脸数量一般呈指数增长，形成海量的人脸库。然而，对于大规模的人脸这类图像目标来说，对图像数据样本的特征库进行逐一比对，计算复杂度高，因而会先将无标注的要识别的样本进行聚类，以缩小检索和比对的样本数量，更优针对性的检索，进而能减小算法复杂度、缩减检索时间。
[0003]其中，聚类是指对无标注的数据进行分类，使得类别相同的数据尽可能在同一类，不同类别的数据在不同类。其中，增量聚类则是指对数据分批次进行聚类，使得同一批次内部、不同批次间的数据得以聚类。增量聚类在安防监控、辅助标注等场景中有着广泛的应用。
[0004]但是，受到环境因素影响，复杂的数据样本分布往往会导致聚类得到的簇质量较差，大量不同类别的数据样本往往会应为环境/场景等因素被错误的聚到一起(如戴墨镜或戴帽子的不同人脸被聚到同一簇中)。
[0005]相应地，本领域需要对现有的图像处理过程中的聚类簇的质量进行评估并由此纠正错误，从而提升聚类簇的质量、提升整体图像处理的性能。

技术实现思路

[0006]为了克服上述缺陷，提出了本专利技术，以提供解决或至少部分解...

【技术保护点】

【技术特征摘要】
1.一种图像聚类簇质量评估方法，其特征在于，包括：对图像数据进行聚类，得到待评估的簇，对所有待评估的簇中每个簇进行结点遍历，以获得所有待评估的簇的所有结点；通过向量相似度检索算法获得所述所有结点中每个结点的近邻结点；针对每一待评估的簇，根据各待评估的簇内每个结点及其相应的近邻结点，获得所述各待评估的簇的簇近邻覆盖率；将所述各待评估的簇的簇近邻覆盖率与一阈值比较，确定所述各待评估的簇的质量。2.如权利要求1所述的方法，其特征在于，所述通过向量相似度检索算法获得所述所有结点中每个结点的近邻结点，具体包括：将所述所有结点中每个结点的特征向量作为查询向量，在预设的底库向量中进行向量相似度检索，以获得与所述每个结点的特征向量最相似的k个底库向量；将所述k个底库向量对应的结点作为所述每个结点的近邻结点，并将所述所有结点相应的所有近邻结点建立集合I；其中，所述最相似的k个底库向量为向量相似度检索获得的相似度分值最大的k个底库向量。3.如权利要求1所述的方法，其特征在于，针对每一待评估的簇，根据各待评估的簇内每个结点及其相应的近邻结点，获得所述各待评估的簇的簇近邻覆盖率，具体包括：遍历所述所有待评估的簇，以选定一当前待评估的簇；遍历所述当前待评估的簇内的全部结点，以选取任一当前结点；获取所述当前结点相应的近邻结点，计算所述当前结点的近邻覆盖率；将计算的所述当前待评估的簇内的全部结点的近邻覆盖率取平均值，得到所述当前待评估的簇的簇近邻覆盖率。4.如权利要求3所述的方法，其特征在于，计算所述当前结点的近邻覆盖率，具体包括：计算所述当前结点的近邻结点与所述当前结点所在当前待评估的簇内的全部结点的交集，记交集大小为n；取所述当前结点相应的近邻结点个数与所述当前结点所在当前待评估的簇内的全部结点个数中的最小值，记最小值为m；计算所述当前结点的近邻覆盖率为n/m。5.如权利要求1至4中任一项所述的方法，其特征在于，对图像数据进行聚类，得到待评估的簇，包括：对所述图像数据中的新增图像数据进行增量聚类获得新簇；将所述新簇以及由于插入新增图像数据而发生改变的老簇作为所述所有待评估的簇，并建立集合C为：C＝{c1,c2,...c
i
,...}其中，i为大于等于1的自然数，表示个数，c
i
为第i个待评估簇；其中，还建立所述所有待评估的簇的所有结点集合N为：其中，为属于集合c的第i个结点；
其中，通过所述向量相似度检索，得到的所述所有结点集合N的近邻结点集合I及其相应的相似度分值集合D，分别为：分别为：其中，表示集合N中第i个结点的第j个近邻结点，j∈[1,k]，k为大于或等于1的自然数；其中，表示集合N中所述第i个结点与其第j个近邻结点之间的相似度；其中，所述各待评估的簇记为c：其中，为遍历所述各待评估的簇c后任选的第i个当前结点；其中，从近邻结点集合I中获取第i个当前结点的近邻结点集合记为I
i
，计算第i个当前结点的近邻覆盖率r，并且，计算簇c中所有的近邻覆盖率r的平均值作为簇c的簇近邻覆盖率，其中，所述r计算公式为：其中，|c∩I
i
|表示第i个当前结点的近邻结点集合I
i
与簇c内的全部结点的交集大小n，min(|c|,|I
i
|)表示从所述近邻结点集合I
i
内结点个数与簇c内的全部结点个数之间选取最小值m。6.如权利要求1所述的方法，其特征在于，将所述各待评估的簇的簇近邻覆盖率与一阈值比较，确定所述各待评估的...

【专利技术属性】
技术研发人员：凌英剑，田国栋，
申请(专利权)人：广州云从鼎望科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人