System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于分类内群与离群数据的数据分类方法技术_技高网

用于分类内群与离群数据的数据分类方法技术

技术编号:41294749 阅读:10 留言:0更新日期:2024-05-13 14:44
一种用于分类内群与离群数据的数据分类方法,包括以下步骤:取得多个未标记影像;在所述多个未标记影像中选择一指定内群影像;计算一包括所述多个未标记影像相对于所述指定内群影像的第一相似度分数的相似度矩阵;所述多个未标记影像的每一个根据所述相似度矩阵而被分类至一内群数据集或一离群数据集,以产生所述多个未标记影像的多个内群‑离群预测数据。本发明专利技术所提供的数据分类方法可以避免机器学习模型的训练过程中出现模型偏差、模型复杂性增加、过度拟合、稳定性降低以及异常侦测困难等问题。

【技术实现步骤摘要】

所属中具有通常知识者应当理解,在不脱离本公开文件的范围或精神的情况下,可以对本公开文件的结构进行各种修饰和均等变化。综上所述,凡在以下权利要求的范围内对于本公开文件所做的修饰以及均等变化,都为本公开文件所涵盖的范围。


技术介绍

1、机器学习技术中的离群(outlier)侦测,是一种用于识别数据集中明显偏离常态分布的数据实例的过程。侦测离群在包括医疗保健或工业制程中的医疗预测、诈欺侦测、网络安全、品质控管以及异常侦测的各种应用中至关重要。


技术实现思路

1、本公开的一实施例提供一种数据分类方法,包括以下步骤:取得多个未标记影像;对所述多个未标记影像执行q个预测轮,其中q为一正整数,其中所述q个预测轮中的每一轮包括:在所述多个未标记影像中随机选择多个预设内群影像;计算包括所述多个未标记影像相对于所述多个预设内群影像的多个第一相似度分数的一第一相似度矩阵;以及根据所述第一相似度矩阵,产生关于其中一预测轮中的所述多个未标记影像的多个中途内群-离群预测数据;集合所述q个预测轮中分别产生的所述多个未标记影像的所述多个中途内群-离群预测数据,以在所述多个未标记影像中选择多个集合预测内群影像;计算包括所述多个未标记影像相对于所述多个集合预测内群影像的多个第二相似度分数的一第二相似度矩阵;以及根据第二相似度矩阵,将所述多个未标记影像的每一个分类为一内群数据集或一离群数据集,以产生所述多个未标记影像的多个内群-离群预测数据。

2、本公开的一实施例中,其中关于所述多个未标记影像的所述多个中途内群-离群预测数据是通过以下方法集合:在所有的所述q个预测轮中,选择被分类为一内群的所述多个未标记影像的一部分成为所述多个集合预测内群影像。

3、本公开的一实施例中,其中所述多个第一相似度分数是通过以下方法计算:在从所述多个未标记影像所撷取的多个特征向量以及所述多个预设内群影像之间执行一相似度演算法,以计算所述多个第一相似度分数。

4、本公开的一实施例中,其中所述相似度演算法为一余弦相似度演算法、一欧氏距离相似度演算法、一曼哈顿距离演算法或一汉明距离演算法。

5、本公开的一实施例中,其中所述多个中途内群-离群预测数据是通过以下方法产生:比较所述多个未标记影像的所述多个第一相似度分数与一阈值相似度值;响应于所述多个未标记影像的其中一个所包含的所述多个第一相似度分数高于所述阈值相似度值,将所述多个未标记影像的所述其中一个预测为所述多个中途内群-离群预测数据中的一内群;以及响应于所述多个未标记影像的另外其中一个所包含的所述多个第一相似度分数低于所述阈值相似度值,将所述多个未标记影像的所述另外其中一个预测为所述多个中途内群-离群预测数据中的一离群。

6、本公开的一实施例中,其中所述内群数据集被用以作为训练一机器学习模型的一训练数据,且所述离群数据集不被用以作为所述训练数据。

7、本公开的一实施例中,其中q位于约为10至约为20之间的一范围。

8、本公开的另一实施例提供一种数据分类方法,包括以下步骤:取得多个未标记影像;在所述多个未标记影像中选择一指定内群影像;计算包括所述多个未标记影像相对于所述指定内群影像的多个第一相似度分数的一相似度矩阵;以及根据所述相似度矩阵,将所述多个未标记影像的每一个分类为一内群数据集或一离群数据集,以产生所述多个未标记影像的多个内群-离群预测数据。

9、本公开的另一实施例中,进一步包括:在所述多个未标记影像中选择一指定离群影像;其中所述相似度矩阵包括所述多个未标记影像相对于所述指定离群影像的多个第二相似度分数,并且根据所述相似度矩阵中的所述多个第一相似度分数和所述多个第二相似度分数,分类所述多个未标记影像的每一个。

10、本公开的另一实施例提供一种数据分类方法,包括以下步骤:取得多个未标记影像;对所述多个未标记影像执行q个预测轮,其中q为一正整数,其中所述q个预测轮中的每一轮包括:在所述多个未标记影像中随机选择多个预设内群影像;计算包括所述多个未标记影像相对于所述多个预设内群影像的多个第一相似度分数的一第一相似度矩阵;以及根据所述第一相似度矩阵,产生关于其中一预测轮中的所述多个未标记影像的多个中途内群-离群预测数据;集合所述q个预测轮中分别产生的所述多个未标记影像的所述多个中途内群-离群预测数据,以在所述多个未标记影像中选择多个集合预测内群影像;计算包括所述多个未标记影像相对于所述多个集合预测内群影像的多个第二相似度分数的一第二相似度矩阵;根据所述多个第二相似度矩阵,将所述多个未标记影像的每一个分类为一内群数据集或一离群数据集,以产生所述多个未标记影像的多个第一内群-离群预测数据;显示所述多个未标记影像的所述多个第一内群-离群预测数据的一部分;取得根据所述多个第一内群-离群预测数据修正的一调整输入数据;计算包括所述多个未标记影像相对于所述调整输入数据的多个第三相似度分数的一第三相似度矩阵;以及根据所述第三相似度矩阵将,所述多个未标记影像的每一个分类为所述内群数据集或所述离群数据集,以产生所述多个未标记影像的多个第二内群-离群预测数据。

11、应所述理解的是,前述的一般性描述和下列具体说明仅仅是示例性,旨在提供对本公开文件的进一步解释。

本文档来自技高网...

【技术保护点】

1.一种数据分类方法,其特征在于,包括:

2.如权利要求1所述的数据分类方法,其特征在于,其中关于所述多个未标记影像的所述多个中途内群-离群预测数据是通过以下方法集合:

3.如权利要求1所述的数据分类方法,其特征在于,其中所述多个第一相似度分数是通过以下方法计算:

4.如权利要求3所述的数据分类方法,其特征在于,其中所述相似度演算法为一余弦相似度演算法、一欧氏距离相似度演算法、一曼哈顿距离演算法或一汉明距离演算法。

5.如权利要求1所述的数据分类方法,其特征在于,其中所述多个中途内群-离群预测数据是通过以下方法产生:

6.如权利要求1所述的数据分类方法,其特征在于,其中所述内群数据集被用以作为训练一机器学习模型的一训练数据,且所述离群数据集不被用以作为所述训练数据。

7.如权利要求1所述的数据分类方法,其特征在于,其中Q位于约为10至约为20之间的一范围。

8.一种数据分类方法,其特征在于,包括:

9.如权利要求8所述的数据分类方法,其特征在于,进一步包括:

10.一种数据分类方法,其特征在于,包括:

...

【技术特征摘要】

1.一种数据分类方法,其特征在于,包括:

2.如权利要求1所述的数据分类方法,其特征在于,其中关于所述多个未标记影像的所述多个中途内群-离群预测数据是通过以下方法集合:

3.如权利要求1所述的数据分类方法,其特征在于,其中所述多个第一相似度分数是通过以下方法计算:

4.如权利要求3所述的数据分类方法,其特征在于,其中所述相似度演算法为一余弦相似度演算法、一欧氏距离相似度演算法、一曼哈顿距离演算法或一汉明距离演算法。

5.如权利要求1所述的数据分类方法,其特征在...

【专利技术属性】
技术研发人员:蔡承翰彭宇劭
申请(专利权)人:宏达国际电子股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1