一种基于多粒度与对比学习的异构表格数据分类方法技术

技术编号：43425294 阅读：15 留言：0更新日期：2024-11-27 12:37

本发明专利技术涉及一种基于多粒度与对比学习的异构表格数据分类方法，包括：获取待检测的异构表格数据，将其依次输入训练后的编码器网络和分类器网络，输出特定标签的分类结果；其网络训练过程包括：获取第一训练样本集，对提取样本中各列数据的特征，经过特征分解与合并得到全局特征集；将全局特征集随机划分特征子集，在特征子集下对样本进行聚类，根据聚类结果构建正负样本对；利用该正负样本对迭代优化编码器网络；获取与待检测的异构表格数据相关的且带有特定标签的第二训练样本，对其编码后输入分类器网络，迭代优化分类器网络。本发明专利技术可以提高异构表格数据的分类预测准确性，本发明专利技术中的编码器网络和分类器网络具有更优的鲁棒性和泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于表格数据处理，具体涉及一种基于多粒度与对比学习的异构表格数据分类方法。

技术介绍

1、对比学习已经成为现代人工智能领域的一个关键分支，通常在计算机视觉、自然语言处理等领域表现出色，其性能往往优于或相媲美有监督学习方法。

2、对比学习的核心在于创建一个有区别的嵌入空间，通常通过增强正对的相似性并强调负对的不相似性来实现。正对通常是相同样本的不同增强视图，而负对由不同的样本组成。然而，不同视图的构建涉及特定于领域的数据增强技术，例如旋转、图像域中的拼图以及自然语言处理中的掩码标记。引入这些扰动不仅能够加强相似性信号，还能够强调不同样本之间的差异，从而更好地训练模型。

3、虽然在表格数据领域有关于对比学习的方法，但重点主要集中在模型架构和损失函数设计上的专利技术而对正负样本对的生成的关注较少。当前的方法通常采用破坏样本的一些特征以创建正样本对，并使用不同的样本作为负对，通常忽略不同样本之间的相互作用。

技术实现思路

1、为解决现有的异构表格数据分类不准确的问题，本专利技术申请提出一种基于多粒度与对比学习的异构表格数据分类方法，包括：获取待检测的异构表格数据，将其依次输入训练后的编码器网络f和分类器网络h，所述分类器网络输出特定标签的分类结果；

2、所述编码器网络f和分类器网络h的训练过程包括：

3、获取第一训练样本集，其源自开源的异构表格数据集，第一训练样本集中的样本是异构表格数据中每一行数据；

4、提取样本中各列

5、将全局特征集随机划分为k个互斥的特征子集，在所有特征子集下对样本进行聚类，根据聚类结果构建每个样本的正负样本对；

6、将所述正负样本对输入编码器网络f，编码后输入解码器网络g解码，分别得到正负样本对的特征表示，计算其对比损失，根据对比损失迭代优化编码器网络f和解码器网络g；

7、获取带有特定标签的第二训练样本集，其源自与待检测的异构表格数据相关的数据集；

8、将第二训练样本集输入训练后的编码器网络f得到样本集的特征表示，将其输入分类器网络h预测特定标签值，根据预测标签值和真实标签值计算分类损失，根据分类损失迭代优化分类器，直至分类损失函数收敛。

9、本专利技术的有益效果：本专利技术重点关注构建正对和负对样本的方法。通过的全局与局部多粒度的对比学习方法，通过随机划分特征子集和实施策略性的样本聚类，通过对比学习可以有效地训练以理解表格数据集中样本之间的复杂关系，提供分类预测准确性，另外这样构建正负样本对的方法可以增加模型的鲁棒性。

本文档来自技高网...

【技术保护点】

1.一种基于多粒度与对比学习的异构表格数据分类方法，其特征在于，包括：

2.根据权利要求1所述的一种基于多粒度与对比学习的异构表格数据分类方法，其特征在于，所述异构表格数据是包括多种数据类型的结构化电子表格数据。

3.根据权利要求1所述的基于多粒度对比学习的异构表格数据分类方法，其特征在于，所述第二训练样本集是所述待检测的异构表格数据的历史数据集，该历史数据集已经被标注。

4.根据权利要求1所述的一种基于多粒度与对比学习的异构表格数据分类方法，其特征在于，在提取第一训练样本集中各列数据的特征之前，还包括：

5.根据权利要求1所述的一种基于多粒度与对比学习的异构表格数据分类方法，其特征在于，所述特征分解和合并过程包括：

6.根据权利要求1或5所述的一种基于多粒度与对比学习的异构表格数据分类方法，其特征在于，采用K-Means聚类算法来对特征子集进行聚类。

7.根据权利要求1所述的一种基于多粒度与对比学习的异构表格数据分类方法，其特征在于，所述正负样本对表示为：

8.根据权利要求7所述的一种基于多粒度

...

【技术特征摘要】

1.一种基于多粒度与对比学习的异构表格数据分类方法，其特征在于，包括：

4.根据权利要求1所述的一种基于多粒度与对比学习的异构表格数据分类方法，其特征在于，在提取第一训练样本集中各列数据的特征之前，还包括：<...

【专利技术属性】
技术研发人员：胡峰，朱君豪，于洪，苏祖强，代劲，刘璇，杨星，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人