基于类内分组来增强检索特征的表格数据预测方法及装置制造方法及图纸

技术编号：42888283 阅读：19 留言：0更新日期：2024-09-30 15:09

本公开提供了一种基于类内分组来增强检索特征的表格数据预测方法及装置，涉及表格数据预测技术领域，用以解决现有技术中由于检索候选集样本数据粒度过细，导致数据预测准确度低下的技术问题。该方法包括：获取原始表格数据，并对原始表格数据进行预处理，得到待预测的表格数据样本集；利用分组算法分别对表格数据样本集进行分组处理；将每个小组融合为一个数据表示，得到小组数据候选集；对小组数据候选集进行特征编码处理，得到小组级特征候选集；融合查询样本的编码特征、小组级上下文特征和样本级上下文特征，得到增强后的查询样本特征；将增强后的查询样本特征输入预测器进行预测，得到与查询样本特征对应的预测结果。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及表格数据预测，更具体地，涉及一种基于类内分组来增强检索特征的表格数据预测方法及装置。

技术介绍

1、表格数据预测是一项基础性技术，对表格形式呈现的数据分析有重要意义。表格数据来源于各行各业，其典型形式之一是基于办公软件中的表格数据，因办公软件的广泛应用，也使得表格数据成为数据世界中重要的组成。对表格数据进行分析预测，可以总结历史数据规律，预测将来数据结果。

2、目前现有技术在表格数据预测方法中通常主要有：结合自然语言模型或知识进行模型训练；特征融合技术，包括不同数据融合、数据与属性融合、数据与专业语义融合、多模态融合、表格结构特征与数据特融合；还有例如使用dnn（深度神经网络模型）和q值函数的跨表查询、表格数据结构化等其他方法，但以上方法由于检索候选集样本数据都为样本级的细粒度数据，容易过拟合，导致数据预测的准确度低下。

技术实现思路

1、有鉴于此，本公开提供了一种基于类内分组来增强检索特征的表格数据预测方法及装置，用以解决现有技术中由于检索候选集样本数据都为样本级的细粒度数据，容易过拟合，导致数据预测准确度低下的技术问题。

2、本公开的一个方面提供了一种基于类内分组来增强检索特征的表格数据预测方法，包括：获取原始表格数据，并对原始表格数据进行预处理，得到待预测的表格数据样本集，其中，表格数据样本集有j类，j为大于0的正整数；分别对各类表格数据样本集进行分组处理，其中，每类表格数据样本集被分为k个小组，k为大于1的正整数；将k个小组中的每个小组融合

3、根据本公开的实施例，获取原始表格数据，并对原始表格数据进行预处理，得到待预测的表格数据样本集包括：按照数据属性将原始表格数据划分为数值型、字符型和二元型；将数值型、字符型和二元型对应的数据按顺序依次拼接，生成特征向量；根据特征向量，生成待预测的表格数据样本集。

4、根据本公开的实施例，分别对各类表格数据样本集进行分组处理包括：利用k均值聚类算法分别对j类表格数据样本集进行聚类处理，其中，将每类表格数据样本集聚类为k个小组，共得到j×k个小组。

5、根据本公开的实施例，基于小组级特征候选集，利用查询样本生成与查询样本的编码特征相似的小组级上下文特征包括：根据查询样本的编码特征从小组级特征候选集中检索出至少一个相似小组级特征；计算查询样本的编码特征与至少一个相似小组级特征之间的第一相似度；根据至少一个相似小组级特征，查询得到对应的至少一个第一标签；基于第一相似度和至少一个第一标签，生成关于查询样本的小组级上下文特征。

6、根据本公开的实施例，基于第一相似度和至少一个第一标签，生成关于查询样本的小组级上下文特征包括：对至少一个第一标签进行编码处理，得到对应的至少一个第一编码特征；利用查询样本的编码特征与至少一个相似小组级特征对至少一个第一编码特征进行偏差矫正；融合第一相似度与偏差矫正后的至少一个第一编码特征，得到关于查询样本的小组级上下文特征。

7、根据本公开的实施例，基于表格数据样本集，利用查询样本生成与查询样本的编码特征相似的样本级上下文特征包括：对数值型、字符型和二元型对应的数据进行编码处理，得到样本级特征候选集；根据查询样本的编码特征从样本级特征候选集中检索出至少一个相似样本级特征；计算查询样本的编码特征与至少一个相似样本级特征之间的第二相似度；根据至少一个相似样本级特征，查询得到对应的至少一个第二标签；基于第二相似度和至少一个第二标签，生成关于查询样本的样本级上下文特征。

8、根据本公开的实施例，基于第二相似度和至少一个第二标签，生成关于查询样本的样本级上下文特征包括：对至少一个第二标签进行编码处理，得到对应的至少一个第二编码特征；利用查询样本的编码特征与至少一个相似样本级特征对至少一个第二编码特征进行偏差矫正；融合第二相似度与偏差矫正后的至少一个第二编码特征，得到关于查询样本的样本级上下文特征。

9、本公开的另一个方面提供了一种基于类内分组来增强检索特征的表格数据预测装置，包括：预处理模块，用于获取原始表格数据，并对原始表格数据进行预处理，得到待预测的表格数据样本集，其中，表格数据样本集有j类，j为大于0的正整数；分组模块，用于分别对各类表格数据样本集进行分组处理，其中，每类表格数据样本集被分为k个小组，k为大于1的正整数；第一融合模块，用于将k个小组中的每个小组融合为一个数据表示，得到包含有j×k个数据表示的小组数据候选集；特征编码模块，用于对小组数据候选集进行特征编码处理，得到包含有j×k个特征表示的小组级特征候选集；第一生成模块，用于基于小组级特征候选集，利用查询样本生成与查询样本的编码特征相似的小组级上下文特征；第二生成模块，用于基于表格数据样本集，利用查询样本生成与查询样本的编码特征相似的样本级上下文特征；第二融合模块，用于融合查询样本的编码特征、小组级上下文特征和样本级上下文特征，得到增强后的查询样本特征；预测模块，用于将增强后的查询样本特征输入预测器进行预测，得到与查询样本特征对应的预测结果。

10、本公开的另一个方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现如上的方法。

11、本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，指令在被执行时用于实现如上的方法。

12、本公开的另一方面提供了一种计算机程序产品，计算机程序产品包括计算机可执行指令，指令在被执行时用于实现如上的方法。

13、与现有技术相比，本公开提供的基于类内分组来增强检索特征的表格数据预测方法及装置，至少具有以下有益效果：

14、（1）本公开提供的基于类内分组来增强检索特征的表格数据预测方法及装置，通过类内分组的思想提供共享知识从而促进表格数据预测。由于数据集中不仅存在相同特征的样本属于同一类，还存在不同特征的样本也可能属于同一类，或者为该类预测提供共同知识，因此，通过类内分组来提取小组特征，然后利用相似小组特征为模型学习提供共同部分的知识，从而促进了模型预测的准确性。

15、（2）本公开提供的基于类内分组来增强检索特征的表格数据预测方法及装置，首次将小组级特征与样本级特征这两个粒度的特征进行融合，增强了特征表示，从而提高了表格数据预测的准确性。

本文档来自技高网...

【技术保护点】

1.一种基于类内分组来增强检索特征的表格数据预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取原始表格数据，并对所述原始表格数据进行预处理，得到待预测的表格数据样本集包括：

3.根据权利要求2所述的方法，其特征在于，所述分别对各类表格数据样本集进行分组处理包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述小组级特征候选集，利用查询样本生成与所述查询样本的编码特征相似的小组级上下文特征包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述第一相似度和所述至少一个第一标签，生成关于所述查询样本的小组级上下文特征包括：

6.根据权利要求2所述的方法，其特征在于，所述基于所述表格数据样本集，利用所述查询样本生成与所述查询样本的编码特征相似的样本级上下文特征包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述第二相似度和所述至少一个第二标签，生成关于所述查询样本的样本级上下文特征包括：

8.一种基于类内分组来增强检索特征的表格数据预测装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有可执行指令，其特征在于，该指令被处理器执行时使处理器执行根据权利要求1~7中任一项所述的方法。

...

【技术特征摘要】

1.一种基于类内分组来增强检索特征的表格数据预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取原始表格数据，并对所述原始表格数据进行预处理，得到待预测的表格数据样本集包括：

3.根据权利要求2所述的方法，其特征在于，所述分别对各类表格数据样本集进行分组处理包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述第一相似度和所述至少一个第一标签，生成关于所述查询样本的小组级上...

【专利技术属性】
技术研发人员：周喜，罗正东，马玉鹏，王轶，韩云飞，王保全，赵凡，王晓博，马小东，
申请(专利权)人：中国科学院新疆理化技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人