一种二维表格数据多模态模型的设计和训练方法技术

技术编号：44250377 阅读：13 留言：0更新日期：2025-02-11 13:46

本发明专利技术公开了一种二维表格数据多模态模型的设计和训练方法。本发明专利技术首先设计二维表格数据多模态模型，其包括表格表征模块，所述表格表征模块由多个串行的双向注意力模块组成；通过所述双向注意力模块处理使得表格表征词嵌入集能够与其它相关单元格交互，捕获全局结构化表格语义；然后预训练表格表征模块，使用大量原始表格数据来训练表格表征模块，使其能够输出准确的表格表征信息；最后对表格表征模块和大语言模型解码器进行对齐训练，采用表格表征模块和大语言模型解码器进行联合监督微调。本发明专利技术能实现表格模态与文本模态共同输入大模型进行表格问答、数据分析等生成式任务，有效提升二维表格问答、代码生成等任务的效果和性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于大数据分析和人工智能领域，涉及一种二维表格数据多模态模型的设计和训练方法。

技术介绍

1、大语言模型（llm）在表格任务中的应用越来越广泛，尤其是利用上下文学习。将表格转化为llm可以理解的序列化信息（通常为markdown、html、格式化string、json或者sqlschema等格式），结合在整体表格任务的上下文信息中，用于各种如代码生成、表格问答、表格理解、单元格提取等常见表格任务中，是目前最常见的研究和应用模式。现有技术通过生成自监督的表格结构理解任务，评估了不同表格格式（如json、dfloader、markdown等）和八种噪声操作（如列名重命名、行列随机化等）对llms在基本结构理解任务（如数据查找和表格转换）中的表现。

2、然而，由于二维表格数据字段、规模的不确定性和复杂性，在实际使用中，往往存在以下两点不足：1）不同模型、不同任务场景下，表格序列化输入形式，对任务最终性能影响极大，效果难以稳定；2）宽表（指字段数量超过100）及多表场景下，转化为序列化信息后，上下文长度过大，往往需要简化表格信息（如输入截断、行列抽取等），进一步影响了任务的精度和效果。

技术实现思路

1、本专利技术的目的在于针对现有技术的不足，提供一种二维表格数据多模态模型的设计和训练方法。

2、本专利技术包括如下步骤：

3、步骤一：设计二维表格数据多模态模型

4、所述的二维表格数据多模态模型包括表格表征模块，所述表格表征模块由多个串行的双向注意力模块组成；

5、所述表格表征模块的输入来自于外部的表格，表格表征模块的输出连接表格表征词嵌入集；

6、通过表格表征模块中的所述双向注意力模块处理使得所述表格表征词嵌入集能够与其它相关单元格交互，捕获全局结构化表格语义；

7、步骤二：预训练表格表征模块

8、使用大量原始表格数据来训练表格表征模块，使其能够输出准确的表格表征信息；

9、步骤三：对表格表征模块和大语言模型解码器进行对齐训练

10、采用表格表征模块和大语言模型解码器进行联合监督微调，所述监督微调采用纯表格qa数据，训练损失函数采用监督微调损失。

11、本专利技术的有益效果是：

12、本专利技术设计了一种基于transformer架构的二维表格数据表征网络模块，该模块能够输出二维表格的全局信息表征，统一了表格序列化信息的输入范式，使大语言模型不再对表格序列化信息输入形态过度敏感；由于直接输出统一的表格表征信息到下游大语言模型解码器（llm-decoder），能够有效缓解宽表、多表场景下大语言模型输入的长文本问题。

13、另外本专利技术还提供了一种结合表格语义表征模块自监督基础表格预训练和多模块联合监督微调的二阶段训练方法，相对单一的大语言解码器模型（llm-decoder），能够获得更稳定、优秀的二维表格任务表现，显著提高了大语言模型在二维表格实际应用的可行性和准确性。

本文档来自技高网...

【技术保护点】

1.一种二维表格数据多模态模型的设计和训练方法，其特征在于包括如下步骤：

2.根据权利要求1所述的一种二维表格数据多模态模型的设计和训练方法，其特征在于：还包括文本变换器，用于为每个单元格获取紧凑的表格表征词嵌入集。

3.根据权利要求1或2所述的一种二维表格数据多模态模型的设计和训练方法，其特征在于：还包括适配器，用于生成更完整的表格信息表征。

4.根据权利要求3所述的一种二维表格数据多模态模型的设计和训练方法，其特征在于：步骤一中，每个双向注意力模块交替使用Qformer风格的双向注意力，沿着行和列分别计算交叉注意力，用以捕获表格行列分布属性和行列关系。

5.根据权利要求3所述的一种二维表格数据多模态模型的设计和训练方法，其特征在于：所述适配器在表格列级别聚合单元格内容信息，并将其与文本特征对齐，将具有m行的表格转换为大小为k的固定长度列表示，与大语言模型解码器的嵌入维度相匹配。

6.根据权利要求1所述的一种二维表格数据多模态模型的设计和训练方法，其特征在于：步骤二中，训练任务基于收集的开源数据表格，对批次中的每个开源

7.根据权利要求6所述的一种二维表格数据多模态模型的设计和训练方法，其特征在于：训练过程中，使用对比学习损失，其中正样本对由两个快照中相同的列对应的词嵌入构成。

8.根据权利要求1所述的一种二维表格数据多模态模型的设计和训练方法，其特征在于：步骤三中，所述表格QA数据的输入包含表格的表征信息、代码生成提示词和人类问题三个部分，所述表格QA数据的输出根据提示词的要求，分为python代码和SQL代码两种类型。

9.根据权利要求8所述的一种二维表格数据多模态模型的设计和训练方法，其特征在于：还包括根据所述提示词的要求来输出问题总结陈述。

...

【技术特征摘要】

1.一种二维表格数据多模态模型的设计和训练方法，其特征在于包括如下步骤：

3.根据权利要求1或2所述的一种二维表格数据多模态模型的设计和训练方法，其特征在于：还包括适配器，用于生成更完整的表格信息表征。

4.根据权利要求3所述的一种二维表格数据多模态模型的设计和训练方法，其特征在于：步骤一中，每个双向注意力模块交替使用qformer风格的双向注意力，沿着行和列分别计算交叉注意力，用以捕获表格行列分布属性和行列关系。

5.根据权利要求3所述的一种二维表格数据多模态模型的设计和训练方法，其特征在于：所述适配器在表格列级别聚合单元格内容信息，并将其与文本特征对齐，将具有m行的表格转换为大小为k的固定长度列表示，与大语言模型解码器的嵌入维度相...

【专利技术属性】
技术研发人员：赵俊博，陈刚，查良瑜，王皓波，伍赛，
申请(专利权)人：浙江大学计算机创新技术研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人