一种表格预训练方法和装置制造方法及图纸

技术编号:36191711 阅读:17 留言:0更新日期:2022-12-31 21:08
本发明专利技术公开了一种表格预训练方法和装置,涉及人工智能技术领域。该方法的一具体实施方式包括:获取表格及其对应的文本,根据所述表格及其对应的文本构建预训练任务;其中,所述预训练任务选自以下至少两种:行预训练任务、列预训练任务、文本遮罩实体预训练任务和文本随机遮罩字预训练任务;根据所述预训练任务对语言模型进行联合预训练,从而得到表格预训练语言模型。该实施方式能够解决缺乏对文本与表格进行深度结构化语义交互的建模的技术问题。格进行深度结构化语义交互的建模的技术问题。格进行深度结构化语义交互的建模的技术问题。

【技术实现步骤摘要】
一种表格预训练方法和装置


[0001]本专利技术涉及人工智能
,尤其涉及一种表格预训练方法和装置。

技术介绍

[0002]表格预训练是通过对结构化的表格数据和与之相关的自然语言句子进行的预训练,增强“文本”与“表格”两种多模态数据的对齐。在一系列以表格为基础的下游任务(如自然语言转sql语句,表格事实验证,表格选择,表格分类)中,都需要借助表格预训练来使用表格的结构化信息,以达到更好效果。编码文本和表格信息,避免编码文本与表格时出现不一致的问题,是表格预训练的关键。
[0003]关于表格预训练模型,业界的主流方法是在大规模文本

表格对的训练数据上,对文本和表格分别建立预训练任务,进行联合预训练。即只在联合预训练目标上进行交互,来体现文本与表格之间的关系。但是这样的交互是十分浅层次的,并没有对表格的结构化信息进行建模,会导致编码文本与表格时语义不一致问题的出现。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供一种表格预训练方法和装置,以解决缺乏对文本与表格进行深度结构化语义交互的建模的技术问题。
[0005]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种表格预训练方法,包括:
[0006]获取表格及其对应的文本,根据所述表格及其对应的文本构建预训练任务;其中,所述预训练任务选自以下至少两种:行预训练任务、列预训练任务、文本遮罩实体预训练任务和文本随机遮罩字预训练任务;
[0007]根据所述预训练任务对语言模型进行联合预训练,从而得到表格预训练语言模型。
[0008]可选地,若所述预训练任务为行预训练任务,
[0009]则根据所述表格及其对应的文本构建预训练任务,包括:
[0010]根据所述表格及其对应的文本,确定同时出现在所述表格和所述文本中的目标词,在所述表格中标记出所述目标词所在行的行号,从而构建得到有监督的行预训练任务。
[0011]可选地,若所述预训练任务为列预训练任务,
[0012]则根据所述表格及其对应的文本构建预训练任务,包括:
[0013]根据所述表格及其对应的文本,确定同时出现在所述表格和所述文本中的目标词,在所述表格中标记出所述目标词所在列的行号,从而构建得到有监督的列预训练任务。
[0014]可选地,若所述预训练任务为文本遮罩实体预训练任务,
[0015]则根据所述表格及其对应的文本构建预训练任务,包括:
[0016]将所述表格中的列名和所述列名对应的单元格内容作为实体;
[0017]按照第一预设遮罩比例对出现在所述文本中的实体进行随机遮罩,从而构建得到
无监督的文本遮罩实体预训练任务。
[0018]可选地,若所述预训练任务为文本随机遮罩字预训练任务,
[0019]则根据所述表格及其对应的文本构建预训练任务,包括:
[0020]按照第二预设遮罩比例对所述文本中的字进行随机遮罩,从而构建得到无监督的文本随机遮罩字预训练任务。
[0021]可选地,所述第一预设遮罩比例为10

25%;
[0022]和/或,
[0023]所述第二预设遮罩比例为10

25%。
[0024]可选地,所述语言模型包括依次串联的输入层、嵌入层、编码层和输出层;其中,所述输出层包括多个并联的子输出层,所述子输出层的数量与所述预训练任务的数量相同。
[0025]另外,根据本专利技术实施例的另一个方面,提供了一种表格预训练装置,包括:
[0026]构建模块,用于获取表格及其对应的文本,根据所述表格及其对应的文本构建预训练任务;其中,所述预训练任务选自以下至少两种:行预训练任务、列预训练任务、文本遮罩实体预训练任务和文本随机遮罩字预训练任务;
[0027]训练模块,用于根据所述预训练任务对语言模型进行联合预训练,从而得到表格预训练语言模型。
[0028]可选地,若所述预训练任务为行预训练任务,
[0029]则所述构建模块还用于:
[0030]根据所述表格及其对应的文本,确定同时出现在所述表格和所述文本中的目标词,在所述表格中标记出所述目标词所在行的行号,从而构建得到有监督的行预训练任务。
[0031]可选地,若所述预训练任务为列预训练任务,
[0032]则所述构建模块还用于:
[0033]根据所述表格及其对应的文本,确定同时出现在所述表格和所述文本中的目标词,在所述表格中标记出所述目标词所在列的行号,从而构建得到有监督的列预训练任务。
[0034]可选地,若所述预训练任务为文本遮罩实体预训练任务,
[0035]则所述构建模块还用于:
[0036]将所述表格中的列名和所述列名对应的单元格内容作为实体;
[0037]按照第一预设遮罩比例对出现在所述文本中的实体进行随机遮罩,从而构建得到无监督的文本遮罩实体预训练任务。
[0038]可选地,若所述预训练任务为文本随机遮罩字预训练任务,
[0039]则所述构建模块还用于:
[0040]按照第二预设遮罩比例对所述文本中的字进行随机遮罩,从而构建得到无监督的文本随机遮罩字预训练任务。
[0041]可选地,所述第一预设遮罩比例为10

25%;
[0042]和/或,
[0043]所述第二预设遮罩比例为10

25%。
[0044]可选地,所述语言模型包括依次串联的输入层、嵌入层、编码层和输出层;其中,所述输出层包括多个并联的子输出层,所述子输出层的数量与所述预训练任务的数量相同。
[0045]根据本专利技术实施例的另一个方面,还提供了一种电子设备,包括:
[0046]一个或多个处理器;
[0047]存储装置,用于存储一个或多个程序,
[0048]当所述一个或多个程序被所述一个或多个处理器执行时,所述一个或多个处理器实现上述任一实施例所述的方法。
[0049]根据本专利技术实施例的另一个方面,还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例所述的方法。
[0050]根据本专利技术实施例的另一个方面,还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的方法。
[0051]上述专利技术中的一个实施例具有如下优点或有益效果:因为采用构建行预训练任务、列预训练任务、文本遮罩实体预训练任务和文本随机遮罩字预训练任务中的至少两种预训练任务,并根据预训练任务对语言模型进行联合预训练的技术手段,所以克服了现有技术中缺乏对文本与表格进行深度结构化语义交互的建模的技术问题。本专利技术实施例通过构建行预训练任务、列预训练任务、文本遮罩实体预训练任务和文本随机遮罩字预训练任务中的至少两种预训练任务,强化文本与表格的深度结构化语义交互,从而得到高质量的表格预训练语言模型。
[005本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格预训练方法,其特征在于,包括:获取表格及其对应的文本,根据所述表格及其对应的文本构建预训练任务;其中,所述预训练任务选自以下至少两种:行预训练任务、列预训练任务、文本遮罩实体预训练任务和文本随机遮罩字预训练任务;根据所述预训练任务对语言模型进行联合预训练,从而得到表格预训练语言模型。2.根据权利要求1所述的方法,其特征在于,若所述预训练任务为行预训练任务,则根据所述表格及其对应的文本构建预训练任务,包括:根据所述表格及其对应的文本,确定同时出现在所述表格和所述文本中的目标词,在所述表格中标记出所述目标词所在行的行号,从而构建得到有监督的行预训练任务。3.根据权利要求1所述的方法,其特征在于,若所述预训练任务为列预训练任务,则根据所述表格及其对应的文本构建预训练任务,包括:根据所述表格及其对应的文本,确定同时出现在所述表格和所述文本中的目标词,在所述表格中标记出所述目标词所在列的行号,从而构建得到有监督的列预训练任务。4.根据权利要求1所述的方法,其特征在于,若所述预训练任务为文本遮罩实体预训练任务,则根据所述表格及其对应的文本构建预训练任务,包括:将所述表格中的列名和所述列名对应的单元格内容作为实体;按照第一预设遮罩比例对出现在所述文本中的实体进行随机遮罩,从而构建得到无监督的文本遮罩实体预训练任务。5.根据权利要求1所述的方法,其特征在于,若所述预训练任务为文本随机遮罩字预训练任务,则根据所述表格及其对应的文本构建预训练任务,包括:按照第二预设遮罩比例对所述文本中的字...

【专利技术属性】
技术研发人员:祝天刚陈蒙刘瑞雪袁韶祖戴爱君
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1