System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于html语义树的可控性表格重建模型的方法、装置及介质制造方法及图纸_技高网

一种基于html语义树的可控性表格重建模型的方法、装置及介质制造方法及图纸

技术编号:44737500 阅读:0 留言:0更新日期:2025-03-21 18:04
本发明专利技术属于文本处理技术领域,提供了一种基于html语义树的可控性表格重建模型的方法、装置及介质。本发明专利技术通过tr个数预测、层次遍历序列两个任务的加入,在学习阶段可以引入更多的html语法树信息,让模型能充分学习表格html语法树的结构;在预测阶段,通过tr个数预测、层次遍历序列,能对模型的结构进行控制,减少错误行数预测的情况。

【技术实现步骤摘要】

本专利技术属于文本处理,具体地说,是涉及一种基于html语义树的可控性表格重建模型的方法、装置及介质


技术介绍

1、在文档智能的背景下,如何对图片型文档中的数据,特别是表格型数据的自动提取,成为一个重要且困难的问题,这对于情报检索、情报分析领域有重大意义。

2、为了解决这个问题,研究者们尝试使用图片识别模型来解决,例如基于霍夫变换等传统方法对表格的结构和内容进行重建,但是这类方法无法处理无边线表格的情况;后面的研究者尝试使用神经网络模型,并把表格重建任务转化成一个图片到html串的生成问题,利用html串来描述和重建表格结构,但是,由于生成阶段的不可控问题,即使html串在生成过程中出现一个token的错误,也会导致表格结构的整体混乱。


技术实现思路

1、本专利技术的目的在于提供一种基于html语义树的可控性表格重建模型,以解决现有技术所存在的技术问题。

2、为了实现上述目的,本专利技术采取的技术方案如下:

3、一种基于html语义树的可控性表格重建模型的方法,在模型预测阶段包括:

4、编码过程:将输入图片记为x,经过图片编码器进行编码,得到图片的中间表示h;利用图片编码器的输出结果,完成一个表格行数的预测任务,上述过程用公式表示为:

5、

6、解码过程:首先,按照顺序的方式将表格表示出来,即表格语义树的先根遍历序列,简写为:

7、

8、然后,采用层次遍历序列作为第二种遍历序列,对html语义树的语义信息进行额外补充,层次遍历序列为:

9、。

10、在解码过程中,解码出每个单元格的位置信息t,以实现td标签和单元格位置序列的对齐,单元格个数为n,则位置信息序列t表示为:。

11、所述对齐的方法如下:在解码html串时,会产生三种token:table标签、tr标签、td标签,在解码出一个td标签的时候,同时解码出一个单元格位置,使得单元格位置和td标签一一对齐。

12、为了实现上述目的,本专利技术还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行,以实现基于html语义树的可控性表格重建模型的方法。

13、为了实现上述目的,本专利技术还提供了一种基于html语义树的可控性表格重建模型的装置,包括:处理器和存储器;所述存储器用于存储计算机程序;所述处理器与所述存储器相连,用于执行所述存储器存储的计算机程序,以使得所述基于html语义树的可控性表格重建模型的装置执行所述的基于html语义树的可控性表格重建模型的方法。

14、与现有技术相比,本专利技术具备以下有益效果:

15、本专利技术通过tr个数预测、层次遍历序列两个任务的加入,在学习阶段可以引入更多的html语法树信息,让模型能充分学习表格html语法树的结构;在预测阶段,通过tr个数预测、层次遍历序列,能对模型的结构进行控制,减少错误行数预测的情况。

本文档来自技高网...

【技术保护点】

1.一种基于html语义树的可控性表格重建模型的方法,其特征在于,在模型预测阶段包括:

2.根据权利要求1所述的基于html语义树的可控性表格重建模型的方法,其特征在于,在解码过程中,解码出每个单元格的位置信息T,以实现td标签和单元格位置序列的对齐,单元格个数为n,则位置信息序列T表示为:。

3.根据权利要求2所述的基于html语义树的可控性表格重建模型的方法,其特征在于,所述对齐的方法如下:在解码html串时,会产生三种token:table标签、tr标签、td标签,在解码出一个td标签的时候,同时解码出一个单元格位置,使得单元格位置和td标签一一对齐。

4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行,以实现如权利要求1~3中任一项所述的基于html语义树的可控性表格重建模型的方法。

5.一种基于html语义树的可控性表格重建模型的装置,其特征在于,包括:处理器和存储器;所述存储器用于存储计算机程序;所述处理器与所述存储器相连,用于执行所述存储器存储的计算机程序,以使得所述基于html语义树的可控性表格重建模型的装置执行如权利要求1~3中任一项所述的基于html语义树的可控性表格重建模型的方法。

...

【技术特征摘要】

1.一种基于html语义树的可控性表格重建模型的方法,其特征在于,在模型预测阶段包括:

2.根据权利要求1所述的基于html语义树的可控性表格重建模型的方法,其特征在于,在解码过程中,解码出每个单元格的位置信息t,以实现td标签和单元格位置序列的对齐,单元格个数为n,则位置信息序列t表示为:。

3.根据权利要求2所述的基于html语义树的可控性表格重建模型的方法,其特征在于,所述对齐的方法如下:在解码html串时,会产生三种token:table标签、tr标签、td标签,在解码出一个td标签的时候,同时解码出一个单元格位置...

【专利技术属性】
技术研发人员:朱宪超胡刚霍展羽李晶
申请(专利权)人:四川语言桥信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1