文本表格中答案文本的抽取方法及装置制造方法及图纸

技术编号:33921973 阅读:21 留言:0更新日期:2022-06-25 21:10
本发明专利技术提供一种文本表格中答案文本的抽取方法及装置,其中,该方法包括:提取待处理的文本数据中的表格,并获取问题文本对应的问题文本向量;获取单元格的坐标对应的单元格坐标向量和单元格中的文本对应的单元格文本向量,拼接为单元格拼接向量;将单元格拼接向量输入索引识别模型,确定索引单元格和非索引单元格;将非索引单元格的单元格拼接向量以及位于非索引单元格左边和上方的各索引单元格的单元格拼接向量输入特征融合模型,获取上下文向量;将上下文向量和问题文本向量拼接后输入答案提取模型,确定答案单元格和非答案单元格,将答案单元格中的文本确定为答案文本。本发明专利技术提供的文本表格中答案文本的抽取方法及装置,能提高抽取精度。能提高抽取精度。能提高抽取精度。

【技术实现步骤摘要】
文本表格中答案文本的抽取方法及装置


[0001]本专利技术涉及计算机
,尤其涉及一种文本表格中答案文本的抽取方法及装置。

技术介绍

[0002]文本表格,指文本数据中的表格。目前,从文本表格中抽取答案文本主要包括四类方法:不考虑表格结构的模版匹配法、不考虑表格结构的判别式法、不考虑表格结构的生成式法和标准二维表格的模版匹配法。
[0003]不考虑表格结构的模版匹配法不考虑表格结构,直接使用分隔符分隔单元格,然后通过正则表达式等人工设计的规则进行匹配抽取,丢失了表格结构信息和单元格之间的逻辑联系,且容易漏匹配。
[0004]不考虑表格结构的判别式法不考虑表格结构,直接展平表格,拼接单元格内容后视作自然语言文本,再按照自然语言理解的判别式任务进行后续处理,但丢失了表格结构信息,且语义不连贯,导致抽取精度低。
[0005]不考虑表格结构的生成式法不考虑表格结构,直接展平表格,拼接单元格内容后通过文本生成模型生成自然语言文本,虽然提高了语义的连贯性,但生成模型本身复杂度高,训练难度大,且存在误差传递,影响抽取精度。
[0006]标准二维表格的模版匹配法只针对标准二维表格,然后通过人工设计的规则进行模版匹配抽取,没有考虑到复杂表格多样的组织结构,容易误匹配或漏匹配。上述复杂结构可以包括:含有合并单元格,以及索引单元格不处于表头而处于表身里等。
[0007]综上,现有格中答案文本的抽取方法存在精度较低的不足。

技术实现思路

[0008]本专利技术提供一种文本表格中答案文本的抽取方法及装置,用以解决现有技术中抽取精度较低的缺陷,实现更高精度地抽取表格中的答案文本。
[0009]本专利技术提供一种文本表格中答案文本的抽取方法,包括:
[0010]提取待处理的文本数据中的表格,并获取问题文本对应的问题文本向量;
[0011]获取所述表格中每一单元格的坐标对应的单元格坐标向量和所述每一单元格中的文本对应的单元格文本向量,并拼接为所述每一单元格的单元格拼接向量;
[0012]分别将每一所述单元格的单元格拼接向量输入索引识别模型,对各所述单元格进行分类,确定各所述单元格中的索引单元格和非索引单元格;
[0013]对于每一非索引单元格,将所述每一非索引单元格的单元格拼接向量,以及位于所述每一非索引单元格左边和上方的各索引单元格的单元格拼接向量输入特征融合模型,进行特征融合,获取所述每一非索引单元格的上下文向量;
[0014]分别将每一所述非索引单元格的上下文向量和所述问题文本向量拼接后输入答案提取模型,对各所述非索引单元格进行分类,确定各所述非索引单元格中的答案单元格
和非答案单元格,并将所述答案单元格中的文本确定为所述问题文本对应的答案文本。
[0015]根据本专利技术提供的一种文本表格中答案文本的抽取方法,所述获取所述表格中每一单元格的坐标对应的单元格坐标向量,包括:
[0016]获取所述表格中各单元格的坐标;
[0017]对于每一单元格,将所述每一单元格的坐标输入坐标特征提取模型,对所述每一单元格的坐标进行向量化表示,获得所述坐标特征提取模型输出的所述每一单元格的坐标对应的单元格坐标向量。
[0018]根据本专利技术提供的一种文本表格中答案文本的抽取方法,所述对于每一非索引单元格,将所述每一非索引单元格的单元格拼接向量,以及位于所述每一非索引单元格左边和上方的各索引单元格的单元格拼接向量输入特征融合模型,进行特征融合,获取所述每一非索引单元格的上下文向量,包括:
[0019]基于所述每一非索引单元格的坐标和各索引单元格的坐标,确定位于所述每一非索引单元格左边和上方的各索引单元格;
[0020]将所述每一非索引单元格的单元格拼接向量,以及位于所述每一非索引单元格左边和上方的各索引单元格的单元格拼接向量输入特征融合模型,进行特征融合,获取所述每一非索引单元格的上下文向量。
[0021]根据本专利技术提供的一种文本表格中答案文本的抽取方法,所述获取问题文本对应的问题文本向量,包括:
[0022]将所述问题文本输入问题文本特征提取模型,对所述问题文本进行向量化表示,获得所述问题文本特征提取模型输出的所述问题文本对应的问题文本向量。
[0023]根据本专利技术提供的一种文本表格中答案文本的抽取方法,获取所述每一单元格中的文本对应的单元格文本向量,包括:
[0024]将所述每一单元格中的文本输入单元格文本特征提取模型,对所述每一单元格中的文本进行向量化表示,获得所述单元格文本特征提取模型输出的所述每一单元格中的文本对应的单元格文本向量。
[0025]根据本专利技术提供的一种文本表格中答案文本的抽取方法,所述提取待处理的文本数据中的表格,并获取问题文本对应的问题文本向量之前,还包括:
[0026]获取所述待处理的文本数据和所述问题文本。
[0027]本专利技术还提供一种文本表格中答案文本的抽取装置,包括:
[0028]文本表示模块,用于提取待处理的文本数据中的表格,并获取问题文本对应的问题文本向量;
[0029]特征拼接模块,用于获取所述表格中每一单元格的坐标对应的单元格坐标向量和所述每一单元格中的文本对应的单元格文本向量,并拼接为所述每一单元格的单元格拼接向量;
[0030]索引识别模块,用于分别将每一所述单元格的单元格拼接向量输入索引识别模型,对各所述单元格进行分类,确定各所述单元格中的索引单元格和非索引单元格;
[0031]特征融合模块,用于对于每一非索引单元格,将所述每一非索引单元格的单元格拼接向量,以及位于所述每一非索引单元格左边和上方的各索引单元格的单元格拼接向量输入特征融合模型,进行特征融合,获取所述每一非索引单元格的上下文向量;
[0032]答案提取模块,用于分别将每一所述非索引单元格的上下文向量和所述问题文本向量拼接后输入答案提取模型,对各所述非索引单元格进行分类,确定各所述非索引单元格中的答案单元格和非答案单元格,并将所述答案单元格中的文本确定为所述问题文本对应的答案文本。
[0033]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文本表格中答案文本的抽取方法。
[0034]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文本表格中答案文本的抽取方法。
[0035]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文本表格中答案文本的抽取方法。
[0036]本专利技术提供的文本表格中答案文本的抽取方法及装置,通过融合单元格的坐标的特征和文本的特征,得到单元格的单元格拼接向量,基于单元格的单元格拼接向量进行分类,确定该单元格是索引单元格还是非索引单元格,通过对非索引单元格的单元格拼接向量以及位于该非索引单元格左边和上方的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本表格中答案文本的抽取方法,其特征在于,包括:提取待处理的文本数据中的表格,并获取问题文本对应的问题文本向量;获取所述表格中每一单元格的坐标对应的单元格坐标向量和所述每一单元格中的文本对应的单元格文本向量,并拼接为所述每一单元格的单元格拼接向量;分别将每一所述单元格的单元格拼接向量输入索引识别模型,对各所述单元格进行分类,确定各所述单元格中的索引单元格和非索引单元格;对于每一非索引单元格,将所述每一非索引单元格的单元格拼接向量,以及位于所述每一非索引单元格左边和上方的各索引单元格的单元格拼接向量输入特征融合模型,进行特征融合,获取所述每一非索引单元格的上下文向量;分别将每一所述非索引单元格的上下文向量和所述问题文本向量拼接后输入答案提取模型,对各所述非索引单元格进行分类,确定各所述非索引单元格中的答案单元格和非答案单元格,并将所述答案单元格中的文本确定为所述问题文本对应的答案文本。2.根据权利要求1所述的文本表格中答案文本的抽取方法,其特征在于,所述获取所述表格中每一单元格的坐标对应的单元格坐标向量,包括:获取所述表格中各单元格的坐标;对于每一单元格,将所述每一单元格的坐标输入坐标特征提取模型,对所述每一单元格的坐标进行向量化表示,获得所述坐标特征提取模型输出的所述每一单元格的坐标对应的单元格坐标向量。3.根据权利要求2所述的文本表格中答案文本的抽取方法,其特征在于,所述对于每一非索引单元格,将所述每一非索引单元格的单元格拼接向量,以及位于所述每一非索引单元格左边和上方的各索引单元格的单元格拼接向量输入特征融合模型,进行特征融合,获取所述每一非索引单元格的上下文向量,包括:基于所述每一非索引单元格的坐标和各索引单元格的坐标,确定位于所述每一非索引单元格左边和上方的各索引单元格;将所述每一非索引单元格的单元格拼接向量,以及位于所述每一非索引单元格左边和上方的各索引单元格的单元格拼接向量输入特征融合模型,进行特征融合,获取所述每一非索引单元格的上下文向量。4.根据权利要求1所述的文本表格中答案文本的抽取方法,其特征在于,所述获取问题文本对应的问题文本向量,包括:将所述问题文本输入问题文本特征提取模型,对所述问题文本进行向量化表示,获得所述问题文本特征提取模型输出的所述问题文...

【专利技术属性】
技术研发人员:利秀明郎凯胡殿明刘雨亮
申请(专利权)人:北京感易智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1