支持超长答案的信息抽取方法技术

技术编号:39791049 阅读:8 留言:0更新日期:2023-12-22 02:28
本说明书实施例提供一种支持超长答案的信息抽取方法

【技术实现步骤摘要】
支持超长答案的信息抽取方法、系统、装置和存储介质


[0001]本说明书涉及机器阅读理解领域,特别涉及一种支持超长答案的信息抽取方法

系统

装置和存储介质


技术介绍

[0002]机器阅读理解是根据问题从文本中自动地抽取答案的任务

目前主流的自然语言处理模型只适合抽取答案小于固定字符长度的数据

然而,在金融

律法等领域的答案抽取任务中,需要抽取的答案字符长度往往是该固定字符长度的几倍或几十倍等

[0003]有鉴于此,希望提出一种支持超长答案的信息抽取方法

系统

装置和存储介质,以有效面对多答案

答案字符超长的情况,提高抽取准确率和效率


技术实现思路

[0004]为了解决难以抽取文本中包含多答案

答案字符超长的问题,本专利技术旨在提出一种支持超长答案的信息抽取方法

系统

装置和存储介质,以有效面对多答案

答案字符超长的情况,提高抽取准确率和效率

[0005]本
技术实现思路
之一提供一种支持超长答案的信息抽取方法,所述方法包括:基于待处理文本,确定段落特征信息,所述待处理文本包括多个文本段落;基于所述段落特征信息,通过信息抽取模型确定目标段落位置,所述信息抽取模型为序列标注模型

[0006]本
技术实现思路
之一提供一种支持超长答案的信息抽取系统,所述系统包括:预处理模块,用于基于待处理文本,确定段落特征信息,所述待处理文本包括多个文本段落;抽取模块,用于基于所述段落特征信息,通过以段落为粒度的信息抽取模型确定目标段落位置,所述信息抽取模型为序列标注模型

[0007]本
技术实现思路
之一提供一种支持超长答案的信息抽取装置,所述装置包括处理器,所述处理器用于执行支持超长答案的信息抽取方法

[0008]本
技术实现思路
之一提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行支持超长答案的信息抽取方法

[0009]本
技术实现思路
至少包括以下有益效果:通过信息抽取模型对段落特征信息进行处理,可以利用机器学习模型的自学习能力,从大量数据中找到规律,获取到段落特征信息与目标段落位置之间的关联关系,提高确定目标段落位置的准确度和效率,有助于从大量的文本内容中抽取特定内容,实现对答案的快速提取

附图说明
[0010]本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述

这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:图1是根据本说明书一些实施例所示的信息抽取系统的示例性模块图;
图2是根据本说明书一些实施例所示的信息抽取方法的示例性流程图;图3是根据本说明书一些实施例所示的确定段落特征信息的示例性示意图;图4是根据本说明书一些实施例所示的确定语义向量的示例性示意图;图5是根据本说明书一些实施例所示的注意力掩码的示例性示意图;图6是根据本说明书一些实施例所示的信息抽取方法的示例性示意图

具体实施方式
[0011]为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍

显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景

除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作

[0012]应当理解,本文使用的“系统”、“装置”、“单元”和
/
或“模块”是用于区分不同级别的不同组件

元件

部件

部分或装配的一种方法

然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语

[0013]如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和
/
或“该”等词并非特指单数,也可包括复数

一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素

[0014]本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作

应当理解的是,前面或后面操作不一定按照顺序来精确地执行

相反,可以按照倒序或同时处理各个步骤

同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作

[0015]图1是根据本说明书一些实施例所示的信息抽取系统的示例性模块图

在一些实施例中,信息抽取系统
100
可以包括预处理模块
110
和抽取模块
120。
在一些实施例中,预处理模块
110
和抽取模块
120
可以由处理器实现

[0016]在一些实施例中,预处理模块
110
可以用于基于待处理文本确定段落特征信息

[0017]在一些实施例中,预处理模块
110
可以基于文本信息,生成语义向量;基于布局信息,生成布局向量;基于语义向量和布局向量,确定段落特征信息

[0018]在一些实施例中,预处理模块
110
可以将多个文本段落拼接,形成拼接段落,所述拼接段落的总字符长度不超过预设字符长度;对拼接段落进行编码,确定位置编码,所述位置编码包括段落分割码和序位码,所述序位码反映所述拼接段落包含的文本段落从开始字符到结束字符的字符位置;将拼接段落和位置编码输入语义提取模型,批量生成至少一个文本段落对应的语义向量

[0019]在一些实施例中,预处理模块
110
可以基于初始文本,通过文本解析模型和
/
或文本解析算法生成待处理文本,所述文本解析模型为机器学习模型

[0020]在一些实施例中,抽取模块
120
可以用于基于段落特征信息,通过以段落为粒度的信息抽取模型确定目标段落位置

[0021]关于各个模块的详细说明可参见图2‑
图4及其相关描述

[0022]需要注意的是,以上对于信息抽取系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内

可以理解,对于本领域的技术人员来说,在了解该本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种支持超长答案的信息抽取方法,其特征在于,所述方法由处理器执行,包括:基于待处理文本,确定段落特征信息,所述待处理文本包括多个文本段落,所述段落特征信息包括所述文本段落的语义向量,所述语义向量的确定方式包括:将所述一个或多个文本段落拼接为拼接段落,所述拼接段落的总字符长度不超过预设字符长度;对所述拼接段落进行编码,确定位置编码,所述位置编码包括段落分割码和序位码,所述序位码反映所述拼接段落包含的文本段落从开始字符到结束字符的字符位置;将所述拼接段落和所述位置编码输入语义提取模型,批量生成所述一个或多个文本段落对应的所述语义向量;基于所述段落特征信息,通过以段落为粒度的信息抽取模型确定目标段落位置,所述信息抽取模型为序列标注模型,所述目标段落位置为根据问题从所述待处理文本中抽取的答案的位置
。2.
如权利要求1所述的方法,其特征在于,所述待处理文本包括所述多个文本段落的文本信息和布局信息;所述基于待处理文本,确定段落特征信息,包括:基于所述文本信息,生成语义向量;基于所述布局信息,生成布局向量;基于所述语义向量和所述布局向量,确定所述段落特征信息
。3.
如权利要求1所述的方法,其特征在于,所述语义提取模型为基于
RoBERTa
模型进行优化处理得到的机器学习模型,所述语义提取模型的注意力掩码包括多个位于掩码矩阵的对角线上的子矩阵,所述子矩阵对应于文本段落
。4.
一种支持超长答案的信息抽取系统,其特征在于,所述系统包括:预处理模块,用于基于待处理文本,确定段落特征信息,所述待处理文本包括多个文本段落,所述段落特征信息包括所述文本段落的语义向量,所述语义向量的确定方式包括:将所述一个或多个文本段落拼接为拼接段...

【专利技术属性】
技术研发人员:何瑞柴懿轩章汗雨张栋敖初杰吴海胖
申请(专利权)人:杭州同花顺数据开发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1