【技术实现步骤摘要】
支持超长答案的信息抽取方法、系统、装置和存储介质
[0001]本说明书涉及机器阅读理解领域,特别涉及一种支持超长答案的信息抽取方法
、
系统
、
装置和存储介质
。
技术介绍
[0002]机器阅读理解是根据问题从文本中自动地抽取答案的任务
。
目前主流的自然语言处理模型只适合抽取答案小于固定字符长度的数据
。
然而,在金融
、
律法等领域的答案抽取任务中,需要抽取的答案字符长度往往是该固定字符长度的几倍或几十倍等
。
[0003]有鉴于此,希望提出一种支持超长答案的信息抽取方法
、
系统
、
装置和存储介质,以有效面对多答案
、
答案字符超长的情况,提高抽取准确率和效率
。
技术实现思路
[0004]为了解决难以抽取文本中包含多答案
、
答案字符超长的问题,本专利技术旨在提出一种支持超长答案的信息抽取方法
、
系统
、
装置和存储介质,以有效面对多答案
、
答案字符超长的情况,提高抽取准确率和效率
。
[0005]本
技术实现思路
之一提供一种支持超长答案的信息抽取方法,所述方法包括:基于待处理文本,确定段落特征信息,所述待处理文本包括多个文本段落;基于所述段落特征信息,通过信息抽取模型确定目标段落位置,所述信息抽取模型为序列标注模型
。
[0006]本 ...
【技术保护点】
【技术特征摘要】
1.
一种支持超长答案的信息抽取方法,其特征在于,所述方法由处理器执行,包括:基于待处理文本,确定段落特征信息,所述待处理文本包括多个文本段落,所述段落特征信息包括所述文本段落的语义向量,所述语义向量的确定方式包括:将所述一个或多个文本段落拼接为拼接段落,所述拼接段落的总字符长度不超过预设字符长度;对所述拼接段落进行编码,确定位置编码,所述位置编码包括段落分割码和序位码,所述序位码反映所述拼接段落包含的文本段落从开始字符到结束字符的字符位置;将所述拼接段落和所述位置编码输入语义提取模型,批量生成所述一个或多个文本段落对应的所述语义向量;基于所述段落特征信息,通过以段落为粒度的信息抽取模型确定目标段落位置,所述信息抽取模型为序列标注模型,所述目标段落位置为根据问题从所述待处理文本中抽取的答案的位置
。2.
如权利要求1所述的方法,其特征在于,所述待处理文本包括所述多个文本段落的文本信息和布局信息;所述基于待处理文本,确定段落特征信息,包括:基于所述文本信息,生成语义向量;基于所述布局信息,生成布局向量;基于所述语义向量和所述布局向量,确定所述段落特征信息
。3.
如权利要求1所述的方法,其特征在于,所述语义提取模型为基于
RoBERTa
模型进行优化处理得到的机器学习模型,所述语义提取模型的注意力掩码包括多个位于掩码矩阵的对角线上的子矩阵,所述子矩阵对应于文本段落
。4.
一种支持超长答案的信息抽取系统,其特征在于,所述系统包括:预处理模块,用于基于待处理文本,确定段落特征信息,所述待处理文本包括多个文本段落,所述段落特征信息包括所述文本段落的语义向量,所述语义向量的确定方式包括:将所述一个或多个文本段落拼接为拼接段...
【专利技术属性】
技术研发人员:何瑞,柴懿轩,章汗雨,张栋,敖初杰,吴海胖,
申请(专利权)人:杭州同花顺数据开发有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。