文本中的答案抽取方法以及电子设备技术

技术编号:30323573 阅读:23 留言:0更新日期:2021-10-09 23:52
本申请提供一种文本中的答案抽取方法以及电子设备,该方法包括:对待处理文本进行断句,获得按序排列的多个句子;将每个句子输入特征提取模型,获得特征提取模型输出的每个句子对应的特征向量;将按序排列的每个句子对应的特征向量作为预测模型的输入,获得预测模型输出的标签序列;所述标签序列中的每个标签用于指示所述标签对应的句子是否用于构成同一标准答案;根据所述按序排列的多个句子对应的标签序列,从所述多个句子中抽取标签指示构成同一标准答案的句子作为一个标准答案。该方案可以使最终提取的答案包括完整的句子,而不会截断在句子内部。截断在句子内部。截断在句子内部。

【技术实现步骤摘要】
文本中的答案抽取方法以及电子设备


[0001]本申请涉及自然语言处理
,特别涉及一种文本中的答案抽取方法以及电子设备。

技术介绍

[0002]问答抽取任务是指,从整段文本中抽取出一个或多个问题答案对。一般情况下,答案是原文的一部分文字,问题是由答案生成的一段文字。
[0003]当前的问答抽取技术大多是围绕阅读理解场景展开的,很多答案都是只有几个字组成的。但是在抽取FAQ(常见的问题项目与对应问题的解答)标准答案场景中,答案往往是由一句话或多句话组成的。那么,如果依然用传统的基于字或词粒度的token(令牌)来做序列标注抽取答案,就会难以避免答案边界截断在一句话内部。
[0004]例如,各级市场监督管理部门的企业登记机构是股权出质登记机构。股权出质登记事项包括:(一)出质人和质权人的姓名或名称;(二)出质股权所在公司的名称;(三)出质股权的数额。申请出质登记的股权应当是依法可以转让和出质的股权。
[0005]用字粒度的token(令牌)抽取上述文本中的答案,是有可能抽取成“股权出质登记事项”这种半句话的情况,这样的错误是希望可以避免的。

技术实现思路

[0006]本申请实施例提供了文本中的答案抽取方法,用以提取完整的句子作为答案,避免句子被截断。
[0007]本申请实施例提供了一种文本中的答案抽取方法,包括:
[0008]对待处理文本进行断句,获得按序排列的多个句子;
[0009]将每个句子输入特征提取模型,获得所述特征提取模型输出的每个句子对应的特征向量;
[0010]将按序排列的每个句子对应的特征向量作为预测模型的输入,获得所述预测模型输出的标签序列;所述标签序列中的每个标签用于指示所述标签对应的句子是否用于构成同一标准答案;
[0011]根据所述按序排列的多个句子对应的标签序列,从所述多个句子中抽取标签指示构成同一标准答案的句子作为一个标准答案。
[0012]在一实施例中,所述从所述多个句子中抽取标签指示构成同一标准答案的句子作为一个标准答案,包括:
[0013]根据所述按序排列的多个句子对应的标签序列,将标签指示用于构成同一标准答案的连续若干句子作为一个标准答案。
[0014]在一实施例中,所述标签包括答案标识和非答案标识;所述标签序列是所述答案标识和非答案标识构成的序列;所述根据所述按序排列的多个句子对应的标签序列,将标签指示用于构成同一标准答案的连续若干句子作为一个标准答案,包括:
[0015]根据所述按序排列的多个句子对应的标签序列,将相同答案标识的连续若干句子作为一个标准答案。
[0016]在一实施例中,所述标签包括起始标识、中间标识和非答案标识,所述标签序列是所述起始标识、中间标识和非答案标识构成的序列;所述根据所述按序排列的多个句子对应的标签序列,将标签指示用于构成同一标准答案的连续若干句子作为一个标准答案,包括:
[0017]根据所述按序排列的多个句子对应的标签序列,从每个起始标识对应的句子开始,将所述起始标识对应的句子和所述起始标识之后标签连续为中间标识的多个句子一起构成一个标准答案。
[0018]在一实施例中,在所述将每个句子输入特征提取模型,获得所述特征提取模型输出的每个句子对应的特征向量之前,所述方法还包括:
[0019]对训练文本进行断句,获得按序排列的多个样本句子;
[0020]获取所述按序排列的多个样本句子的标注序列;
[0021]利用所述按序排列的多个样本句子的标注序列,训练得到所述特征提取模型和预测模型。
[0022]在一实施例中,所述利用所述按序排列的多个样本句子的标注序列,训练得到所述特征提取模型和预测模型,包括:
[0023]根据所述多个样本句子的标注序列,获得每个样本句子对应的二分类结果;所述二分类结果用于指示所述样本句子是否用于构成标准答案;
[0024]根据每个样本句子的二分类结果,对预训练模型进行参数调整,训练得到所述特征提取模型;
[0025]通过所述特征提取模型提取每个样本句子的特征向量;
[0026]将按序排列的多个样本句子的特征向量作为神经网络模型的输入,通过对所述神经网络模型进行迭代,使所述神经网络模型输出的结果序列与所述标注序列之间的误差小于第一阈值或迭代次数大于第二阈值,得到由所述神经网络模型训练得到的预测模型。
[0027]在一实施例中,所述利用所述按序排列的多个样本句子的标注序列,训练得到所述特征提取模型和预测模型,包括:
[0028]根据所述多个样本句子的标注序列,获得每个样本句子对应的二分类结果;所述二分类结果用于指示所述样本句子是否用于构成标准答案;
[0029]根据每个样本句子的二分类结果,对预训练模型进行参数调整,训练得到特征提取中间模型;
[0030]通过所述特征提取中间模型提取每个样本句子的特征向量;
[0031]将按序排列的多个样本句子的特征向量作为神经网络模型的输入,通过对所述特征提取中间模型和神经网络模型进行迭代,使所述神经网络模型输出的结果序列与所述标注序列之间的误差小于第一阈值或迭代次数大于第二阈值,得到所述特征提取模型和预测模型。
[0032]在一实施例中,所述利用所述按序排列的多个样本句子的标注序列,训练得到所述特征提取模型和预测模型,包括:
[0033]将每个样本句子作为预训练模型的输入,获得所述预训练模型输出的特征向量;
[0034]将按序排列的多个样本句子的特征向量作为神经网络模型的输入,通过对所述预训练模型和神经网络模型进行迭代,使所述神经网络模型输出的结果序列与所述标注序列之间的误差小于第一阈值或迭代次数大于第二阈值。
[0035]在一实施例中,所述神经网络模型包括双向长短期记忆网络层和条件随机场层,多个所述样本句子的特征向量作为所述双向长短期记忆网络层的输入,所述双向长短期记忆网络层的输出作为所述条件随机场层的输入,所述条件随机场层的输出作为所述结果序列。
[0036]本申请实施例提供了一种电子设备,所述电子设备包括:
[0037]处理器;
[0038]用于存储处理器可执行指令的存储器;
[0039]其中,所述处理器被配置为执行上述文本中的答案抽取方法。
[0040]本申请上述实施例提供的技术方案,通过对待处理文本进行断句,获得按序排列的多个句子,并通过特征提取模型提取每个句子对应的特征向量;将按序排列的每个句子对应的特征向量作为预测模型的输入,获得预测模型输出的标签序列;标签序列中的每个标签用于指示标签对应的句子是否用于构成同一标准答案,最后根据标签序列,即可从所述多个句子中抽取标签指示构成同一标准答案的句子作为一个标准答案。本申请上述实施例把经典的字或词级别粒度的向量嵌入改成句子级别粒度的向量嵌入,可以使最终提取的答案包括完整的句子,而不会截断在句子内部。
附图说明
[0041]为了更清楚地说明本申请实施例的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本中的答案抽取方法,其特征在于,包括:对待处理文本进行断句,获得按序排列的多个句子;将每个句子输入特征提取模型,获得所述特征提取模型输出的每个句子对应的特征向量;将按序排列的每个句子对应的特征向量作为预测模型的输入,获得所述预测模型输出的标签序列;所述标签序列中的每个标签用于指示所述标签对应的句子是否用于构成同一标准答案;根据所述按序排列的多个句子对应的标签序列,从所述多个句子中抽取标签指示构成同一标准答案的句子作为一个标准答案。2.根据权利要求1所述的方法,其特征在于,所述从所述多个句子中抽取标签指示构成同一标准答案的句子作为一个标准答案,包括:根据所述按序排列的多个句子对应的标签序列,将标签指示用于构成同一标准答案的连续若干句子作为一个标准答案。3.根据权利要求2所述的方法,其特征在于,所述标签包括答案标识和非答案标识;所述标签序列是所述答案标识和非答案标识构成的序列;所述根据所述按序排列的多个句子对应的标签序列,将标签指示用于构成同一标准答案的连续若干句子作为一个标准答案,包括:根据所述按序排列的多个句子对应的标签序列,将相同答案标识的连续若干句子作为一个标准答案。4.根据权利要求2所述的方法,其特征在于,所述标签包括起始标识、中间标识和非答案标识,所述标签序列是所述起始标识、中间标识和非答案标识构成的序列;所述根据所述按序排列的多个句子对应的标签序列,将标签指示用于构成同一标准答案的连续若干句子作为一个标准答案,包括:根据所述按序排列的多个句子对应的标签序列,从每个起始标识对应的句子开始,将所述起始标识对应的句子和所述起始标识之后标签连续为中间标识的多个句子一起构成一个标准答案。5.根据权利要求1所述的方法,其特征在于,在所述将每个句子输入特征提取模型,获得所述特征提取模型输出的每个句子对应的特征向量之前,所述方法还包括:对训练文本进行断句,获得按序排列的多个样本句子;获取所述按序排列的多个样本句子的标注序列;利用所述按序排列的多个样本句子的标注序列,训练得到所述特征提取模型和预测模型。6.根据权利要求5所述的方法,其特征在于,所述利用所述按序排列的多个样本句子的标注序列,训练得到所述特征提取模型和预测模型,包括:根据所述多个样本句子的标注序列,获得每个样本句子对应的二分类结果;所述二分...

【专利技术属性】
技术研发人员:李龙威简仁贤马永宁
申请(专利权)人:竹间智能科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1