文本中的答案抽取方法以及电子设备技术

技术编号：30323573 阅读：23 留言：0更新日期：2021-10-09 23:52

本申请提供一种文本中的答案抽取方法以及电子设备，该方法包括：对待处理文本进行断句，获得按序排列的多个句子；将每个句子输入特征提取模型，获得特征提取模型输出的每个句子对应的特征向量；将按序排列的每个句子对应的特征向量作为预测模型的输入，获得预测模型输出的标签序列；所述标签序列中的每个标签用于指示所述标签对应的句子是否用于构成同一标准答案；根据所述按序排列的多个句子对应的标签序列，从所述多个句子中抽取标签指示构成同一标准答案的句子作为一个标准答案。该方案可以使最终提取的答案包括完整的句子，而不会截断在句子内部。截断在句子内部。截断在句子内部。

全部详细技术资料下载

【技术实现步骤摘要】
文本中的答案抽取方法以及电子设备

[0001]本申请涉及自然语言处理
，特别涉及一种文本中的答案抽取方法以及电子设备。

技术介绍

[0002]问答抽取任务是指，从整段文本中抽取出一个或多个问题答案对。一般情况下，答案是原文的一部分文字，问题是由答案生成的一段文字。
[0003]当前的问答抽取技术大多是围绕阅读理解场景展开的，很多答案都是只有几个字组成的。但是在抽取FAQ(常见的问题项目与对应问题的解答)标准答案场景中，答案往往是由一句话或多句话组成的。那么，如果依然用传统的基于字或词粒度的token(令牌)来做序列标注抽取答案，就会难以避免答案边界截断在一句话内部。
[0004]例如，各级市场监督管理部门的企业登记机构是股权出质登记机构。股权出质登记事项包括：(一)出质人和质权人的姓名或名称；(二)出质股权所在公司的名称；(三)出质股权的数额。申请出质登记的股权应当是依法可以转让和出质的股权。
[0005]用字粒度的token(令牌)抽取上述文本中的答案，是有可能抽取成“股权出质登记事项”这种半句话的情况，这样的错误是希望可以避免的。

技术实现思路

[0006]本申请实施例提供了文本中的答案抽取方法，用以提取完整的句子作为答案，避免句子被截断。
[0007]本申请实施例提供了一种文本中的答案抽取方法，包括：
[0008]对待处理文本进行断句，获得按序排列的多个句子；
[0009]将每个句子输入特征提取模型，获得所述特征提取模型输出的每个句子对应的特...

【技术保护点】

【技术特征摘要】
1.一种文本中的答案抽取方法，其特征在于，包括：对待处理文本进行断句，获得按序排列的多个句子；将每个句子输入特征提取模型，获得所述特征提取模型输出的每个句子对应的特征向量；将按序排列的每个句子对应的特征向量作为预测模型的输入，获得所述预测模型输出的标签序列；所述标签序列中的每个标签用于指示所述标签对应的句子是否用于构成同一标准答案；根据所述按序排列的多个句子对应的标签序列，从所述多个句子中抽取标签指示构成同一标准答案的句子作为一个标准答案。2.根据权利要求1所述的方法，其特征在于，所述从所述多个句子中抽取标签指示构成同一标准答案的句子作为一个标准答案，包括：根据所述按序排列的多个句子对应的标签序列，将标签指示用于构成同一标准答案的连续若干句子作为一个标准答案。3.根据权利要求2所述的方法，其特征在于，所述标签包括答案标识和非答案标识；所述标签序列是所述答案标识和非答案标识构成的序列；所述根据所述按序排列的多个句子对应的标签序列，将标签指示用于构成同一标准答案的连续若干句子作为一个标准答案，包括：根据所述按序排列的多个句子对应的标签序列，将相同答案标识的连续若干句子作为一个标准答案。4.根据权利要求2所述的方法，其特征在于，所述标签包括起始标识、中间标识和非答案标识，所述标签序列是所述起始标识、中间标识和非答案标识构成的序列；所述根据所述按序排列的多个句子对应的标签序列，将标签指示用于构成同一标准答案的连续若干句子作为一个标准答案，包括：根据所述按序排列的多个句子对应的标签序列，从每个起始标识对应的句子开始，将所述起始标识对应的句子和所述起始标识之后标签连续为中间标识的多个句子一起构成一个标准答案。5.根据权利要求1所述的方法，其特征在于，在所述将每个句子输入特征提取模型，获得所述特征提取模型输出的每个句子对应的特征向量之前，所述方法还包括：对训练文本进行断句，获得按序排列的多个样本句子；获取所述按序排列的多个样本句子的标注序列；利用所述按序排列的多个样本句子的标注序列，训练得到所述特征提取模型和预测模型。6.根据权利要求5所述的方法，其特征在于，所述利用所述按序排列的多个样本句子的标注序列，训练得到所述特征提取模型和预测模型，包括：根据所述多个样本句子的标注序列，获得每个样本句子对应的二分类结果；所述二分...

【专利技术属性】
技术研发人员：李龙威，简仁贤，马永宁，
申请(专利权)人：竹间智能科技上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人