文本逻辑条件抽取AI模型构建方法、抽取方法及系统技术方案

技术编号：33766539 阅读：15 留言：0更新日期：2022-06-12 14:17

本发明专利技术涉及文本逻辑条件抽取AI模型构建方法、抽取方法及系统，模型构建方法包括：信息标注，基于要训练的文本，对每一个训练文本进行包括序列片段的标注和序列片段之间的逻辑关系的标注；文本预处理，构建特征，生成模型训练需要的序列片段特征和逻辑关系矩阵特征；模型训练，基于预处理后的文本进行训练，进行序列片段的逻辑条件抽取，得到逻辑条件抽取的AI模型。将ner识别和逻辑条件抽取融合进一个模型，在抽取关键序列片段的同时也获取了片段之间的逻辑关系，无需人工去维护大量的规则，可以覆盖到各式各样的文本结构，提高了逻辑抽取的准确性，能够更好地适用于复杂文本的逻辑条件抽取，且整个抽取流程相对简单。且整个抽取流程相对简单。且整个抽取流程相对简单。

全部详细技术资料下载

【技术实现步骤摘要】
文本逻辑条件抽取AI模型构建方法、抽取方法及系统

[0001]本专利技术涉及计算机
，尤其是涉及一种文本逻辑条件抽取AI模型构建方法、抽取方法及系统。

技术介绍

[0002]某些文本文件中包含大量的有效信息，文本信息抽取是nlp领域一种常见的技术，目前主流的抽取方法是依靠深度学习做序列标注，将文件中关键信息标注出来，对于序列片段的标注即ner已经相对成熟，而对于片段之间逻辑条件的抽取，更多的是依靠语义规则、依存句法分析去实现。这种方法对于简单的政策文本逻辑关系的抽取没有问题，但是对于复杂政策文本的逻辑关系就难以覆盖，且需要维护大量的规则，其次，整个抽取流程相对复杂，需要先做ner识别，再在ner的基础上做逻辑判断，是一种非端到端的方法。

技术实现思路

[0003]本专利技术目的一是提供一种文本逻辑条件抽取AI模型构建方法，具有基于该构建方法构建的AI模型，便于实现端到端的逻辑条件抽取，且能够更好地适用于复杂文本，整个抽取流程相对简单的特点。
[0004]根据本申请提供的一种文本逻辑条件抽取AI模型构建方法，包括，
[0005]信息标注，基于要训练的文本，对每一个训练文本进行包括序列片段的标注和序列片段之间的逻辑关系的标注；
[0006]文本预处理，构建特征，生成模型训练需要的序列片段特征和逻辑关系矩阵特征；
[0007]模型训练，基于预处理后的文本进行训练，进行序列片段的逻辑条件抽取，得到逻辑条件抽取的AI模型。
[0008]可选地，所述序列片段特征采用B...

【技术保护点】

【技术特征摘要】
1.一种文本逻辑条件抽取AI模型构建方法，其特征在于，包括，信息标注(101)，基于要训练的文本，对每一个训练文本进行包括序列片段的标注和序列片段之间的逻辑关系的标注；文本预处理(102)，构建特征，生成模型训练需要的序列片段特征和逻辑关系矩阵特征；模型训练(103)，基于预处理后的文本进行训练，进行序列片段的逻辑条件抽取，得到逻辑条件抽取的AI模型。2.根据权利要求1所述的方法，其特征在于，所述序列片段特征采用BIO标注格式。3.根据权利要求1所述的方法，其特征在于，进行序列片段的逻辑条件抽取包括，对每一个序列片段，取片段中的一个token，判断两个token之间的关系，从而得到两个序列片段之间的逻辑关系。4.根据权利要求3所述的方法，其特征在于，对每一个序列片段，取片段中的第一个token或者最后一个token，对应地，判断两个第一个token或者两个最后一个token之间的关系，从而得到两个序列片段之间的逻辑关系。5.根据权利要求3或4所述的方法，其特征在于，所述判断两个token之间的关系的具体方法包括，通过计算两个token z
i
和z
j
之间关系为的r
k
时的得分得到，计算得分的具体公式通过公式(1)实现：s
(r)
(z
j
,z
i
,r
k
)＝V
(r)
f(U
(r)
z
j
+W
(r)
z
i
+b
(r)
)
ꢀꢀꢀꢀ
(1)其中，(r)表示关系抽取；f(*)表示激活函数，如relu、tanh等；其中，(r)表示关系抽取；f(*)表示激活函数，如relu、tanh等；其中，(r)表示关系抽取；f(*)表示激...

【专利技术属性】
技术研发人员：邹伟东，蔡子哲，
申请(专利权)人：企知道网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人