文本逻辑条件抽取AI模型构建方法、抽取方法及系统技术方案

技术编号:33766539 阅读:15 留言:0更新日期:2022-06-12 14:17
本发明专利技术涉及文本逻辑条件抽取AI模型构建方法、抽取方法及系统,模型构建方法包括:信息标注,基于要训练的文本,对每一个训练文本进行包括序列片段的标注和序列片段之间的逻辑关系的标注;文本预处理,构建特征,生成模型训练需要的序列片段特征和逻辑关系矩阵特征;模型训练,基于预处理后的文本进行训练,进行序列片段的逻辑条件抽取,得到逻辑条件抽取的AI模型。将ner识别和逻辑条件抽取融合进一个模型,在抽取关键序列片段的同时也获取了片段之间的逻辑关系,无需人工去维护大量的规则,可以覆盖到各式各样的文本结构,提高了逻辑抽取的准确性,能够更好地适用于复杂文本的逻辑条件抽取,且整个抽取流程相对简单。且整个抽取流程相对简单。且整个抽取流程相对简单。

【技术实现步骤摘要】
文本逻辑条件抽取AI模型构建方法、抽取方法及系统


[0001]本专利技术涉及计算机
,尤其是涉及一种文本逻辑条件抽取AI模型构建方法、抽取方法及系统。

技术介绍

[0002]某些文本文件中包含大量的有效信息,文本信息抽取是nlp领域一种常见的技术,目前主流的抽取方法是依靠深度学习做序列标注,将文件中关键信息标注出来,对于序列片段的标注即ner已经相对成熟,而对于片段之间逻辑条件的抽取,更多的是依靠语义规则、依存句法分析去实现。这种方法对于简单的政策文本逻辑关系的抽取没有问题,但是对于复杂政策文本的逻辑关系就难以覆盖,且需要维护大量的规则,其次,整个抽取流程相对复杂,需要先做ner识别,再在ner的基础上做逻辑判断,是一种非端到端的方法。

技术实现思路

[0003]本专利技术目的一是提供一种文本逻辑条件抽取AI模型构建方法,具有基于该构建方法构建的AI模型,便于实现端到端的逻辑条件抽取,且能够更好地适用于复杂文本,整个抽取流程相对简单的特点。
[0004]根据本申请提供的一种文本逻辑条件抽取AI模型构建方法,包括,
[0005]信息标注,基于要训练的文本,对每一个训练文本进行包括序列片段的标注和序列片段之间的逻辑关系的标注;
[0006]文本预处理,构建特征,生成模型训练需要的序列片段特征和逻辑关系矩阵特征;
[0007]模型训练,基于预处理后的文本进行训练,进行序列片段的逻辑条件抽取,得到逻辑条件抽取的AI模型。
[0008]可选地,所述序列片段特征采用BIO标注格式。
[0009]可选地,进行序列片段的逻辑条件抽取包括,对每一个序列片段,取片段中的一个token,判断两个token之间的关系,从而得到两个序列片段之间的逻辑关系。
[0010]可选地,对每一个序列片段,取片段中的第一个token或者最后一个token,对应地,判断两个第一个token或者两个最后一个token之间的关系,从而得到两个序列片段之间的逻辑关系。
[0011]可选地,所述判断两个token之间的关系的具体方法包括,通过计算两个token z
i
和z
j
之间关系为的r
k
时的得分得到,计算得分的具体公式通过公式(1)实现:
[0012]s
(r)
(z
j
,z
i
,r
k
)=V
(r)
f(U
(r)
z
j
+W
(r)
z
i
+b
(r)
)
ꢀꢀꢀ
(1)
[0013]其中,(r)表示关系抽取;f(*)表示激活函数,如relu、tanh等;其中,(r)表示关系抽取;f(*)表示激活函数,如relu、tanh等;为关系集合,d为bert模块的隐藏大小,b为逻辑编码层尺寸,l为层的宽度。
[0014]可选地,将通过公式(1)计算得到的得分经过sigmoid层把分值处理到[0,1]之间,
得到两个token之间的关系概率:
[0015]Pr(head=w
j
,label=r
k
|w
i
)=σ(s
(r)
(z
j
,z
i
,r
k
))
ꢀꢀꢀ
(2)
[0016]其中,w
i
为输入序列片段的第i个字符,σ(*)为sigmoid函数。
[0017]可选地,所述方法还包括,基于所述关系概率,利用交叉熵损失函数
[0018][0019]通过最小化逻辑关系抽取的损失函数,对AI模型参数进行优化;其中,是token w
i
的向量,是token w
i
的关系标签;θ是AI模型参数集合。
[0020]本发申请的二是提供一种基于AI模型的文本逻辑条件抽取方法,具有逻辑条件抽取实现端到端,且能够更好地适用于复杂文本,整个抽取流程相对简单的特点。
[0021]根据本申请提供的一种基于AI模型的文本逻辑条件抽取方法,包括,
[0022]AI模型的构建,基于上述逻辑条件抽取AI模型构建方法进行构建;
[0023]逻辑条件的抽取,基于构建的所述AI模型,通过序列片段标注结果和逻辑关系矩阵结果,将文本中的逻辑条件抽取出来。
[0024]本申请目的三是提供一种基于AI模型的文本逻辑条件抽取系统,具有逻辑条件抽取实现端到端,且能够更好地适用于复杂文本,整个抽取流程相对简单的特点。
[0025]根据本申请提供的一种基于AI模型的文本逻辑条件抽取系统,包括
[0026]输入接口,用于输入要进行序列片段逻辑条件抽取的文本内容;
[0027]逻辑条件抽取模型,根据上述逻辑条件抽取AI模型构建方法构建得到,对输入的文本内容进行序列片段的逻辑条件抽取;
[0028]输出接口,输出基于输入的文本内容所抽取到的序列片段的逻辑条件。
[0029]本申请目的四是提供一种计算机可读存储介质,便于实现上述AI模型的构建和/或逻辑条件抽取的特点。
[0030]一种计算机可读存储介质,存储有能够被处理器加载并执行上述任一种方法的计算机程序。
[0031]综上所述,本申请的有益技术效果包括:
[0032]实现了一种端到端的文本逻辑条件抽取AI模型的构建及抽取方法,将ner识别和逻辑条件抽取融合进一个模型,在抽取关键序列片段的同时也获取了片段之间的逻辑关系,无需人工去维护大量的规则。同时,依靠深度学习较好的拟合能力,可以覆盖到各式各样的文本结构,提高了逻辑抽取的准确性,能够更好地适用于复杂文本的逻辑条件抽取,且整个抽取流程相对简单。
附图说明
[0033]图1是本专利技术其中一实施例的基于AI模型的文本逻辑条件抽取方法流程示意图;
[0034]图2是本专利技术其中一实施例的文本逻辑条件抽取AI模型构建方法流程示意图;
[0035]图3是本专利技术其中一实施例的序列片段的逻辑关系矩阵构建方式示意图;
[0036]图4是本专利技术其中一实施例的基于bert的多头选择逻辑关系抽取模型示意图。
具体实施方式
[0037]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0038]另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,如无特殊说明,一般表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本逻辑条件抽取AI模型构建方法,其特征在于,包括,信息标注(101),基于要训练的文本,对每一个训练文本进行包括序列片段的标注和序列片段之间的逻辑关系的标注;文本预处理(102),构建特征,生成模型训练需要的序列片段特征和逻辑关系矩阵特征;模型训练(103),基于预处理后的文本进行训练,进行序列片段的逻辑条件抽取,得到逻辑条件抽取的AI模型。2.根据权利要求1所述的方法,其特征在于,所述序列片段特征采用BIO标注格式。3.根据权利要求1所述的方法,其特征在于,进行序列片段的逻辑条件抽取包括,对每一个序列片段,取片段中的一个token,判断两个token之间的关系,从而得到两个序列片段之间的逻辑关系。4.根据权利要求3所述的方法,其特征在于,对每一个序列片段,取片段中的第一个token或者最后一个token,对应地,判断两个第一个token或者两个最后一个token之间的关系,从而得到两个序列片段之间的逻辑关系。5.根据权利要求3或4所述的方法,其特征在于,所述判断两个token之间的关系的具体方法包括,通过计算两个token z
i
和z
j
之间关系为的r
k
时的得分得到,计算得分的具体公式通过公式(1)实现:s
(r)
(z
j
,z
i
,r
k
)=V
(r)
f(U
(r)
z
j
+W
(r)
z
i
+b
(r)
)
ꢀꢀꢀꢀ
(1)其中,(r)表示关系抽取;f(*)表示激活函数,如relu、tanh等;其中,(r)表示关系抽取;f(*)表示激活函数,如relu、tanh等;其中,(r)表示关系抽取;f(*)表示激...

【专利技术属性】
技术研发人员:邹伟东蔡子哲
申请(专利权)人:企知道网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1