【技术实现步骤摘要】
一种基于关系模型的超长文本的切分方法及系统
[0001]本专利技术涉及人工智能
,具体涉及一种基于关系模型的超长文本的切分方法及系统。
技术介绍
[0002]基于BERT预训练模型,使用序列标注方式解决关系抽取的方案,都存在一个难点,那就是文本超长问题。
[0003]目前通常的做法是根据模型能够输入的最大文本长度将原文切割成相同长度的几个子句,并基于子句独立的预测结果,在预测完成之后,根据句子长度计算预测结果在原文中的位置,即可解决文本超长的问题。但是在关系模型中一个句子中的实体往往与上下文中的其他实体之间存在着关系,该切割方法会将关系切断,导致信息损失,BERT预训练模型在预测时很可能会导致抽取的关系不正确。
技术实现思路
[0004]为了解决上述技术问题,本专利技术的目的在于提供的一种基于关系模型的超长文本的切分方法及系统,所采用的技术方案具体如下:第一方面,本专利技术一个实施例提供了一种基于关系模型的超长文本的切分方法,所述切分方法包括:S100,根据标点符号对原文本进行分割,得到N个子句P={P1,P2,
…
,P
N
},其中N为正整数;S200,将P中的子句按照原文本顺序重组得到M个重组子句{R1, R2,
…
,R
M
},每个重组子句均为关系模型的一个输入;其中,第i个重组子句R
i
与第i
‑
1个重组子句R
i
‑1之间具有重叠文本SP
k
...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于关系模型的超长文本的切分方法,其特征在于,所述切分方法包括:S100,根据标点符号对原文本进行分割,得到N个子句P={P1,P2,
…
,P
N
},其中N为正整数;S200,将P中的子句按照原文本顺序重组得到M个重组子句{R1, R2,
…
,R
M
},每个重组子句均为关系模型的一个输入;其中,第i个重组子句R
i
与第i
‑
1个重组子句R
i
‑1之间具有重叠文本SP
k
,SP
k
为R
i
‑1中最后一个子句P
k
中的文本;其中R
i
的获取步骤包括:S210,根据P
k
的文本长度L
k
和预设重叠长度OL0计算SL
k
=min(OL0,L
k
),其中,min(OL0,L
k
)为取OL0和L
k
的最小值作为SP
k
的重叠长度SL
k
;S220,根据SL
k
获取切分位置SD
k
,当SD
k
未将第g个实体a
g
切断时,由切分位置SD
k
开始累积P
k
中的字符得到SP
k
;当SD
k
将第g个实体a
g
切断时,根据实体a
g
中首字符的位置调整SD
k
并更新SL
k
,根据调整后的切分位置SD
k
开始累积P
k
中的字符得到SP
k
;S230,按照原文本的顺序从P
k+1
开始增加子句并累积文本长度,当SL
k
+∑
ej=1
L
k+j
≤S0且SL
k
+∑
e+1j=1
L
k+j
>S0时,确定结束子句为第k+e个子句P
k+e
,其中 L
k+j
为P
k+j
的文本长度,S0为输入关系模型的最大文本长度;S240,根据P
k+1
与P
k+e
确定目标子句{P
k+1
,P
技术研发人员:于伟,靳雯,赵洲洋,石江枫,王全修,吴凡,
申请(专利权)人:日照睿安信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。