一种基于关系模型的超长文本的切分方法及系统技术方案

技术编号：35229616 阅读：22 留言：0更新日期：2022-10-15 10:50

本发明专利技术涉及人工智能技术领域，具体涉及一种基于关系模型的超长文本的切分方法及系统，该方法通过将原文本切割为多个子句，然后按照原文本的顺序多个子句进行重组得到多个重组子句，任意相邻的两个重组子句之间具有第一重叠长度的重叠文本，其中第一重叠长度通过预设的重叠长度以及在前重组子句中最后一个子句的长度来确定，在实体被切断时，通过预设重叠长度、切分位置、被切断的实体位置以及实体的最大长度阈值来重新调整最终的切分位置，该方法最终得到的相邻重组子句之间均存在重叠文本，减少信息的损失，使关系模型预测的结果相对于等长度直接切割来说更加准确，同时能够保证实体不被切断，进一步的减少了信息损失。进一步的减少了信息损失。进一步的减少了信息损失。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于关系模型的超长文本的切分方法及系统

[0001]本专利技术涉及人工智能
，具体涉及一种基于关系模型的超长文本的切分方法及系统。

技术介绍

[0002]基于BERT预训练模型，使用序列标注方式解决关系抽取的方案，都存在一个难点，那就是文本超长问题。
[0003]目前通常的做法是根据模型能够输入的最大文本长度将原文切割成相同长度的几个子句，并基于子句独立的预测结果，在预测完成之后，根据句子长度计算预测结果在原文中的位置，即可解决文本超长的问题。但是在关系模型中一个句子中的实体往往与上下文中的其他实体之间存在着关系，该切割方法会将关系切断，导致信息损失，BERT预训练模型在预测时很可能会导致抽取的关系不正确。

技术实现思路

[0004]为了解决上述技术问题，本专利技术的目的在于提供的一种基于关系模型的超长文本的切分方法及系统，所采用的技术方案具体如下：第一方面，本专利技术一个实施例提供了一种基于关系模型的超长文本的切分方法，所述切分方法包括：S100，根据标点符号对原文本进行分割，得到N个子句P={P1,P2,
…
,P
N
}，其中N为正整数；S200，将P中的子句按照原文本顺序重组得到M个重组子句{R1, R2，
…
，R
M
}，每个重组子句均为关系模型的一个输入；其中，第i个重组子句R
i
与第i
‑
1个重组子句R
i
‑1之间具有重叠文本SP
k
...

【技术保护点】

【技术特征摘要】
1.一种基于关系模型的超长文本的切分方法，其特征在于，所述切分方法包括：S100，根据标点符号对原文本进行分割，得到N个子句P={P1,P2,
…
,P
N
}，其中N为正整数；S200，将P中的子句按照原文本顺序重组得到M个重组子句{R1, R2，
…
，R
M
}，每个重组子句均为关系模型的一个输入；其中，第i个重组子句R
i
与第i
‑
1个重组子句R
i
‑1之间具有重叠文本SP
k
，SP
k
为R
i
‑1中最后一个子句P
k
中的文本；其中R
i
的获取步骤包括：S210，根据P
k
的文本长度L
k
和预设重叠长度OL0计算SL
k
=min(OL0,L
k
)，其中，min(OL0,L
k
)为取OL0和L
k
的最小值作为SP
k
的重叠长度SL
k
；S220，根据SL
k
获取切分位置SD
k
，当SD
k
未将第g个实体a
g
切断时，由切分位置SD
k
开始累积P
k
中的字符得到SP
k
；当SD
k
将第g个实体a
g
切断时，根据实体a
g
中首字符的位置调整SD
k
并更新SL
k
，根据调整后的切分位置SD
k
开始累积P
k
中的字符得到SP
k
；S230，按照原文本的顺序从P
k+1
开始增加子句并累积文本长度，当SL
k
+∑
ej=1
L
k+j
≤S0且SL
k
+∑
e+1j=1
L
k+j
＞S0时，确定结束子句为第k+e个子句P
k+e
，其中 L
k+j
为P
k+j
的文本长度，S0为输入关系模型的最大文本长度；S240，根据P
k+1
与P
k+e
确定目标子句{P
k+1
,P

【专利技术属性】
技术研发人员：于伟，靳雯，赵洲洋，石江枫，王全修，吴凡，
申请(专利权)人：日照睿安信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人