一种基于关系模型的超长文本的切分方法及系统技术方案

技术编号:35229616 阅读:22 留言:0更新日期:2022-10-15 10:50
本发明专利技术涉及人工智能技术领域,具体涉及一种基于关系模型的超长文本的切分方法及系统,该方法通过将原文本切割为多个子句,然后按照原文本的顺序多个子句进行重组得到多个重组子句,任意相邻的两个重组子句之间具有第一重叠长度的重叠文本,其中第一重叠长度通过预设的重叠长度以及在前重组子句中最后一个子句的长度来确定,在实体被切断时,通过预设重叠长度、切分位置、被切断的实体位置以及实体的最大长度阈值来重新调整最终的切分位置,该方法最终得到的相邻重组子句之间均存在重叠文本,减少信息的损失,使关系模型预测的结果相对于等长度直接切割来说更加准确,同时能够保证实体不被切断,进一步的减少了信息损失。进一步的减少了信息损失。进一步的减少了信息损失。

【技术实现步骤摘要】
一种基于关系模型的超长文本的切分方法及系统


[0001]本专利技术涉及人工智能
,具体涉及一种基于关系模型的超长文本的切分方法及系统。

技术介绍

[0002]基于BERT预训练模型,使用序列标注方式解决关系抽取的方案,都存在一个难点,那就是文本超长问题。
[0003]目前通常的做法是根据模型能够输入的最大文本长度将原文切割成相同长度的几个子句,并基于子句独立的预测结果,在预测完成之后,根据句子长度计算预测结果在原文中的位置,即可解决文本超长的问题。但是在关系模型中一个句子中的实体往往与上下文中的其他实体之间存在着关系,该切割方法会将关系切断,导致信息损失,BERT预训练模型在预测时很可能会导致抽取的关系不正确。

技术实现思路

[0004]为了解决上述技术问题,本专利技术的目的在于提供的一种基于关系模型的超长文本的切分方法及系统,所采用的技术方案具体如下:第一方面,本专利技术一个实施例提供了一种基于关系模型的超长文本的切分方法,所述切分方法包括:S100,根据标点符号对原文本进行分割,得到N个子句P={P1,P2,

,P
N
},其中N为正整数;S200,将P中的子句按照原文本顺序重组得到M个重组子句{R1, R2,

,R
M
},每个重组子句均为关系模型的一个输入;其中,第i个重组子句R
i
与第i

1个重组子句R
i
‑1之间具有重叠文本SP
k
,SP
k
为R
i
‑1中最后一个子句P
k
中的文本;其中R
i
的获取步骤包括:S210,根据P
k
的文本长度L
k
和预设重叠长度OL0计算SL
k
=min(OL0,L
k
),其中,min(OL0,L
k
)为取OL0和L
k
的最小值作为SP
k
的重叠长度SL
k
;S220,根据SL
k
获取切分位置SD
k
,当SD
k
未将第g个实体a
g
切断时,由切分位置SD
k
开始累积P
k
中的字符得到SP
k
;当SD
k
将第g个实体a
g
切断时,根据实体a
g
中首字符的位置调整SD
k
并更新SL
k
,根据调整后的切分位置SD
k
开始累积P
k
中的字符得到SP
k
;S230,按照原文本的顺序从P
k+1
开始增加子句并累积文本长度,当SL
k
+∑
ej=1
L
k+j
≤S0且SL
k
+∑
e+1j=1
L
k+j
>S0时,确定结束子句为第k+e个子句P
k+e
,其中 L
k+j
为P
k+j
的文本长度,S0为输入关系模型的最大文本长度;S240,根据P
k+1
与P
k+e
确定目标子句{P
k+1
,P
k+2

,P
k+e
},将重叠文本SP
k
和目标子句{P
k+1
,P
k+2

,P
k+e
}拼接为R
i

[0005]第二方面,本专利技术另一个实施例提供了基于关系模型的超长文本的切分系统,其特征在于,所述系统包括处理器和非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程
序由处理器加载并执行以实现上述切分方法。
[0006]本专利技术具有如下有益效果:该方法根据切割位置和实体的位置确定最终得到的相邻重组子句之间的重叠文本,能够保证被切割的子句之间的关系相互关联,减少信息的损失,使关系模型预测的结果相对于等长度直接切割来说更加准确,解决了目前等长度切割时将关系切断的问题,同时能够保证实体不被切断,进一步的减少信息的损失,使关系模型能够更加准确的提取到相应的关系。
附图说明
[0007]为了更清楚地说明本专利技术实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
[0008]图1为本专利技术一个实施例所提供的关系模型输入文本的切分方法流程图;图2为本专利技术一个实施例所提供的R
i
的获取步骤流程图。
具体实施方式
[0009]为了更进一步阐述本专利技术为达成预定专利技术目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本专利技术提出的一种基于关系模型的超长文本的切分方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一个或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
[0010]除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。
[0011]下面结合附图具体的说明本专利技术所提供的一种基于关系模型的超长文本的切分方法及系统的具体方案。
[0012]请参阅图1,其示出了本专利技术一个实施例提供的一种基于关系模型的超长文本的切分方法流程图,该方法包括以下步骤:S100,根据标点符号对原文本进行分割,得到N个子句P={P1,P2,

,P
N
},其中N为正整数。
[0013]可选的,标点符号为句号、感叹号和问号。利用标点符号切分子句能够防止将子句的语义切断,保留更多更完整的语义信息。
[0014]S200,将P中的子句按照原文本顺序重组得到M个重组子句{R1, R2,

,R
M
},每个重组子句均为关系模型的一个输入;其中,第i个重组子句R
i
与第i

1个重组子句R
i
‑1之间具有重叠文本SP
k
,SP
k
为R
i
‑1中最后一个子句P
k
中的文本。其中i的取值范围为1到M,k的取值范围为1到N。
[0015]具体的,按照子句P中的顺序依次重组得到预设长度的子句,并且任意两个相邻的重组子句之间存在重叠文本,得到M个重组子句{R1,R本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于关系模型的超长文本的切分方法,其特征在于,所述切分方法包括:S100,根据标点符号对原文本进行分割,得到N个子句P={P1,P2,

,P
N
},其中N为正整数;S200,将P中的子句按照原文本顺序重组得到M个重组子句{R1, R2,

,R
M
},每个重组子句均为关系模型的一个输入;其中,第i个重组子句R
i
与第i

1个重组子句R
i
‑1之间具有重叠文本SP
k
,SP
k
为R
i
‑1中最后一个子句P
k
中的文本;其中R
i
的获取步骤包括:S210,根据P
k
的文本长度L
k
和预设重叠长度OL0计算SL
k
=min(OL0,L
k
),其中,min(OL0,L
k
)为取OL0和L
k
的最小值作为SP
k
的重叠长度SL
k
;S220,根据SL
k
获取切分位置SD
k
,当SD
k
未将第g个实体a
g
切断时,由切分位置SD
k
开始累积P
k
中的字符得到SP
k
;当SD
k
将第g个实体a
g
切断时,根据实体a
g
中首字符的位置调整SD
k
并更新SL
k
,根据调整后的切分位置SD
k
开始累积P
k
中的字符得到SP
k
;S230,按照原文本的顺序从P
k+1
开始增加子句并累积文本长度,当SL
k
+∑
ej=1
L
k+j
≤S0且SL
k
+∑
e+1j=1
L
k+j
>S0时,确定结束子句为第k+e个子句P
k+e
,其中 L
k+j
为P
k+j
的文本长度,S0为输入关系模型的最大文本长度;S240,根据P
k+1
与P
k+e
确定目标子句{P
k+1
,P

【专利技术属性】
技术研发人员:于伟靳雯赵洲洋石江枫王全修吴凡
申请(专利权)人:日照睿安信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1