一种文本实体链接方法、系统、电子设备及存储介质技术方案

技术编号:34031738 阅读:19 留言:0更新日期:2022-07-06 11:18
本申请公开了一种文本实体链接方法,包括:获取目标法规的法规文本,从所述法规文本中提取法规标题和法规文号;根据所述法规标题生成对应的标题字典树;根据所述法规文号生成对应的文号字典树;若接收到待处理文本,则利用所述标题字典树和所述文号字典树对所述待处理文本进行实体链接。本申请能够提高对法规文本进行实体链接的效率和准确率。本申请还公开了一种文本实体链接系统、一种存储介质及一种电子设备,具有以上有益效果。具有以上有益效果。具有以上有益效果。

A text entity linking method, system, electronic device and storage medium

【技术实现步骤摘要】
一种文本实体链接方法、系统、电子设备及存储介质


[0001]本申请涉及文本处理
,特别涉及一种文本实体链接方法、系统、一种电子设备及一种存储介质。

技术介绍

[0002]实体链接是指将文本中的Mention(提及)链接到Knowledge Graph(知识图谱)中的entity(实体)的任务。Knowledge Graph可以理解为一个大规模的语义网络,旨在描述客观世界的概念、实体以及之间的关系,有时候也可以狭义地理解为知识库。Entity是知识图谱的基本单元,Mention指文本中表达实体的语言片段。
[0003]法规文本数量繁多且更新较快,仅靠关键词匹配和标点符号(如书名号、括号等)匹配实现实体链接的工作量较大、准确度较低。
[0004]因此,如何提高对法规文本进行实体链接的效率和准确率是本领域技术人员目前需要解决的技术问题。

技术实现思路

[0005]本申请的目的是提供一种文本实体链接方法、一种文本实体链接系统、一种存储介质及一种电子设备,能够提高对法规文本进行实体链接的效率和准确率。
[0006]为解决上述技术问题,本申请提供一种文本实体链接方法,该文本实体链接方法包括:
[0007]获取目标法规的法规文本,从所述法规文本中提取法规标题和法规文号;
[0008]根据所述法规标题生成对应的标题字典树;
[0009]根据所述法规文号生成对应的文号字典树;
[0010]若接收到待处理文本,则利用所述标题字典树和所述文号字典树对所述待处理文本进行实体链接。
[0011]可选的,获取目标法规的法规文本,包括:
[0012]从目标网站中爬取所述目标法规的法规文本;
[0013]从所述目标法规的法规文本中提取法规关联信息,并利用所述法规关联信息迭代爬取所述目标法规的法规文本。
[0014]可选的,在从所述法规文本中提取法规标题和法规文号之后,还包括:
[0015]对所述法规标题和所述法规文号进行拓展,得到含义相同的多个法规标题、以及多个含义相同的法规文号;
[0016]为所述法规文本设置唯一对应的法规ID,根据所述法规ID与所述法规标题的对应关系生成法规标题字典,根据所述法规ID与所述法规文号的对应关系生成法规文号字典;其中,所述法规标题字典的key为所述法规标题,所述法规标题字典的value为所述法规ID;所述法规文号字典的key为所述法规文号,所述法规文号字典的value为所述法规ID;
[0017]相应的,根据所述法规标题生成对应的标题字典树,包括:
[0018]根据所述法规标题字典中的法规标题生成对应的所述标题字典树;
[0019]相应的,根据所述法规文号生成对应的文号字典树;
[0020]根据所述法规文号字典中的法规文号生成对应的所述文号字典树。
[0021]可选的,对所述法规标题和所述法规文号进行拓展,包括:
[0022]对所述法规标题中的发布单位进行缩写,得到拓展后的法规标题;和/或,对所述法规标题中的发布单位进行扩写,得到拓展后的法规标题;和/或,对所述法规标题中的符号进行调整,得到拓展后的法规标题;
[0023]对所述法规文号进行缩写,得到拓展后的法规文号;和/或,对所述法规文号进行扩写,得到拓展后的法规文号。
[0024]可选的,利用所述标题字典树和所述文号字典树对所述待处理文本进行实体链接,包括:
[0025]利用所述标题字典树和所述文号字典树对所述待处理文本进行文本匹配得到文本匹配结果;其中,所述文本匹配结果包括标题文本和/或文号文本,所述标题文本为所述待处理文本中存在于所述标题字典树的文本,所述文号文本为所述待处理文本中存在于所述文号字典树的文本;
[0026]根据所述文本匹配结果对所述待处理文本进行实体链接。
[0027]可选的,根据所述文本匹配结果对所述待处理文本进行实体链接,包括:
[0028]对所述待处理文本中符合预设规则的所述标题文本和所述文号文本进行实体链接;其中,所述预设规则为所述标题文本和所述文号文本之间不存在间隔,或,所述标题文本和所述文号文本之间只存在书名号和/或括号;
[0029]和/或,将所述待处理文本中不符合所述预设规则的标题文本设置为无文号标题文本,查询所述待处理文本中距离所述无文号标题文本最近的时间文本,根据所述时间文本和所述无文号标题文本进行实体链接。
[0030]可选的,利用所述标题字典树和所述文号字典树对所述待处理文本进行实体链接,包括:
[0031]利用所述标题字典树和所述文号字典树确定所述待处理文本中的实体;所述实体包括法规标题和法规文号的文本;
[0032]根据所述实体与所述法规文本的对应关系对所述待处理文本进行实体链接,以使所述实体被点击后跳转至对应的法规文本。
[0033]本申请还提供了一种文本实体链接系统,该系统包括:
[0034]法规采集模块,用于获取目标法规的法规文本,从所述法规文本中提取法规标题和法规文号;
[0035]字典树生成模块,用于根据所述法规标题生成对应的标题字典树;还用于根据所述法规文号生成对应的文号字典树;
[0036]实体链接模块,用于若接收到待处理文本,则利用所述标题字典树和所述文号字典树对所述待处理文本进行实体链接。
[0037]本申请还提供了一种存储介质,其上存储有计算机程序,所述计算机程序执行时实现上述文本实体链接方法执行的步骤。
[0038]本申请还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算
机程序,所述处理器调用所述存储器中的计算机程序时实现上述文本实体链接方法执行的步骤。
[0039]本申请提供了一种文本实体链接方法,包括:获取目标法规的法规文本,从所述法规文本中提取法规标题和法规文号;根据所述法规标题生成对应的标题字典树;根据所述法规文号生成对应的文号字典树;若接收到待处理文本,则利用所述标题字典树和所述文号字典树对所述待处理文本进行实体链接。
[0040]本申请获取目标法规的法规文本,并提取法规文本的法规标题和法规文号。法规标题用于描述法规的名称、类型、内容等信息,法规文号用于描述法规的文件编号,法规文号可以包括发文日期、发文序号等信息。本申请根据法规标题构建标题字典树,根据法规文号生成对应的文号字典树,进而利用所述标题字典树和所述文号字典树对所述待处理文本进行实体链接,因此本申请能够提高对法规文本进行实体链接的效率和准确率。本申请同时还提供了一种文本实体链接系统、一种存储介质和一种电子设备,具有上述有益效果,在此不再赘述。
附图说明
[0041]为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0042]图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本实体链接方法,其特征在于,包括:获取目标法规的法规文本,从所述法规文本中提取法规标题和法规文号;根据所述法规标题生成对应的标题字典树;根据所述法规文号生成对应的文号字典树;若接收到待处理文本,则利用所述标题字典树和所述文号字典树对所述待处理文本进行实体链接。2.根据权利要求1所述文本实体链接方法,其特征在于,所述获取目标法规的法规文本,包括:从目标网站中爬取所述目标法规的法规文本;从所述目标法规的法规文本中提取法规关联信息,并利用所述法规关联信息迭代爬取所述目标法规的法规文本。3.根据权利要求1所述文本实体链接方法,其特征在于,在从所述法规文本中提取法规标题和法规文号之后,还包括:对所述法规标题和所述法规文号进行拓展,得到含义相同的多个法规标题、以及多个含义相同的法规文号;为所述法规文本设置唯一对应的法规ID,根据所述法规ID与所述法规标题的对应关系生成法规标题字典,根据所述法规ID与所述法规文号的对应关系生成法规文号字典;其中,所述法规标题字典的key为所述法规标题,所述法规标题字典的value为所述法规ID;所述法规文号字典的key为所述法规文号,所述法规文号字典的value为所述法规ID;相应的,根据所述法规标题生成对应的标题字典树,包括:根据所述法规标题字典中的法规标题生成对应的所述标题字典树;相应的,根据所述法规文号生成对应的文号字典树;根据所述法规文号字典中的法规文号生成对应的所述文号字典树。4.根据权利要求3所述文本实体链接方法,其特征在于,对所述法规标题和所述法规文号进行拓展,包括:对所述法规标题中的发布单位进行缩写,得到拓展后的法规标题;和/或,对所述法规标题中的发布单位进行扩写,得到拓展后的法规标题;和/或,对所述法规标题中的符号进行调整,得到拓展后的法规标题;对所述法规文号进行缩写,得到拓展后的法规文号;和/或,对所述法规文号进行扩写,得到拓展后的法规文号。5.根据权利要求1所述文本实体链接方法,其特征在于,利用所述标题字典树和所述文号字典树对所述待处理文本进行实体链接,包括:利用所述标题字典树和所述文号字典树对所述...

【专利技术属性】
技术研发人员:史源源黄志苹王瑞涂昶
申请(专利权)人:税友信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1