一种面向社会综合治理的实体消歧方法、装置及设备制造方法及图纸

技术编号:36810131 阅读:10 留言:0更新日期:2023-03-09 00:39
本发明专利技术公开了一种面向社会综合治理的实体消歧方法、装置及设备,方法包括:获取目标实体的第一隐向量、目标实体的第一词向量,目标实体的第一字符串,与多个条目中的每一个条目分别对应的第二词向量,以及与多个条目中的每一个条目分别对应的第二字符串;基于第一隐向量、第一词向量,第一字符串,多个第二词向量,以及多个第二字符串确定目标实体的第二隐向量;基于多个条目和第二隐向量,从多个条目中确定出一个目标条目,并将目标条目与目标实体进行绑定;通过此方式筛选出的目标条目并不一定与目标实体完全一致,解决了在综合治理领域消歧难度较高的问题,提高了对实体模糊消歧的能力。能力。能力。

【技术实现步骤摘要】
一种面向社会综合治理的实体消歧方法、装置及设备


[0001]本专利技术涉及自然语言处理领域,具体涉及一种面向社会综合治理的实体消歧方法、装置及设备。

技术介绍

[0002]实体消歧任务旨在把文本中的命名实体与知识库中的特定条目绑定,从而实现同一种实体在不同场景下的消歧。尤其在综合治理领域,同一个地点、组织、人物、事件往往会存在多种不同的表示方式,具有很高的消歧难度。
[0003]而现有的实体消歧方法往往关注与知识库中条目名称完全匹配的实体的消歧,但缺乏对实体模糊消歧的能力。

技术实现思路

[0004]因此,本专利技术要解决的技术问题在于克服现有技术中仅能实现与知识库中条目名称完全匹配的实体进行消歧的缺陷,从而提供一种面向社会综合治理的实体消歧方法、装置及设备。
[0005]第一方面,本专利技术提供了一种面向社会综合治理的实体消歧方法,包括:
[0006]获取目标实体的第一隐向量、目标实体的第一词向量,目标实体的第一字符串,与多个条目中的每一个条目分别对应的第二词向量,以及与多个条目中的每一个条目分别对应的第二字符串;基于第一隐向量、第一词向量,第一字符串,多个第二词向量,以及多个第二字符串确定目标实体的第二隐向量;基于多个条目和第二隐向量,从多个条目中确定出一个目标条目,并将目标条目与目标实体进行绑定。
[0007]本专利技术通过目标实体的第一隐向量、第一词向量、第一字符串、与知识库中多个条目中的每一个条目分别对应的第二词向量和与知识库中多个条目中的每一个条目分别对应的第二字符串确定出目标实体经过语义增强的第二隐向量;然后基于第二隐向量和知识库中的多个条目确定出一个目标条目,并将目标条目与目标实体进行绑定,从而完成目标实体的消歧。本方案中,生成的第二隐向量用来增强目标实体的语义表征,从而增强模型对目标实体词义的理解,然后从知识库中的多个条目中筛选出与目标实体语义最相近的目标条目。通过此方式筛选出的目标条目是所有条目中与目标实体语义最接近的,将目标条目与目标实体绑定,确定了目标实体在当前语境中,具备和目标条目相同的含义,实现了对目标实体的消歧,也解决了在综合治理领域消歧难度较高的问题。由于,在综合治理领域,经常会出现同一个地点、组织、人物、事件往往存在多种不同的表示方式的情况,所以,如果仅从知识库中筛选与目标实体名称完全一致的条目,就不会对目标实体得到很好的消歧。而在本专利技术中,筛选出的目标条目名称并不一定与目标实体完全一致,不仅避免了现有技术中的缺陷,也提高了对实体模糊消歧的能力。
[0008]结合第一方面,在第一方面的第一实施例中,基于第一隐向量、第一词向量,第一字符串,多个第二词向量,以及多个第二字符串确定目标实体的第二隐向量,包括:
[0009]基于第一词向量,第一字符串,多个第二词向量,以及多个第二字符串,从多个条目中筛选出至少一个候选条目;基于至少一个候选条目以及第一隐向量确定第二隐向量。
[0010]结合第一方面,在第一方面的第二实施例中,基于第一词向量,第一字符串,多个第二词向量,以及多个第二字符串,从多个条目中筛选出至少一个候选条目,包括:
[0011]基于第一词向量、多个第二词向量确定多个条目中的每一个条目与目标实体之间的余弦距离;基于第一字符串、多个第二字符串确定多个条目中的每一个条目与目标实体之间的编辑距离;基于所有的余弦距离和所有的编辑距离,从多个条目中筛选出至少一个候选条目。
[0012]本实施例中,通过计算目标实体与多个条目中每一个条目的余弦距离和编辑距离,从多个条目中筛选出与目标实体比较接近的候选条目,从而便于通过候选条目和第一隐向量使得对目标实体的语义理解与实际更贴合,从而增强第二隐向量的语义表征,间接使最终确定出的目标条目与目标实体更接近。
[0013]结合第一方面,在第一方面的第三实施例中,基于所有的余弦距离和所有的编辑距离,从多个条目中筛选出至少一个候选条目,包括:
[0014]对所有的余弦距离进行排序,根据排序的结果,从多个条目中筛选出第一预设数量的条目作为第一组候选条目;对所有的编辑距离进行排序,根据排序的结果,从多个条目中筛选出第二预设数量的条目作为第二组候选条目;候选条目包括第一组候选条目和第二组候选条目。
[0015]结合第一方面,在第一方面的第四实施例中,基于至少一个候选条目以及第一隐向量确定第二隐向量,包括:
[0016]从根据所有的条目预先生成的词向量矩阵中,获取与至少一个候选条目中每一个候选条目分别对应的第三词向量;基于至少一个候选条目中每一个候选条目分别对应的第三词向量和第一隐向量确定第二隐向量。
[0017]结合第一方面,在第一方面的第五实施例中,基于多个条目和第二隐向量,从多个条目中确定出一个目标条目,包括:
[0018]基于多个条目和第二隐向量,确定出与多个条目中的每一个条目分别对应的概率值;从所有概率值中筛选出一个最大值,并将与最大值对应的条目确定为目标条目。
[0019]本实施例通过第二隐向量和多个条目确定出与每一个条目分别对应的概率值,该概率值用于指示知识库中某一条目与第二隐向量的相似度,从而使最终确定的目标条目更加客观和准确。
[0020]第二方面,本专利技术提供了一种面向社会综合治理的实体消歧装置,包括:
[0021]获取模块,用于获取目标实体的第一隐向量、目标实体的第一词向量,目标实体的第一字符串,与多个条目中的每一个条目分别对应的第二词向量,以及与多个条目中的每一个条目分别对应的第二字符串;第一确定模块,用于基于第一隐向量、第一词向量,第一字符串,多个第二词向量,以及多个第二字符串确定目标实体的第二隐向量;第二确定模块,用于基于多个条目和第二隐向量,从多个条目中确定出一个目标条目,并将目标条目与目标实体进行绑定。
[0022]结合第二方面,在第二方面的第一实施例中,第一确定模块,包括:
[0023]筛选子模块,用于基于第一词向量,第一字符串,多个第二词向量,以及多个第二
字符串,从多个条目中筛选出至少一个候选条目;确定子模块,用于基于至少一个候选条目以及第一隐向量确定第二隐向量。
[0024]第三方面,本专利技术提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器用于存储计算机程序,计算机程序被处理器执行时,使处理器执行如
技术实现思路
中任一项的面向社会综合治理的实体消歧方法。
[0025]第四方面,本专利技术提供了一种计算机可读存储介质,其特征在于,计算机可读存储介质用于存储计算机指令,当计算机指令被处理器执行时,实现如
技术实现思路
中任一项的面向社会综合治理的实体消歧方法。
附图说明
[0026]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向社会综合治理的实体消歧方法,其特征在于,包括:获取目标实体的第一隐向量、所述目标实体的第一词向量,所述目标实体的第一字符串,与多个条目中的每一个所述条目分别对应的第二词向量,以及与多个条目中的每一个所述条目分别对应的第二字符串;基于所述第一隐向量、所述第一词向量,所述第一字符串,多个所述第二词向量,以及多个所述第二字符串确定所述目标实体的第二隐向量;基于多个所述条目和所述第二隐向量,从多个所述条目中确定出一个目标条目,并将所述目标条目与所述目标实体进行绑定。2.根据权利要求1所述的面向社会综合治理的实体消歧方法,其特征在于,所述基于所述第一隐向量、所述第一词向量,所述第一字符串,多个所述第二词向量,以及多个所述第二字符串确定所述目标实体的第二隐向量,包括:基于所述第一词向量,所述第一字符串,多个所述第二词向量,以及多个所述第二字符串,从多个所述条目中筛选出至少一个候选条目;基于所述至少一个候选条目以及所述第一隐向量确定所述第二隐向量。3.根据权利要求2所述的面向社会综合治理的实体消歧方法,其特征在于,所述基于所述第一词向量,所述第一字符串,多个所述第二词向量,以及多个所述第二字符串,从多个所述条目中筛选出至少一个候选条目,包括:基于所述第一词向量、多个所述第二词向量确定多个所述条目中的每一个条目与所述目标实体之间的余弦距离;基于所述第一字符串、多个所述第二字符串确定多个所述条目中的每一个条目与所述目标实体之间的编辑距离;基于所有的所述余弦距离和所有的编辑距离,从多个所述条目中筛选出至少一个所述候选条目。4.根据权利要求3所述的面向社会综合治理的实体消歧方法,其特征在于,所述基于所有的所述余弦距离和所有的编辑距离,从多个所述条目中筛选出至少一个所述候选条目,包括:对所有的所述余弦距离进行排序,根据排序的结果,从多个所述条目中筛选出第一预设数量的条目作为第一组候选条目;对所有的所述编辑距离进行排序,根据排序的结果,从多个所述条目中筛选出第二预设数量的条目作为第二组候选条目;所述候选条目包括所述第一组候选条目和所述第二组候选条目。5.根据权利要求2所述的面向社会综合治理的实体消歧方法,其特征在于,所述基于所述至少一个...

【专利技术属性】
技术研发人员:肖刚宋彦吴振刚田元贺陈伟东孔凡尘姜国晨
申请(专利权)人:高创安邦北京技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1