System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于知识图谱,具体涉及一种基于角色感知的图谱构建方法、系统、终端及存储介质。
技术介绍
1、在当前互联网和大数据时代,随着云计算、物联网、人工智能等技术的发展,数据的采集和获取更加便利,但同时信息的爆炸性增长也使得人们越来越难以有效地管理和理解这些信息。尤其对复杂事件的知识挖掘,以及复杂事件与实体其他信息的融合分析还存在很大空间,如何有效开发利用多源异构数据,构建起信息量丰富全面的多元关系知识图谱,能为城市治理、交通监测、安全生产等提供重要的数据支撑,也是信息化转向数据智能不可或缺的重要前提。
2、目前构建事件图谱一般通过引入虚拟实体分解为多个三元组进行表示,但在分解转换过程中,因传统方法以两元实体之间的关系为主,多元实体间的关系表示并不充分,且损失了大量时空信息。因此需要寻找一种可以更好表达事件间多元关系的模型。
技术实现思路
1、针对现有技术的上述不足,本专利技术提供一种基于角色感知的图谱构建方法、系统、终端及存储介质,以解决上述技术问题。
2、第一方面,本专利技术提供一种基于角色感知的图谱构建方法,包括:
3、从事件数据中抽取时间、地点和人物,并将抽取的时间、地点和人物作为角色,建立角色之间的关系;
4、将事件数据中的实体构建为角色,以角色作为虚拟实体节点,以角色之间的多元关系作为边,通过构建角色向量和模式矩阵构建知识图谱;
5、构建评分函数和损失函数,基于评分函数和损失函数,按最小化损失函数的策略对所述知
6、在一个可选的实施方式中,从事件数据中抽取时间、地点和人物,并将抽取的时间、地点和人物作为角色,建立角色之间的关系,包括:
7、从目标网页爬取事件数据,并将所述事件数据保存至基础数据库;
8、利用信息抽取模型从事件数据中抽取时间、地点、人物和事件类型;
9、基于抽取的时间生成时序关系,基于抽取的地点生成位置关系,并基于时序关系和位置关系生成事件类型的因果关系。
10、在一个可选的实施方式中,将事件数据中的实体构建为角色,以角色作为虚拟实体节点,以角色之间的多元关系作为边,通过构建角色向量和模式矩阵构建知识图谱,包括:
11、为角色构建基向量,并利用所述基向量和权重矩阵生成角色向量;
12、预先生成事件类型的嵌入向量,基于所述角色实体对应的事件类型,确定所述角色实体对应的事件嵌入向量;
13、基于角色实体之间的关系类型,确定角色实体的关系嵌入向量;
14、将多元关系事件通过引入角色实体分解为多个三元组及三元组的附加属性值集合;
15、将多元关系事件的多个三元组及三元组的附加属性值集合引入模式矩阵,以捕获角色与所有相关实体的兼容性,所述模式矩阵的行和列代表不同多元事件的角色实体,所述模式矩阵的元素表示角色实体之间的关系。
16、在一个可选的实施方式中,构建评分函数和损失函数,基于评分函数和损失函数,按最小化损失函数的策略对所述知识图谱进行训练,包括:
17、构建基于距离的评分函数:
18、;
19、其中,pr i[1,:]e1表示关系r中第i个角色和第1个实体的相关性;
20、定义损失函数为负对数似然损失,最大化观测事实集合在模型中的出现概率的对数,并在损失函数中加入正则化项,对嵌入向量的复杂度进行惩罚;
21、从多元关系知识库中提取出所有不包含缺失实体的多元组作为训练样本,并构建相应的观测事实集合;
22、使用梯度下降法对知识图谱模型的嵌入向量和其他可学习参数进行优化,以最小化损失函数;
23、在训练过程中,定期在验证集上评估知识图谱模型性能,并根据需要调整知识图谱模型结构、学习率、正则化强度;
24、对于具有缺失实体的多元组,使用训练好的知识图谱模型计算所有可能的候选实体填充后的多元组的估分,选择估分最高的实体作为预测结果;
25、设计迭代补全策略,先补全一部分确定的实体,然后基于更新后的知识图谱再次进行预测,直到达到收敛或满足特定停止条件;
26、将所有补全后的多元组重新整合到知识图谱中。
27、第二方面,本专利技术提供一种基于角色感知的图谱构建系统,包括:
28、信息抽取模块,用于从事件数据中抽取时间、地点和人物,并将抽取的时间、地点和人物作为角色,建立角色之间的关系;
29、图谱构建模块,用于将事件数据中的实体构建为角色,以角色作为虚拟实体节点,以角色之间的多元关系作为边,通过构建角色向量和模式矩阵构建知识图谱;
30、迭代训练模块,用于构建评分函数和损失函数,基于评分函数和损失函数,按最小化损失函数的策略对所述知识图谱进行训练。
31、在一个可选的实施方式中,所述信息抽取模块包括:
32、事件爬取单元,用于从目标网页爬取事件数据,并将所述事件数据保存至基础数据库;
33、实体抽取单元,用于利用信息抽取模型从事件数据中抽取时间、地点、人物和事件类型;
34、关系生成单元,用于基于抽取的时间生成时序关系,基于抽取的地点生成位置关系,并基于时序关系和位置关系生成事件类型的因果关系。
35、在一个可选的实施方式中,所述图谱构建模块包括:
36、向量构建单元,用于为角色构建基向量,并利用所述基向量和权重矩阵生成角色向量;
37、第一嵌入单元,用于预先生成事件类型的嵌入向量,基于所述角色实体对应的事件类型,确定所述角色实体对应的事件嵌入向量;
38、第二嵌入单元,用于基于角色实体之间的关系类型,确定角色实体的关系嵌入向量;
39、事件分解单元,用于将多元关系事件通过引入角色实体分解为多个三元组及三元组的附加属性值集合;
40、矩阵引入单元,用于将多元关系事件的多个三元组及三元组的附加属性值集合引入模式矩阵,以捕获角色与所有相关实体的兼容性,所述模式矩阵的行和列代表不同多元事件的角色实体,所述模式矩阵的元素表示角色实体之间的关系。
41、在一个可选的实施方式中,所述迭代训练模块包括:
42、函数构建单元,用于构建基于距离的评分函数:
43、;
44、其中,pr i[1,:]e1表示关系r中第i个角色和第1个实体的相关性;
45、损失定义单元,用于定义损失函数为负对数似然损失,最大化观测事实集合在模型中的出现概率的对数,并在损失函数中加入正则化项,对嵌入向量的复杂度进行惩罚;
46、基础训练单元,用于从多元关系知识库中提取出所有不包含缺失实体的多元组作为训练样本,并构建相应的观测事实集合;
47、学习优化单元,用于使用梯度下降法对知识图谱模型的嵌入向量和其他可学习参数进行优化,以最小化损失函数;
48、参数调整单元,用于在训练过程本文档来自技高网...
【技术保护点】
1.一种基于角色感知的图谱构建方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,从事件数据中抽取时间、地点和人物,并将抽取的时间、地点和人物作为角色,建立角色之间的关系,包括:
3.根据权利要求1所述的方法,其特征在于,将事件数据中的实体构建为角色,以角色作为虚拟实体节点,以角色之间的多元关系作为边,通过构建角色向量和模式矩阵构建知识图谱,包括:
4.根据权利要求1所述的方法,其特征在于,构建评分函数和损失函数,基于评分函数和损失函数,按最小化损失函数的策略对所述知识图谱进行训练,包括:
5.一种基于角色感知的图谱构建系统,其特征在于,包括:
6.根据权利要求5所述的系统,其特征在于,所述信息抽取模块包括:
7.根据权利要求5所述的系统,其特征在于,所述图谱构建模块包括:
8.根据权利要求5所述的系统,其特征在于,所述迭代训练模块包括:
9.一种终端,其特征在于,包括:
10.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述可读存储介质上存储有基
...【技术特征摘要】
1.一种基于角色感知的图谱构建方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,从事件数据中抽取时间、地点和人物,并将抽取的时间、地点和人物作为角色,建立角色之间的关系,包括:
3.根据权利要求1所述的方法,其特征在于,将事件数据中的实体构建为角色,以角色作为虚拟实体节点,以角色之间的多元关系作为边,通过构建角色向量和模式矩阵构建知识图谱,包括:
4.根据权利要求1所述的方法,其特征在于,构建评分函数和损失函数,基于评分函数和损失函数,按最小化损失函数的策略对所述知识图谱进行训练,包括:
5....
【专利技术属性】
技术研发人员:章敏,贾晓丰,江茜,籍瑞庆,毛伟,赵敏,
申请(专利权)人:北京市大数据中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。