知识图谱架构的构建与应用方法、系统及介质技术方案

技术编号:24996145 阅读:43 留言:0更新日期:2020-07-24 17:58
本发明专利技术提供了一种知识图谱架构的构建与应用方法、系统及介质,包括:步骤1:通过对学术领域的实体进行定义与学术知识图谱的本体构建来完成知识建模;步骤2:进行实体对齐,即对于异构数据源知识库中的各个实体,找出属于现实世界中的同一实体;步骤3:利用基于规则的知识图谱推理方法来丰富知识图谱;步骤4:评估知识图谱架构‑‑AceKG嵌入知识的几种最先进的方法;步骤5:评估知识图谱架构—AceKG网络表示学习的几种最先进的方法。本发明专利技术不仅提供纯净的学术信息,还为研究人员提供了一个大规模的基准数据集,为评估知识嵌入和网络表示学习方法提供了基础,为了丰富提出的知识图谱架构。

【技术实现步骤摘要】
知识图谱架构的构建与应用方法、系统及介质
本专利技术涉及学术数据挖掘
,具体地,涉及一种知识图谱架构的构建与应用方法、系统及介质。尤其地,涉及一种用于学术数据挖掘的大规模知识图谱—AceKg。
技术介绍
知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性值对,实体间通过关系相互联结,构成网状的知识结构。20世纪中叶,普莱斯等人提出使用引文网络来研究当代科学发展的脉络的方法,首次提出了知识图谱的概念。1977年,知识工程的概念在第五届国际人工智能大会上被提出,以专家系统为代表的知识库系统开始被广泛研究和应用,直到20世纪90年代,机构知识库的概念被提出,自此关于知识表示、知识组织的研究工作开始深入开展起来。机构知识库系统被广泛应用于各科研机构和单位内部的资料整合以及对外宣传工作。2012年11月Google公司率先提出知识图谱(KnowledgeGraph,KG)的概念,表示将在其搜索结果中加入知识图谱的功能。其初衷是为了提高搜索引擎的能力,增强用户的搜索质量以及搜索体验。据2015年1月统计的数据,Google构建的KG已经拥有5亿个实体,约35亿条实体关系信息,已经被广泛应用于提高搜索引擎的搜索质量。虽然知识图谱(KnowledgeGraph)的概念较新,但它并非是一个全新的研究领域,早在2006年,BernersLee就提出了数据链接(linkeddata)的思想,呼吁推广和完善相关的技术标准如URI(Uniformresourceidentifier),RDF(resourcediscriptionframework),OWL(Webontologylanguage),为迎接语义网络的到来做好准备。随后掀起了一场语义网络研究的热潮,知识图谱技术正是建立在相关的研究成果之上的,是对现有语义网络技术的一次扬弃和升华。知识图谱已经成为支持许多人工智能相关应用的重要资源,如图分析、问答系统、web搜索等。知识图谱以三元组的形式描述和存储实体,是一种多关系图,由实体作为节点,关系作为不同类型的边组成。现在,许多公司和研究团队都在尝试将其领域内的知识组织成机器可读的知识图谱。尽管这些大规模的知识图谱收集了大量关于世界的事实信息,但仍有许多领域有待研究。学术网络数据挖掘利用论文、学者、机构、会议地点、研究领域等有用实体的信息,发现隐藏的关系,发现基于语义的信息。利用结构化的学术数据,多个学术数据库或知识图谱已经被构建出来。公共学术知识图谱可以为学者提供令人信服的学术信息,为研究者进行数据挖掘项目提供大规模的基准数据集。然而,现有数据库或知识图谱存在一些限制。首先,现有的成果中大多提供同质的学术图谱,而不同类型实体之间的关系仍处于丢失状态。其次,一些数据库只专注于一个特定的研究领域,限制了旨在发现跨领域知识的项目。第三,同义词和歧义也是知识挖掘的限制。为实体分配惟一的id是必要的解决方案,但是有些数据库直接使用实体的名称作为它们的id。针对现有技术中的缺陷,本专利技术的目的是提供一种用于学术数据挖掘的大规模知识图谱架构--AceKg用于给广大研究人员提供纯净的学术信息和一个大规模的基准数据集,用于开展具有挑战性的数据挖掘项目,包括链接预测,社区检测和学者分类。专利文献CN110347844A(申请号:201910633602.3)公开了一种太空目标知识图谱构建系统,包括文本信息收集、处理模块,文献信息收集、处理模块,知识图谱构建模块,知识图谱展示模块;针对太空目标情报保密性高、专业性强、直接获取困难等问题,通过获取新闻、微博以及学术期刊等太空目标相关信息,采用数据挖掘的方法,研究隐藏在海量信息背后的太空目标情报,直观显示太空目标属性信息,分析太空目标之间的相互关系,并运用软件技术集成两类知识图谱,构建太空目标知识图谱系统。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种知识图谱架构的构建与应用方法、系统及介质。根据本专利技术提供的知识图谱架构的构建与应用方法,包括:步骤1:通过对学术领域的实体进行定义与学术知识图谱的本体构建来完成知识建模;步骤2:进行实体对齐,即对于异构数据源知识库中的各个实体,找出属于现实世界中的同一实体;步骤3:利用基于规则的知识图谱推理方法来丰富知识图谱;步骤4:评估知识图谱架构--AceKG嵌入知识的几种最先进的方法;步骤5:评估知识图谱架构—AceKG网络表示学习的几种最先进的方法。优选地,所述学术领域的实体定义包括5类学术实体:论文、作者、研究领域、场所和机构,将每个实体的常用属性和实体之间的关系描述为三元组S(h,r,t);S表示三元组;h表示头实体;r表示实体之间的关系;t表示尾实体;所述学术知识图谱的本体构建包括31.3亿个三元组的学术实体。优选地,所述步骤2包括:将计算机科学领域的AceKG论文映射到IEEE、ACM和DBLP数据库中存储的论文,所述IEEE、ACM和DBLP数据库中的所有最新论文都与AceKG一致。优选地,所述步骤3包括:通过业务本体框架中的相关约束来做相关的推理,包括类别推理和属性推理。优选地,所述步骤4包括:给定一个三元组S(h,r,t)由两个实体组成的h,t∈E和关系r∈R,知识嵌入则是将每个实体映射到一个k维向量在嵌入空间中,并在知识图谱中定义一个评分函数来评估三元组(h,r,t)的合理性,E表示所有的实体集合,R表示实体之间的关系集合。优选地,所述步骤5包括:给定一个网络G=(V,E',A),其中,V表示顶点集,E'表示网络拓扑结构,A表示保存节点的属性,网络表示学习的任务是学习一个映射函数:其中rv是顶点v的学习表示,d是vr的维度,Rd表示d维实数空间。优选地,所述步骤4包括:步骤4.1:从AceKG中提取基准数据集,包括FB15K和WN18以及从AceKG中构造一个新的基准数据集AK18K用于知识嵌入;步骤4.2:对已抽取数据随机划分训练/有效/测试数据集并保存;步骤4.3:基于OpenKE进行代码编写,测试基于知识嵌入的链接预测结果。优选地,所述步骤5包括:步骤5.1:基于AceKG,选择5个研究领域和5个子领域;步骤5.2:分别抽取研究领域的所有学者、论文和场所,构建5个异构协作网络;步骤5.3:构建两个学术知识图;步骤5.4:采用logistic回归进行学者分类任务,采用5倍交叉验证,对分类结果进行微观F1和宏观F1评价;步骤5.5:基于学者分类任务中相同的节点表示,利用k-means算法进行学者聚类实验来评估模型的性能。根据本专利技术提供的知识图谱架构的构建与应用系统,包括:模块M1:通过对学术领域的实体进行定义与学术知识图谱的本体构建来完成知识建模;模块M2:进行实体对齐,即对于异构数据源知识库中的各个实体本文档来自技高网
...

【技术保护点】
1.一种知识图谱架构的构建与应用方法,其特征在于,包括:/n步骤1:通过对学术领域的实体进行定义与学术知识图谱的本体构建来完成知识建模;/n步骤2:进行实体对齐,即对于异构数据源知识库中的各个实体,找出属于现实世界中的同一实体;/n步骤3:利用基于规则的知识图谱推理方法来丰富知识图谱;/n步骤4:评估知识图谱架构--AceKG嵌入知识的几种最先进的方法;/n步骤5:评估知识图谱架构—AceKG网络表示学习的几种最先进的方法。/n

【技术特征摘要】
1.一种知识图谱架构的构建与应用方法,其特征在于,包括:
步骤1:通过对学术领域的实体进行定义与学术知识图谱的本体构建来完成知识建模;
步骤2:进行实体对齐,即对于异构数据源知识库中的各个实体,找出属于现实世界中的同一实体;
步骤3:利用基于规则的知识图谱推理方法来丰富知识图谱;
步骤4:评估知识图谱架构--AceKG嵌入知识的几种最先进的方法;
步骤5:评估知识图谱架构—AceKG网络表示学习的几种最先进的方法。


2.根据权利要求1所述的知识图谱架构的构建与应用方法,其特征在于,所述学术领域的实体定义包括5类学术实体:论文、作者、研究领域、场所和机构,将每个实体的常用属性和实体之间的关系描述为三元组S(h,r,t);
S表示三元组;h表示头实体;r表示实体之间的关系;t表示尾实体;
所述学术知识图谱的本体构建包括31.3亿个三元组的学术实体。


3.根据权利要求1所述的知识图谱架构的构建与应用方法,其特征在于,所述步骤2包括:将计算机科学领域的AceKG论文映射到IEEE、ACM和DBLP数据库中存储的论文,所述IEEE、ACM和DBLP数据库中的所有最新论文都与AceKG一致。


4.根据权利要求1所述的知识图谱架构的构建与应用方法,其特征在于,所述步骤3包括:通过业务本体框架中的相关约束来做相关的推理,包括类别推理和属性推理。


5.根据权利要求2所述的知识图谱架构的构建与应用方法,其特征在于,所述步骤4包括:给定一个三元组S(h,r,t)由两个实体组成的h,t∈E和关系r∈R,知识嵌入则是将每个实体映射到一个k维向量在嵌入空间中,并在知识图谱中定义一个评分函数来评估三元组(h,r,t)的合理性,E表示所有的实体集合,R表示实体之间的关系集合。


6.根据权利要求1所述的知识图谱架构的构建与应用方法,其特征在于,所述步骤5包括:给定一个网络G=(V,E'...

【专利技术属性】
技术研发人员:亓杰星李琦傅洛伊王新兵陈贵海
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1