【技术实现步骤摘要】
一种语义敏感的知识图谱随机游走采样方法
本专利技术涉及知识图谱领域,具体涉及一种语义敏感的知识图谱随机游走采样方法。
技术介绍
知识图谱(KnowledgeGraph)于2012年由Google最先提出,其基本理念就是将网络中存在的多源异构数据进行实体、属性与关系的抽取,以属性来描述实体,以实体间的关系刻画客观存在的事实(即客观存在的知识)。最终这些实体、属性与关系都将以图的形式进行存储形成一张丰富的知识图谱,并在此基础上实现基于图的查询与分析,进而为用户提供更智能、更丰富的知识获取、挖掘与搜索服务。其中,聚集型图查询问题是知识图谱图查询的重要研究内容之一,即针对实体数值属性的聚集函数查询问题,而知识图谱的采样则是回答聚集类图查询问题的基础。目前采样技术多用于结构化数据(如关系型数据)的聚集查询过程中,根据具体的采样需求对其中的一列或者多列构建索引,通过索引快速访问满足条件的记录,从而达到采样的目的。然而,在非结构化数据的采样过程中,由于其数据结构不规则或不完整性,无法直接将结构化数据的采样方法迁移过来。综上所述,目前聚集查询过程中的采样技术大多是针对结构化数据,缺少对非结构化数据,如图数据的采样方法。
技术实现思路
本专利技术的目的在于解决知识图谱中的采样问题,提出一种基于马尔科夫随机游走的语义敏感的知识图谱随机游走采样方法。本专利技术先对谓词语义相似度进行计算,接着从融入语义信息的知识图谱中框定出n跳子图作为总体空间,然后利用谓词的相似度计算出转移矩阵并在总体空间中进行 ...
【技术保护点】
1.一种语义敏感的知识图谱随机游走采样方法,该方法包含如下步骤:/n步骤1:谓词语义相似度计算/n以知识图谱G为输入,利用知识图谱嵌入模型TransE对知识图谱中的实体与谓词进行学习表示,形成一种将实体与关系嵌入到低维向量空间中的模型M;/n接着通过模型M计算G中每一个谓词与其他谓词之间的语义向量距离,再通过归一化得到谓词之间标准的语义相似度值;/n步骤2:语义敏感的n跳子图框定/n步骤2.1:语义敏感的n跳子图框定的初始化/n用户给定一个查询图,包含三类信息:已知实体e
【技术特征摘要】
1.一种语义敏感的知识图谱随机游走采样方法,该方法包含如下步骤:
步骤1:谓词语义相似度计算
以知识图谱G为输入,利用知识图谱嵌入模型TransE对知识图谱中的实体与谓词进行学习表示,形成一种将实体与关系嵌入到低维向量空间中的模型M;
接着通过模型M计算G中每一个谓词与其他谓词之间的语义向量距离,再通过归一化得到谓词之间标准的语义相似度值;
步骤2:语义敏感的n跳子图框定
步骤2.1:语义敏感的n跳子图框定的初始化
用户给定一个查询图,包含三类信息:已知实体e0,谓词p,目标实体类型t;
根据查询图中谓词p选取该谓词与知识图谱G中其他谓词的语义相似度,维持一个关于谓词p的语义映射表H,作为后续知识图谱G中实体与实体间边的权重;
目标是根据已知实体e0作为子图框定的起始点,对其n跳领域进行搜索,保留语义相似度大于阈值τ的实体及相关谓词,作为随机游走采样的总体空间;
步骤2.2:语义敏感的n跳子图框定的过程
创建两个集合C1和C2,分别用来保存n跳子图的实体及两个实体间相连的边;
接着将实体e0作为根结点,通过广度优先搜索算法在知识图谱G中往外遍历;
循环遍历完e0的邻居实体e,并记录当前广度优先搜索的层数layer;
若邻居实体e的类型为t,则直接将该实体添加于集合C1中,将连接到邻居实体e的边添加于集合C2中;若邻居实体e的类型符合目标实体类型t,则利用路径选择收益模型计算到邻居实体e的代价pss;
若代价pss大于阈值τ且从邻居实体e出发往后遍历n-layer层能找到实体类型符合目标实体类型t的实体,则将该实体添加于集合C1中,将连接到实体e的边添加于集合C2中,新建候选集合CSet,将符合条件的实体添加到候选集合CSet中作为下次迭代的结点;
不断迭代直到当前遍历层数layer大于用户限定跳数n结束,最终框定出n跳子图G′;
步骤3:转移矩阵的设计
针对步骤2框定出的n跳子图G′,根据语义相似性来设计该子图的转移矩阵;
步骤3.1:基于邻边语义相似性的归一化
对于子图中的每一个实体,考虑该实体与其周围相连实体的谓词分布,据此进行基于邻边语义相似性的归一化;
假设当前实体ei周围相...
【专利技术属性】
技术研发人员:徐小良,洪启帆,王宇翔,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。