一种语义敏感的知识图谱随机游走采样方法技术

技术编号:24996081 阅读:35 留言:0更新日期:2020-07-24 17:58
本发明专利技术公开了一种语义敏感的知识图谱随机游走采样方法。本发明专利技术首先,利用知识图谱嵌入方法进行知识图谱的表示学习,获取谓词向量空间。其次,利用谓词向量空间计算查询谓词与知识图谱谓词的语义相似度,并将其转换为知识图谱中边的权重。第三,基于语义相似性在知识图谱中框定一个给定实体的

【技术实现步骤摘要】
一种语义敏感的知识图谱随机游走采样方法
本专利技术涉及知识图谱领域,具体涉及一种语义敏感的知识图谱随机游走采样方法。
技术介绍
知识图谱(KnowledgeGraph)于2012年由Google最先提出,其基本理念就是将网络中存在的多源异构数据进行实体、属性与关系的抽取,以属性来描述实体,以实体间的关系刻画客观存在的事实(即客观存在的知识)。最终这些实体、属性与关系都将以图的形式进行存储形成一张丰富的知识图谱,并在此基础上实现基于图的查询与分析,进而为用户提供更智能、更丰富的知识获取、挖掘与搜索服务。其中,聚集型图查询问题是知识图谱图查询的重要研究内容之一,即针对实体数值属性的聚集函数查询问题,而知识图谱的采样则是回答聚集类图查询问题的基础。目前采样技术多用于结构化数据(如关系型数据)的聚集查询过程中,根据具体的采样需求对其中的一列或者多列构建索引,通过索引快速访问满足条件的记录,从而达到采样的目的。然而,在非结构化数据的采样过程中,由于其数据结构不规则或不完整性,无法直接将结构化数据的采样方法迁移过来。综上所述,目前聚集查询过程中的采样技术大多是针对结构化数据,缺少对非结构化数据,如图数据的采样方法。
技术实现思路
本专利技术的目的在于解决知识图谱中的采样问题,提出一种基于马尔科夫随机游走的语义敏感的知识图谱随机游走采样方法。本专利技术先对谓词语义相似度进行计算,接着从融入语义信息的知识图谱中框定出n跳子图作为总体空间,然后利用谓词的相似度计算出转移矩阵并在总体空间中进行随机游走达到马尔科夫稳态,最终基于每个实体的稳态概率进行采样,形成一种语义敏感的知识图谱随机游走采样方法,为基于知识图谱的聚集查询提供有效的样本支持,具体内容如下:步骤1:谓词语义相似度计算以知识图谱G为输入,利用知识图谱嵌入模型(如TransE等)对知识图谱中的实体与谓词进行学习表示,即通过随机梯度下降(SGD)训练方法得到所有实体与谓词的向量表示,形成一种将实体与关系嵌入到低维向量空间中的模型M。接着通过模型M计算G中每一个谓词与其他谓词之间的语义向量距离,再通过归一化得到谓词之间标准的语义相似度值。最终,任意两个谓词之间都有一个语义相似度,可为后续步骤提供必要的语义信息。步骤2:语义敏感的n跳子图框定考虑到完整知识图谱过于庞大,在其上进行随机游走以进行实采样存在两个问题:一是游走空间太大,基于马尔科夫的随机游走收敛速率较低;二是大量查询无关节点会对马尔科夫稳定状态下各个节点的访问概率产生影响,无法满足样本的无偏性(样本质量较低)。此外,知识图谱图查询的答案分布往往具有局部性,即大多数答案能在给定实体的n跳邻域内找到。因此本方法将利用图查询结果分布的局部性,基于第一步获取的语义信息框定n跳子图以构建马尔科夫网络。步骤2.1:语义敏感的n跳子图框定的初始化用户给定一个查询图,其需要包含三类信息:已知实体e0,谓词p,目标实体类型t。根据查询图中谓词p选取该谓词与知识图谱G中其他谓词的语义相似度,维持一个关于谓词p的语义映射表H,作为后续知识图谱G中实体与实体间边的权重。目标是根据已知实体e0作为子图框定的起始点,对其n跳领域进行搜索,保留语义相似度大于阈值τ的实体及相关谓词,作为随机游走采样的总体空间。步骤2.2:语义敏感的n跳子图框定的过程首先,需要创建两个集合C1和C2,分别用来保存n跳子图的实体及两个实体间相连的边。接着将实体e0作为根结点,通过广度优先搜索(BFS)算法在知识图谱G中往外遍历。循环遍历完e0的邻居实体e,并记录当前广度优先搜索的层数layer。若邻居实体e的类型为t,则直接将该实体添加于集合C1中,将连接到邻居实体e的边添加于集合C2中。若邻居实体e的类型符合目标实体类型t,则利用路径选择收益模型计算到邻居实体e的代价pss。若代价pss大于阈值τ且从邻居实体e出发往后遍历n-layer层能找到实体类型符合目标实体类型t的实体,则将该实体添加于集合C1中,将连接到实体e的边添加于集合C2中,新建候选集合CSet,将符合条件的实体添加到候选集合CSet中作为下次迭代的结点。不断迭代直到当前遍历层数layer大于用户限定跳数n结束,最终框定出n跳子图G′。其中路径选择收益模型计算代价pss的公式为:其中,n为从已知实体e0到遍历到的实体的路径长度,wi为从已知实体e0到遍历到的实体点的所有边的权重,从语义映射表H中获得。为已知实体e0到遍历到的实体路径上的权重的乘积。步骤3:转移矩阵的设计针对步骤2框定出的n跳子图G′,根据语义相似性来设计该子图的转移矩阵。步骤3.1:基于邻边语义相似性的归一化对于子图中的每一个实体,考虑该实体与其周围相连实体的谓词分布,据此进行基于邻边语义相似性的归一化。当邻边的语义相似度越大,表明向其相连的邻结点具有更高的转移概率。假设当前实体ei周围相连实体为N(ei),ei与周围相连实体ej的边为eij,其中ej∈N(ei),通过邻边语义相似性归一化公式计算实体间的转移概率pij。其中邻边语义相似性归一化公式为:pij=Z·M(eij)其中Z为归一化常数,M(eij)为边eij在语义映射表H中的映射值。步骤3.2:转移概率的衰减在考虑步骤3.1的基础上,为了消除无效点对转移概率的影响,据此可以给限定层数m之外的边进行转移概率衰减。d表示已知实体e0与当前实体ei的距离,当d>m时,进行转移概率的衰减(其中f为衰减系数),当d≤m时,转移概率不变,其中,pij为转移矩阵中第i行第j列的元素。步骤4:随机游走达到马尔科夫稳态根据步骤3生成的转移矩阵,在子图G′上进行随机游走,获得一个稳定的概率分布π,对子图G′上任意一实体都有其对应的稳态访问概率πi,且满足步骤5:基于稳态概率分布的采样筛选出子图G′中所有类型为t的实体,得到符合类型的实体集合Et,其中实体分别为对应稳态概率分别为对集合Et中m个实体的稳态概率按如下公式进行归一化,其中Z为归一化常数。用户给定样本容量k,创建结果集R存放样本点,循环遍历集合Et,假设当前遍历到的结点为其稳态访问概率为接着针对每一个遍历到的结点生成一个随机小数r,0≤r≤1。若则将该结点存放于结果集R中,若不做处理。最终循环遍历直到结果集中样本点数量达到用户指定的样本容量k时结束。本专利技术的有益效果:本专利技术通过融入利用TransE方法训练出的语义信息,利用语义敏感的知识图谱随机游走采样方法,能根据用户的采样需求快速地给出质量较高的样本结果。该样本结果能直接用于聚集型图查询问题中,打破了原有需要统计所有答案再调用聚集函数进行计算的聚集型图查询方法,极大提高查询效率。此外,本专利技术提出的采样方法可保证大多数样本点为正确答案,提高了查询精度。附图说明图1为本专利技术的系统流本文档来自技高网...

【技术保护点】
1.一种语义敏感的知识图谱随机游走采样方法,该方法包含如下步骤:/n步骤1:谓词语义相似度计算/n以知识图谱G为输入,利用知识图谱嵌入模型TransE对知识图谱中的实体与谓词进行学习表示,形成一种将实体与关系嵌入到低维向量空间中的模型M;/n接着通过模型M计算G中每一个谓词与其他谓词之间的语义向量距离,再通过归一化得到谓词之间标准的语义相似度值;/n步骤2:语义敏感的n跳子图框定/n步骤2.1:语义敏感的n跳子图框定的初始化/n用户给定一个查询图,包含三类信息:已知实体e

【技术特征摘要】
1.一种语义敏感的知识图谱随机游走采样方法,该方法包含如下步骤:
步骤1:谓词语义相似度计算
以知识图谱G为输入,利用知识图谱嵌入模型TransE对知识图谱中的实体与谓词进行学习表示,形成一种将实体与关系嵌入到低维向量空间中的模型M;
接着通过模型M计算G中每一个谓词与其他谓词之间的语义向量距离,再通过归一化得到谓词之间标准的语义相似度值;
步骤2:语义敏感的n跳子图框定
步骤2.1:语义敏感的n跳子图框定的初始化
用户给定一个查询图,包含三类信息:已知实体e0,谓词p,目标实体类型t;
根据查询图中谓词p选取该谓词与知识图谱G中其他谓词的语义相似度,维持一个关于谓词p的语义映射表H,作为后续知识图谱G中实体与实体间边的权重;
目标是根据已知实体e0作为子图框定的起始点,对其n跳领域进行搜索,保留语义相似度大于阈值τ的实体及相关谓词,作为随机游走采样的总体空间;
步骤2.2:语义敏感的n跳子图框定的过程
创建两个集合C1和C2,分别用来保存n跳子图的实体及两个实体间相连的边;
接着将实体e0作为根结点,通过广度优先搜索算法在知识图谱G中往外遍历;
循环遍历完e0的邻居实体e,并记录当前广度优先搜索的层数layer;
若邻居实体e的类型为t,则直接将该实体添加于集合C1中,将连接到邻居实体e的边添加于集合C2中;若邻居实体e的类型符合目标实体类型t,则利用路径选择收益模型计算到邻居实体e的代价pss;
若代价pss大于阈值τ且从邻居实体e出发往后遍历n-layer层能找到实体类型符合目标实体类型t的实体,则将该实体添加于集合C1中,将连接到实体e的边添加于集合C2中,新建候选集合CSet,将符合条件的实体添加到候选集合CSet中作为下次迭代的结点;
不断迭代直到当前遍历层数layer大于用户限定跳数n结束,最终框定出n跳子图G′;
步骤3:转移矩阵的设计
针对步骤2框定出的n跳子图G′,根据语义相似性来设计该子图的转移矩阵;
步骤3.1:基于邻边语义相似性的归一化
对于子图中的每一个实体,考虑该实体与其周围相连实体的谓词分布,据此进行基于邻边语义相似性的归一化;
假设当前实体ei周围相...

【专利技术属性】
技术研发人员:徐小良洪启帆王宇翔
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1