【技术实现步骤摘要】
知识图谱信息表示学习方法、系统、设备及终端
本专利技术属于知识图谱
,尤其涉及一种知识图谱信息表示学习方法、系统、设备及终端。
技术介绍
目前,谷歌在2012年提出知识图谱的概念,旨在将互联网中非结构化或半结构化的信息表示为结构化的知识。知识图谱以其强大的信息处理能力和开放的组织能力,为互联网时代的知识化组织和智能应用提供了契机,在语义智能搜索、个性化推荐、知识智能问答等方面得到了广泛的应用。知识图谱由语义网络发展而来,本质是由实体和关系组成的有向图,每个实体作为有向图的节点,每种关系作为有向图的边,每条知识表示为三元组(实体,关系,实体)的形式。基于这种有向图的表示方式,传统知识图谱的相关研究和应用往往需要借助于图算法来完成,面临着以下两个方面的问题:-方面,大规模知识图谱常面临数据稀疏的问题,利用图算法难以达到很好的效果;另一方面,图算法往往计算复杂度较高,计算效率较低,无法适应大规模知识图谱的应用需求。知识图谱表示学习的出现缓解了上述问题,其核心思想是将知识图谱中的实体和关系表示为低维连续空间中的实值向量,度量实体和关系间的语义联系。通过该方法得到实体和关系的向量表示,可以用于计算实体间的语义相似度,预测两个实体间的关系,便于拓展到知识图谱的各项研究和应用中。在过去的十几年中,出现了大量的知识图谱,如FreeBase,DBpedia和YAGO等,都存储着大量现实世界中复杂的结构化事实。知识图谱的典型数据模型是基于RDF(ResourceDescriptionFramework)的,它以(h ...
【技术保护点】
1.一种知识图谱信息表示学习方法,其特征在于,所述知识图谱信息表示学习方法包括:根据路径约束资源分配方法进行预处理;计算所有路径的可靠性,输出到训练集和测试集中;初始化模型,设置参数;根据迭代器生成三元组,并随机替换头尾实体;根据得分函数计算三元组的损失函数;根据路径可靠性计算额外路径的损失函数;使用Adam方法进行参数优化;使用实体预测和关系预测进行模型验证。/n
【技术特征摘要】
1.一种知识图谱信息表示学习方法,其特征在于,所述知识图谱信息表示学习方法包括:根据路径约束资源分配方法进行预处理;计算所有路径的可靠性,输出到训练集和测试集中;初始化模型,设置参数;根据迭代器生成三元组,并随机替换头尾实体;根据得分函数计算三元组的损失函数;根据路径可靠性计算额外路径的损失函数;使用Adam方法进行参数优化;使用实体预测和关系预测进行模型验证。
2.如权利要求1所述的知识图谱信息表示学习方法,其特征在于,所述根据路径约束资源分配方法进行预处理,包括:
(1)生成反向关系,读取关系对应id的文件,获取总的关系数量,将关系r的id加上总关系数量n得到的新的idr+n作为关系r的反关系;
(2)获取单步路径信息,读取train.txt和text.txt获得所有正确正向三元组,将所有的正确三元组添加反向关系生成新的反向三元组,正向三元组和反向三元组作为所有的正确三元组;通过循环遍历三元组得到所有的头实体,然后遍历每个头实体的关系和对应的尾实体;通过操作将训练数据中的所有的实体对存储到向量表中;将实体X到实体Y所有存在的路径的概率存储到向量表中;
(3)获取多步路径信息,通过上面的步骤我们已经将所有实体之间存在单步路径的实体对提取出来了;遍历三元组中的头实体e1,获得所有头实体e1的关系和尾实体e2;然后以e2作为头结点查找e2的关系和尾结点e3,并且将e1和e3作为一条新的路径连接起来,将该路径存入表中,对于不唯一的路径,将每条路径的概率存入表中;
(4)数据集预处理,将计算得到的路径可靠性的数据写入confidence.txt文件中,将训练集,测试集的三元组对应的所有的路径可靠性写入train_pra.txt和test_pra.txt文件中,为模型训练时所使用。
3.如权利要求2所述的知识图谱信息表示学习方法,其特征在于,步骤(3)中,采用路径约束资源PCRA,假设从一个头实体t出发经过多条路径p,衡量最后到达尾节点t的资源数量来衡量h和t之间p的可靠度,数学表达如下:
从头实体h出发,按照路径S0→S1→S2...→Sl,其中S0=h,t∈Sl,S是一个集合,尾节点可能有多个,Sl是尾节点的集合;则对于实体m∈Si,定义m的上一个节点的集合是Si-1(·,m),n是其中的一个节点(实体);Si(n,·)则是节点n(实体)的下一个节点的集合;Rp(n)是从实体n上获得的资源;定义头节点Rp(h)=1,最后尾节点t的Rp(t)的数值则代表了路径p从头节点h可以传输多少信息到尾节点t,即路径p的可靠性;R(p|h,t)为给定头节点h尾节点t时计算Rp(t)。
4.如权利要求1所述的知识图谱信息表示学习方法,其特征在于,所述读取训练集和测试集、建立模型并训练模型,包括:
(1)读取训练集和测试集
将train_pra.txt文件及test_pra.txt文件中的三元组读入内存中,作为正确的三元组数据集,同时将每个三元组对应路径的可靠性读入内存中;将训练集的三元组按epoch进行分割,存入迭代器中;
(2)建立基于旋转的考虑路径信息的知识图谱表示学习模型,得分函数为:
G(h,r,t)=E(h,r,t)+E(h,P,t),
其中,表示Hadamard积,即元素乘积;
(3)训练模型
1)设置参数:设置嵌入维度为1000,batchsize为512,学习率为0.001,训练步数为200000次;
2)初始化模型:将实体向量均匀初始化,将关系向量均匀初始化到0-2π之间;
3)开始训练模型:
迭代器生成一组正确三元组(h,r...
【专利技术属性】
技术研发人员:易运晖,周小寒,何先灯,权东晓,朱畅华,赵楠,陈南,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。