System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于结构和文本联合表示的实训知识图谱补全方法及系统技术方案_技高网

基于结构和文本联合表示的实训知识图谱补全方法及系统技术方案

技术编号:40704279 阅读:7 留言:0更新日期:2024-03-22 11:03
本发明专利技术公开了一种基于结构和文本联合表示的实训知识图谱补全方法及系统,本发明专利技术方法包括将实训知识图谱的实训三元组通过编码器编码为头与关系向量u和尾向量v,以此计算文本语义距离以构建上下文损失L<subgt;context</subgt;、计算空间结构距离以构建结构损失L<subgt;structure</subgt;并加权构建总的损失函数,利用头与关系向量u和尾向量v样本结合总的损失函数训练编码器;利用完成训练的编码器对缺失头实体或尾实体的实训三元组进行补全。本发明专利技术旨在针对现有实训知识图谱补全模型容易出现模型先验知识缺乏和面对复杂关系时实体预测模糊的问题,充分利用文本先验知识和图结构信息实现预测准确的实训知识图谱补全。

【技术实现步骤摘要】

本专利技术涉及在线实训领域的实训知识图谱补全技术,具体涉及一种基于结构和文本联合表示的实训知识图谱补全方法及系统


技术介绍

1、随着互联网的快速发展,当前互联网上所提供的信息量非常巨大,并且还在日益扩充。知识图谱已经成为许多人工智能应用的重要知识来源,如信息提取、智能问答、事实核查等。知识图谱(knowledge graph,kg)是客观世界知识的结构化表示,由实体、关系、属性和语义文本组成,实体是客观世界中的对象,关系描述了两个实体之间的相互作用和影响,属性描述实体的特征,语义描述包括实体名称、数字值、文字信息等。知识图谱中的每条知识表示为一个三元组(h,r,t),众多三元组构成所说的知识图谱。而随着在线学习方式的发展,在线实训资源越来越丰富。为了提高在线实训资源的利用率,深入挖掘在线实训资源之间的关系,本文围绕在线实训资源知识图谱的补全展开研究工作。一个典型的在线实训知识图谱包含的实体(来源:educoder(头歌实践教学平台))的数据库)有实训作业,课堂,学生,学生小组,实践项目,教师团队,助教等,他们之间的关系包括课堂学习,创建,完成,构成等。这些实体和关系相互链接形成相应三元组,如(教师团队,创建,实践项目)。多个这样的实训三元组构成了在线实训知识图谱的基本要素。为进一步对已经构建好的实训知识图谱进行新三元组发现。本专利技术提出一种结合结构信息和文本知识的基于结构信息和先验文本知识的层次解码方法,以对在线实训知识图谱实现准确的补全。

2、为解决这一需求,给定的头节点或尾节点缺失的实训三元组,在所有候选实训实体中寻找最合适的实体补全缺失以使得补全的实训三元组评分较高,即构建一个实训知识图谱补全模型。按照利用的信息类型不同,可将实训知识图谱补全分为图嵌入方法(graphembedding kgc)和文本编码方法(textual encoding kgc)。早期的图嵌入补全主要是通过知识图谱嵌入,使得模型取得了很大的进步,这些方法将实体和关系都转换到一个连续的低维特征空间。主要包括基于翻译的模型、基于张量分解的模型与基于神经网络的模型。

3、(1)基于翻译的模型:word2vec是mikolov等人提出的将词嵌入低维空间的算法,受这项研究的启发,bordes等人将词嵌入算法中的平移不变性推广至知识图谱嵌入中,提出了transe模型(antoine bordes,nicolas usunier,alberto garcía-durán,jasonweston,and oksana yakhnenko.2013.translating embeddings for modeling multi-relational data.in advances in neural information processing systems 26:27thannual conference on neural information processing systems 2013.proceedingsof a meeting held december 5-8,2013,lake tahoe,nevada,united states,pages2787-2795.)。在transe中将实体h,t与关系r分别嵌入与嵌入向量h,t,r相同的嵌入空间r中,向量r作为h与t之间的平移向量。对于每一个实训三元组(h,r,t),transe都遵循以下的规则:h+r=t。每一个实训三元组事实(h,r,t)由得分函数评估其真实性,将h+r与t之间的距离定义为ll范数或l2范数的得分函数。尽管transe简单高效,但在表示复杂关系时存在局限性,例如1-n,n-1以及n-n等。为了克服这一缺点transh模型(zhang j.knowledgegraph embedding by translating on hyperplanes[j].aaai-association for theadvancement of artificial intelligence,2014.)被提出,该模型通过引入特定于关系的超平面,将实体投影到不同的超平面,以表达复杂关系。transr模型(lin,yankai et al.“learning entity and relation embeddings for knowledge graph completion.”aaaiconference on artificial intelligence(2015))为了区分实体和关系的差异,在不同的空间表示实体与关系,提升模型的效果。transd[19]模型(ji g,he s,xu l,etal.knowledge graph embedding via dynamic mapping matrix[c]//meeting of theassociation for computational linguistics&the international joint conferenceon natural language processing.2015.doi:10.3115/v1/p15-1067)为每个实体-关系对构建动态映射矩阵,进一步优化了transr模型。

4、(2)基于张量分解的模型。张量分解是获取低维向量的一种有效方法,rescal模型(zhanqiu zhang,jianyu cai,and jie wang.duality-induced regularizer for tensorfactorization based knowledge graph completion.nips,33,2020.)是代表性的方法。该方法使用一个3维二元张量x对实训知识图谱中三元组进行投影,值为1表示观测到实训三元组,值为0表示实训三元组不存在。该模式遵循的原则为:x=a*r*a(t)。其中a表示捕捉实体潜在语义的矩阵,r表示与关系相关联的矩阵。根据该原则其得分函数定义为:f(h,t)=h*mr*t。这里h,t∈r表示实体嵌入向量,mr表示关系r中的潜在语义。为了降低rescal模型的计算复杂度,distmult[10]模型将mr限制为对角矩阵减少关系的参数量。不同于distmult模型(bishan yang,wen-tau yih,xiaodong he,jianfeng gao,and lideng.2015.embedding entities and relations for learning and inference inknowledge bases.in 3rd international conference on learning representations,iclr 2015,san diego,ca,usa,may 7-9,2015,conference track proceedings.)每个关系在头实体与尾实体是对称的,complex模型(t.trouillon,c.dance,ˊe.gaussier,j.welbl,s.本文档来自技高网...

【技术保护点】

1.一种基于结构和文本联合表示的实训知识图谱补全方法,其特征在于,包括:

2.根据权利要求1所述的基于结构和文本联合表示的实训知识图谱补全方法,其特征在于,步骤S101包括:

3.根据权利要求1所述的基于结构和文本联合表示的实训知识图谱补全方法,其特征在于,步骤S102包括:

4.根据权利要求3所述的基于结构和文本联合表示的实训知识图谱补全方法,其特征在于,所述余弦相似度的计算函数表达式为:

5.根据权利要求3所述的基于结构和文本联合表示的实训知识图谱补全方法,其特征在于,所述超平面空间距离的计算函数表达式为:

6.根据权利要求3所述的基于结构和文本联合表示的实训知识图谱补全方法,其特征在于,步骤S301中将头与关系向量u投影到关系依赖的超平面上得到头与关系向量的投影H(h,r),将尾向量v投影到关系依赖的超平面上得到尾向量的投影H(t)的函数表达式为:

7.根据权利要求2所述的基于结构和文本联合表示的实训知识图谱补全方法,其特征在于,步骤S102中利用实训知识图谱的头与关系向量u和尾向量v样本,结合总的损失函数训练编码器时,包括分别针对实训知识图谱的实训三元组中的头实体或尾实体,采用词级别、实体级别和短语级别的知识掩蔽策略生成屏蔽了词、实体或短语的头与关系向量u和尾向量v样本以结合总的损失函数训练双塔编码器的两个知识增强编码器。

8.根据权利要求1所述的基于结构和文本联合表示的实训知识图谱补全方法,其特征在于,步骤S103中对缺失头实体或尾实体的实训三元组进行补全时,对缺失头实体的实训三元组进行补全包括:将缺失头实体的实训三元组的尾实体通过编码器编码为尾向量v;分别预测尾向量v和实训知识图谱中已知的头与关系向量u之间的总的损失函数,找到最小的总的损失函数对应的头与关系向量u并将其对应的头实体作为补全的头实体;对缺失尾实体的实训三元组进行补全包括:将缺失尾实体的实训三元组的头实体和关系通过编码器编码为头与关系向量u;分别计算头与关系向量u和实训知识图谱中已知的尾向量v之间的总的损失函数,找到最小的总的损失函数对应的尾向量v并将其对应的尾实体作为补全的尾实体。

9.一种基于结构和文本联合表示的实训知识图谱补全系统,包括相互连接的微处理器和存储器,其特征在于,所述微处理器被编程或配置以执行权利要求1~8中任意一项所述基于结构和文本联合表示的实训知识图谱补全方法。

10.一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其特征在于,所述计算机程序用于被微处理器编程或配置以执行权利要求1~8中任意一项所述基于结构和文本联合表示的实训知识图谱补全方法。

...

【技术特征摘要】

1.一种基于结构和文本联合表示的实训知识图谱补全方法,其特征在于,包括:

2.根据权利要求1所述的基于结构和文本联合表示的实训知识图谱补全方法,其特征在于,步骤s101包括:

3.根据权利要求1所述的基于结构和文本联合表示的实训知识图谱补全方法,其特征在于,步骤s102包括:

4.根据权利要求3所述的基于结构和文本联合表示的实训知识图谱补全方法,其特征在于,所述余弦相似度的计算函数表达式为:

5.根据权利要求3所述的基于结构和文本联合表示的实训知识图谱补全方法,其特征在于,所述超平面空间距离的计算函数表达式为:

6.根据权利要求3所述的基于结构和文本联合表示的实训知识图谱补全方法,其特征在于,步骤s301中将头与关系向量u投影到关系依赖的超平面上得到头与关系向量的投影h(h,r),将尾向量v投影到关系依赖的超平面上得到尾向量的投影h(t)的函数表达式为:

7.根据权利要求2所述的基于结构和文本联合表示的实训知识图谱补全方法,其特征在于,步骤s102中利用实训知识图谱的头与关系向量u和尾向量v样本,结合总的损失函数训练编码器时,包括分别针对实训知识图谱的实训三元组中的头实体或尾实体,采用词级别、实体级别和短语级别的知识掩蔽策略生成屏蔽了词、实体或短语的头与关系向量u...

【专利技术属性】
技术研发人员:王挺唐康唐晋韬李莎莎王攀成龙科含李冬尹浩然刘剑锋
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1