基于知识图谱与语言模型的联合推理方法技术

技术编号:29676415 阅读:15 留言:0更新日期:2021-08-13 21:58
本发明专利技术公开了一种基于知识图谱与语言模型的联合推理方法,包括获取QA文档并构建知识图谱;对QA文档编码表示并在知识图谱中检索得到知识图谱子图;构建用于表示QA文档中上下文的节点并将该节点连接到知识图谱子图中得到联合图;计算每对QA的相关性评分;进行联合图上的消息传递;对QA文档的编码表示、QA上下文的节点表示和联合图进行操作并输入到最终的模型,完成知识图谱与语言模型的联合推理。本发明专利技术方法在工作图上的联合推理算法可以同时更新KG实体和QA上下文节点的向量表示,弥合了两种信息源之间的鸿沟,从而能够更好的识别有效信息和更好的进行联合推理,而且可靠性高,实用性好。

【技术实现步骤摘要】
基于知识图谱与语言模型的联合推理方法
本专利技术属于自然语言处理领域,具体涉及一种基于知识图谱与语言模型的联合推理方法。
技术介绍
随着经济技术的发展和人们生活水平的提高,自然语言处理技术已经广泛应用于人们的生产和生活当中,给人们的生产和生活带来了无尽的便利。知识问答系统早在20世纪60年代就已出现,伴随着人工智能的兴衰,问答系统也经历了半个多世纪的荣枯,直到今天仍然方兴未艾。近年来,对话系统不断发展,对话功能不断增多,对数据内容和数据结构也提出了更高的要求。在问答系统对话中,由于涉及的数据量及不同领域间的特征差异较大,基于问答对匹配的检索式回答系统无法有效回答海量且富含信息的问句。也就是说,一个好的问答系统必须能够理解问句并对其进行推理。最近,经过预训练的语言模型(LanguageModels,LMs)在许多问答任务中都表现出惊人的成功。然而,尽管LM拥有广泛的知识覆盖面,但他们在结构化推理上变现不佳。另一方面,知识图(KnowledgeGraph,KG)更适合结构化推理,并且可以通过提供推理路径来实现可解释的预测,但缺乏覆盖范围,适合垂直领域。有学者提出,利用两种结合来进行推理;但是,如何利用两种知识来源(LM+KG)进行有效推理,仍然具有两个挑战:(i)如何从大型KG中识别知识(有用信息);(ii)如何捕捉问答(Question&Answer,QA)上下文的本质内容和知识图的结构,以便对这两种信息源进行联合推理。现有的LM+KG推理方法,将QA上下文和KG视为两种单独的方式。该方法将LM分别应用于QA上下文,并将图神经网络(GraphNeuralNetwork,GNN)应用于KG,并且不会相互更新或统一其表示。但是,这种分离可能会限制该方法执行结构化推理(例如处理否定)的能力。
技术实现思路
本专利技术的目的在于提供一种能够更好的识别有效信息和更好的进行联合推理,而且可靠性高,实用性好的基于知识图谱与语言模型的联合推理方法。本专利技术提供的这种基于知识图谱与语言模型的联合推理方法,包括如下步骤:S1.获取QA文档,并构建知识图谱;S2.对步骤S1获取的QA文档进行编码表示,并在步骤S1构建的知识图谱中根据编码的QA文档进行检索,从而得到知识图谱子图;S3.构建用于表示QA文档中上下文的节点,并将该节点连接到步骤S2得到的知识图谱子图中,从而构建得到联合图;S4.计算每对QA的相关性评分,从而表示QA节点与联合图中其他节点之间的关系;S5.进行联合图上的消息传递;S6.对QA文档的编码表示、QA上下文的节点表示和联合图进行操作,并输入到最终的模型,从而完成知识图谱与语言模型的联合推理。步骤S1所述的获取QA文档,并构建知识图谱,具体为利用语言模型对QA文档进行实体提取,从而得到问题实体和选择实体;然后根据实体名称和构建好的本体架构识别实体之间的关系,在实体之间建立边,从而构成知识图。步骤S2所述的对步骤S1获取的QA文档进行编码表示,并在步骤S1构建的知识图谱中根据编码的QA文档进行检索,从而得到知识图谱子图,具体为采用语言模型对QA文档进行编码表示,同时采用Tri-gram来确保下一个单词的约束性和可靠性,最后从已构建好的知识图谱中根据QA上下文来检索,并得到知识图谱子图。步骤S3所述的构建用于表示QA文档中上下文的节点,并将该节点连接到步骤S2得到的知识图谱子图中,从而构建得到联合图,具体为构建用于表示QA文档中上下文的节点m,并将节点m连接到知识图谱子集gsub中vq,a中的每个主题实体,并采用两个新的关系类型rm,q和rm,a构建对应的边;同时,在图gsub中每个节点都与下述四种类型之一相关联:上下文节点m、vq中的节点、va中的节点和其他节点;记上下文节点m的文本为test(m),知识图谱中的节点v的文本为test(v);使用QA文档中上下文的语言模型来表示对m初始化节点编码,并采用SMRR编码技术编码gsub中的每一个节点。步骤S4所述的计算每对QA的相关性评分,从而表示QA节点与联合图中其他节点之间的关系,具体为采用语言模型对以QA上下文为条件的每个KG节点v的相关性进行评分;对于每个节点v,将test(v)与test(m)连接起来,并采用如下算式计算相关性得分ρv:ρv=fhead(fenc([text(m);text(v)]))式中test(v)为节点v实体,text(m)为上下文实体;fenc()为LM模型;fhead()为LM模型;相关性得分ρv用于捕获每个知识图谱节点相对于给定QA上下文的重要性。步骤S5所述的进行联合图上的消息传递,具体包括如下步骤:将GNN模块建立在图注意力框架上,通过在图上邻居之间传递的迭代消息来推导节点表示;在L层LK-GNN中,对于每一层,将每个节点t∈vw的表示更新为其中Nt为节点t的邻域;记录从每个相邻节点s到t的消息;αst为一个关注权重,用于将每个消息ist从s缩放到t;然后将消息的综合通过批处理归一化后,通过2层MLP;对于每个节点t∈vs,采用线性变换fn来设置所述线性变换用于将初始节点编码表示映射到首先获得每个节点t的类型编码表示ut;从节点s到t的关系编码表示rst为rst=fr(est,us,ut),其中ut=fu(ut);us∈{0,1}|T|为one-hot向量,用于表示s的节点类型;ut∈{0,1}|T|为one-hot向量,用于表示t的节点类型;est∈{0,1}|R|为one-hot向量,用于边(s,t)的关系类型;fu:为一个线性化,且fr:为一个2层的MLP;然后计算从节点s到t的信息计算如下:式中fm:为一个线性变换;将每个节点t的相关性得分通过下式编码:ρt=fρ(ρt)其中fρ:是一个MLP;采用如下等式获取query向量和key向量:其中fq:和fk:均为线性变换函数;然后,注意力权重αst为式中D为维度大小;γ'st为中间变量;t'为节点s的邻居节点。步骤S6所述的对QA文档的编码表示、QA上下文的节点表示和联合图进行操作,并输入到最终的模型,从而完成知识图谱与语言模型的联合推理,具体为给定问题q和答案选择a,采用来自QA上下文和知识图谱的信息来计算答案的概率p(a|q)∝exp(MLP(mLM,mGNN,g)),其中和g表示的池化;同时采用交叉熵损失来进行模型优化。本专利技术提供的这种基于知识图谱与语言模型的联合推理方法,首先设计了QA上下文和KG的联合图表示,其次设计了一个节点相关性评分函数扩充每个节点的特征,以及一个基于注意力机制的GNN模块进行推理;本专利技术通过这三个设计,在工作图上的联合推理算法可以同时更新KG实体和QA上下文节点的向量表示,弥合了两种信息源之间的鸿沟,从而能够更好的识别有效信息和更好的进行联合推理,而且可靠性高,实用性好。附图说明图1为本专利技术本文档来自技高网
...

【技术保护点】
1.一种基于知识图谱与语言模型的联合推理方法,包括如下步骤:/nS1.获取QA文档,并构建知识图谱;/nS2.对步骤S1获取的QA文档进行编码表示,并在步骤S1构建的知识图谱中根据编码的QA文档进行检索,从而得到知识图谱子图;/nS3.构建用于表示QA文档中上下文的节点,并将该节点连接到步骤S2得到的知识图谱子图中,从而构建得到联合图;/nS4.计算每对QA的相关性评分,从而表示QA节点与联合图中其他节点之间的关系;/nS5.进行联合图上的消息传递;/nS6.对QA文档的编码表示、QA上下文的节点表示和联合图进行操作,并输入到最终的模型,从而完成知识图谱与语言模型的联合推理。/n

【技术特征摘要】
1.一种基于知识图谱与语言模型的联合推理方法,包括如下步骤:
S1.获取QA文档,并构建知识图谱;
S2.对步骤S1获取的QA文档进行编码表示,并在步骤S1构建的知识图谱中根据编码的QA文档进行检索,从而得到知识图谱子图;
S3.构建用于表示QA文档中上下文的节点,并将该节点连接到步骤S2得到的知识图谱子图中,从而构建得到联合图;
S4.计算每对QA的相关性评分,从而表示QA节点与联合图中其他节点之间的关系;
S5.进行联合图上的消息传递;
S6.对QA文档的编码表示、QA上下文的节点表示和联合图进行操作,并输入到最终的模型,从而完成知识图谱与语言模型的联合推理。


2.根据权利要求1所述的基于知识图谱与语言模型的联合推理方法,其特征在于步骤S1所述的获取QA文档,并构建知识图谱,具体为利用语言模型对QA文档进行实体提取,从而得到问题实体和选择实体;然后根据实体名称和构建好的本体架构识别实体之间的关系,在实体之间建立边,从而构成知识图。


3.根据权利要求2所述的基于知识图谱与语言模型的联合推理方法,其特征在于步骤S2所述的对步骤S1获取的QA文档进行编码表示,并在步骤S1构建的知识图谱中根据编码的QA文档进行检索,从而得到知识图谱子图,具体为采用语言模型对QA文档进行编码表示,同时采用Tri-gram来确保下一个单词的约束性和可靠性,最后从已构建好的知识图谱中根据QA上下文来检索,并得到知识图谱子图。


4.根据权利要求3所述的基于知识图谱与语言模型的联合推理方法,其特征在于步骤S3所述的构建用于表示QA文档中上下文的节点,并将该节点连接到步骤S2得到的知识图谱子图中,从而构建得到联合图,具体为构建用于表示QA文档中上下文的节点m,并将节点m连接到知识图谱子集gsub中vq,a中的每个主题实体,并采用两个新的关系类型rm,q和rm,a构建对应的边;同时,在图gsub中每个节点都与下述四种类型之一相关联:上下文节点m、vq中的节点、va中的节点和其他节点;记上下文节点m的文本为test(m),知识图谱中的节点v的文本为test(v);使用QA文档中上下文的语言模型来表示对m初始化节点编码,并采用SMRR编码技术编码gsub中的每一个节点。


5.根据权利要求4所述的基于知识图谱与语言模型的联合推理方法,其特征在于步骤S4所述的计算每对QA的相关性评分,从而表示QA节点与联合图中其他节点之间的关系,具体为采用语言模型对以QA上下...

【专利技术属性】
技术研发人员:黄鑫陈毅波向行黄巍张祖平田建伟蒋破荒朱宏宇方彬祝视杨芳僚胡其辉陈运生孙毅臻
申请(专利权)人:国网湖南省电力有限公司国网湖南省电力有限公司信息通信分公司国家电网有限公司
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1