一种基于共享编码和协同注意力的知识图谱问答方法技术

技术编号:37132917 阅读:24 留言:0更新日期:2023-04-06 21:31
本发明专利技术属于知识图谱智能问答领域,具体涉及一种基于共享编码和协同注意力的知识图谱问答方法,包括:构建知识图谱;获取待问答的问句,根据问句从知识图谱中获取候选主题词集合和候选主题词实体的图谱信息;将问句、候选主题词集合和候选主题词实体的图谱信息输入到训练好的实体链接E

【技术实现步骤摘要】
一种基于共享编码和协同注意力的知识图谱问答方法


[0001]本专利技术属于知识图谱智能问答领域,具体涉及一种基于共享编码和协同注意力的知识图谱问答方法。

技术介绍

[0002]知识图谱(knowledge graph,KG)是指把海量客观世界信息表示为相互连接的三元组形式,从而形成庞大的知识网络,其具有强大的语义表达、存储和推理能力。从2012年被谷歌提出以来,知识图谱被广泛应用于智能问答、推荐系统和搜索引擎等领域,极大地加速了人工智能的发展与应用。知识图谱问答(knowledge graph question answer,KGQA)作为智能问答领域的重要分支,通过对问句进行语义理解和内容解析,进而到知识图谱进行查询并得出答案。
[0003]知识图谱问答,分为实体链接和答案推理两个部分。实体链接技术旨在先从问句中识别出主题词,然后从知识图谱中多个实体中识别出与主题词对应的主题词实体。相对地,答案推理以实体链接任务识别出的主题词实体为中心,把周围K跳范围内的实体都作为候选答案,使用自然语言处理技术得到候选答案图谱信息与问句的匹配程度,以此得出预测答案。
[0004]关于知识图谱问答方法中的实体链接任务,当前研究领域大多通过引入外部的实体链接工具来实现,例如,DBpedia lookup、Freebase Search API和S_MART等。然而,它们具有准确率不高的缺点。当前自主训练的实体链接方法忽略了候选主题词实体的邻居信息,导致特征提取不够充分。例如,关于问句“苹果14的产品参数是”,在知识图谱中判别“苹果14”是否为主题词实体时,“产品参数”这样的邻居信息将起到决定性作用,如果忽略此类信息,会导致问句主题词识别准确率降低。
[0005]当前关于答案推理的方法主要分为基于语义解析和信息检索两类。语义解析类具有依赖人工干预和缺乏迁移性的缺点。基于信息检索的答案推理方法局限于得到高效的特征表示,忽略了问句与图谱信息特征表示之间的相似度分数的重要性,从而使得正确与错误答案的相似度分数差距不大,导致模型的效率和性能受到影响。
[0006]综上所述,实体链接和答案推理方法存在着各种不足。在实体链接任务中,1)过分依赖准确率不足的实体链接工具,导致主题词的识别准确率低,影响下游的答案推理任务;2)在判断不同领域的候选主题词时,邻居信息会起到决定性作用,而当前实体链接方法忽略了候选主题词实体周围的实体信息,导致其识别准确率低。在答案推理的任务中,3)语义解析类方法依赖大量人工制定的模板或规则,具有缺乏可迁移性的问题,此类方法难以被大范围应用;4)信息检索类方法仅局限于得到更好的特征表示,这使得候选答案的预测分数都得到提升,没有明显拉开正确与错误答案的得分差距,从而使得这些方法在实际中表现不佳。

技术实现思路

[0007]为解决以上现有技术存在的问题,本专利技术提出了一种基于共享编码和协同注意力的知识图谱问答方法,该方法包括:构建知识图谱;获取待问答的问句,根据问句从知识图谱中获取候选主题词集合和候选主题词实体的图谱信息;将问句、候选主题词集合和候选主题词实体的图谱信息输入到训练好的实体链接E

GCNR模型中,得到候选主题词实体;根据候选主题词实体从知识图谱中获取候选答案集合和候选答案实体的图谱信息;将问句、候选答案集合和候选答案实体的图谱信息输入到训练好的答案推理CA

BiLSTM模型中,得到问句的答案。
[0008]优选的,对实体链接E

GCNR模型进行训练的过程包括:
[0009]S1、获取原始问答数据集和对应的知识图谱,将原始问答数据集按照7:2:1的比例划分为训练数据集、验证数据集和测试数据集;
[0010]S2、根据原始问答数据集中的问答数据在知识图谱中查找每条问句的候选主题词和候选主题词实体的图谱信息;
[0011]S3、将训练数据集和验证数据集中的候选主题词和候选主题词实体的图谱信息输入到实体链接E

GCNR模型中,进行K次训练,得到的K次训练好的模型;
[0012]S4:将测试数据集中的数据分别输入到K个训练好的模型中进行检测,从K模型中选取性能最优的实体链接E

GCNR模型,该模型作为训练好的实体链接E

GCNR模型。
[0013]优选的,对答案推理CA

BiLSTM模型进行训练的过程包括:
[0014]步骤1、获取问答数据集和对应的知识图谱,把问答数据集按照7:2:1的比例划分为训练数据集、验证数据集和测试数据集;
[0015]步骤2、根据问答数据集在知识图谱中查找每条问句的候选答案集合和候选答案实体的图谱信息;
[0016]步骤3、将训练数据集和验证数据集中的数据输入到答案推理CA

BiLSTM模型中,进行K次模型训练,得到K个训练后的答案推理CA

BiLSTM模型;
[0017]步骤4、将测试数据集中的数据输入到训练后的K个答案推理CA

BiLSTM模型进行性能比较,选取性能最优的答案推理CA

BiLSTM模型。
[0018]本专利技术的有益效果:
[0019]本专利技术提出了一种自主训练实体链接模型的E

GCNR方法,此方法通过GCN和关系匹配降维机制得到候选主题词邻居聚合后特征表示,解决了当前实体链接任务依赖准确率低的外部工具和忽略邻居节点信息的问题;本专利技术提出了一种由共享编码方式得到问句与图谱信息的特征表示并通过协同注意力机制增强问句特征表示的CA

BiLSTM方法,解决了信息检索类方法特征表达能力不足的问题;本专利技术通过共享编码方式和协同注意力机制可用于实体链接和答案推理两项任务中,具有广泛的适用性。
附图说明
[0020]图1为本专利技术的一种基于共享编码和协同注意力的知识图谱问答方法流程图;
[0021]图2为本专利技术的实体链接E

GCNR模型图;
[0022]图3为本专利技术的答案推理CA

BiLSTM模型图;
[0023]图4为本专利技术的传统编码方式与本文提出的共享编码方式的对比结果图;
[0024]图5为本专利技术的协同注意力机制增强问句特征表示的示意图;
[0025]图6为本专利技术的子图聚合机制示意图。
具体实施方式
[0026]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0027]一种基于共享编码和协同注意力的知识图谱问答方法,如图1所示,该方法包括:构建知识图谱;获取待问答的问句,根据问句从知识图谱中获取候选主题词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于共享编码和协同注意力的知识图谱问答方法,其特征在于,包括:构建知识图谱;获取待问答的问句,根据问句从知识图谱中获取候选主题词集合和候选主题词实体的图谱信息;将问句、候选主题词集合和候选主题词实体的图谱信息输入到训练好的实体链接E

GCNR模型中,得到候选主题词实体;根据候选主题词实体从知识图谱中获取候选答案集合和候选答案实体的图谱信息;将问句、候选答案集合和候选答案实体的图谱信息输入到训练好的答案推理CA

BiLSTM模型中,得到问句的答案。2.根据权利要求1所述的一种基于共享编码和协同注意力的知识图谱问答方法,其特征在于,对实体链接E

GCNR模型进行训练的过程包括:S1、获取原始问答数据集和对应的知识图谱,将原始问答数据集按照7:2:1的比例划分为训练数据集、验证数据集和测试数据集;S2、根据原始问答数据集中的问答数据在知识图谱中查找每条问句的候选主题词和候选主题词实体的图谱信息;S3、将训练数据集和验证数据集中的候选主题词和候选主题词实体的图谱信息输入到实体链接E

GCNR模型中,进行K次训练,得到的K次训练好的模型;S4:将测试数据集中的数据分别输入到K个训练好的模型中进行检测,从K个模型中选取性能最优的实体链接E

GCNR模型,该模型作为训练好的实体链接E

GCNR模型。3.根据权利要求2所述的一种基于共享编码和协同注意力的知识图谱问答方法,其特征在于,原始问答数据集为WebQusetions数据集。4.根据权利要求2所述的一种基于共享编码和协同注意力的知识图谱问答方法,其特征在于,采用实体链接E

GCNR模型对输入的数据进行处理的过程包括:实体链接E

GCNR模型包括特征提取模块、信息交流模块以及匹配模块;在特征提取模块中,通过共享编码的方式提取问句与候选主题词图谱信息的特征表示;在信息交流模块,通过协同注意力机制促进问句与候选主题词图谱信息的特征表示的信息交互,并采用子图聚合机制将候选主题词的邻居信息进行聚合,得到特征增强后的问句特征表示;在匹配模块,通过拼接并计算各类图谱信息与问句特征表示的相似度分数,预测出问句主题词。5....

【专利技术属性】
技术研发人员:吴涛张浩然先兴平蒲晓宋秀丽姜丰游小琳
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1