一种基于学科领域知识图谱的复杂问答方法技术

技术编号:38995592 阅读:14 留言:0更新日期:2023-10-07 10:26
本发明专利技术公开了一种基于学科领域知识图谱的复杂问答方法,涉及智能问答领域,包括以下步骤:首先基于已有的计算机学科知识图谱设计了一种构建复杂问句集的方法,并通过BERT

【技术实现步骤摘要】
一种基于学科领域知识图谱的复杂问答方法


[0001]本专利技术涉及智能问答领域,特别是涉及一种基于学科领域知识图谱的复杂问答方法。

技术介绍

[0002]随着科学技术的进步和人工智能的快速发展, 各种信息技术正在不断地改变着我们的日常生活,人们获取信息的需求也在不断向自然交互的形式演化。一方面我们希望通过更自然的方式与搜索引擎进行交互,另一方面希望可以直接获取问题的答案,因此知识图谱问答技术应运而生。
[0003]知识图谱问答是以知识图谱为知识源来回答自然语言问题的任务。目前知识图谱问答有两种主流方法:基于语义解析的方法和基于信息检索的方法。基于语义解析的方法以符号逻辑的形式表示问题,将自然语言转换成对应的完整结构化查询语言,在知识图谱中搜索最终答案。基于信息检索的方法首先识别问题中的主题实体,然后从知识图谱中提取特定查询图进行推理,并通过问题的约束信息对查询图中所有相关实体进行排名,最后选择排名靠前的实体作为问题答案。
[0004]然而目前知识图谱问答方法仍存在一些不足:(1)在中文知识图谱问答领域目前还没有出现被认可的公开问句数据集,大部分工作是基于某领域知识库,在各自构建的领域问句集中进行研究,问句数据集规模较小,并且问题多样性差;(2)现有知识图谱问答方法仅能回答一些简单的问题,难以处理聚合、比较和多跳等复杂问题。

技术实现思路

[0005]针对现有技术中的上述不足,本专利技术提供的一种基于学科领域知识图谱的复杂问答方法解决了目前知识图谱问答方法缺乏被认可的公开问句数据集,以及现有方法难以处理聚合、比较和多跳等复杂情况的问题。
[0006]为了达到上述专利技术目的,本专利技术采用的技术方案为:一种基于学科领域知识图谱的复杂问答方法,包括以下步骤:S1:基于计算机学科知识图谱设计复杂问句集;S2:基于复杂问句集,通过多任务问答模型识别出问句中的主题实体和谓词,并对问句类型和答案实体类型进行分类和预测;S3:将主题实体送入计算机学科知识图谱中生成包含实体的查询图;S4:对于多跳问句,通过Multi

hop pruning算法对问句进行依存句法分析, 筛选路径中的中间实体,并结合谓词所在的关键路径,分别计算问句中的主题实体和谓词与查询图中的中间实体和关系的语义相似度,根据语义相似度对查询图中的中间实体和关系所在的路径进行剪枝;S5:对于多主题实体问句,通过Multi

entity pruning算法生成各个主题实体的查询子图,并相互作为约束条件进行剪枝;
S6:对剪枝后的查询图通过预测的答案实体类型沿路径搜索答案,生成候选答案集;S7:针对不同类型的复杂问句,对候选答案集进行不同的逻辑处理,得到问题的最终答案,完成基于学科领域知识图谱的复杂问答。
[0007]上述方案的有益效果是:本专利技术提出了一种构建复杂问句集的方法,同时通过BERT

BiLSTM

CRF模型对复杂问句进行实体识别和关键路径预测,通过BERT

DPCNN模型对复杂问句进行答案实体类型预测和问句分类。然后针对多跳问句提出了一种关键路径预测和依存句法分析相结合的Multi

hop pruning算法,针对多主题实体问句提出了一种将多个查询子图融合剪枝的Multi

entity pruning算法。通过两种剪枝算法,缩小了答案搜索范围,减少了复杂问句逻辑处理的计算量,提高了答案返回效率,解决了目前知识图谱问答方法缺乏被认可的公开问句数据集,以及现有方法难以处理聚合、比较和多跳等复杂情况的问题。
[0008]进一步地,S1中设计复杂问句集包括以下分步骤:S1

1:利用数据准备阶段获取计算机学科知识图谱中的各类实体和与实体相连的两跳内实体集和关系集;S1

2:利用问句生成阶段根据数据准备阶段获取的实体集和关系集,结合生成策略使用少量模板生成大规模的问句集;S1

3:对问句集中的谓词、名词和连词进行自动化替换,并人工调整问句结构,获得表达相同含义的不同问句;S1

4:对不同问句进行问句标注,用于训练模型和测试问答效果,完成复杂问句集的设计。
[0009]上述进一步方案的有益效果是:通过上述技术方案,实现复杂问句集的设计,主要将设计过程分为两个阶段:数据准备阶段和问句生成阶段,在问句生成阶段,根据上一阶段得到的实体集和关系集,结合生成策略可以用少量模板生成大规模、多样化的问题,在得到生成的问句集后,对问句中的谓词、名词、连词等进行自动化替换,并人工调整问句结构,得到表达相同含义的不同问句,进一步丰富复杂问句集。
[0010]进一步地,数据准备阶段中采样策略包括单三元组采用策略、第一双三元组采用策略、第二双三元组采用策略、三三元组采用策略和多三元组采用策略;分别对知识图谱中的单三元组、第一双三元组、第二双三元组、三三元组和多三元组进行采样,并填充模板占位符对目标实体进行描述,采样涉及的三元组越多,生成问句中包含的限定条件越复杂。
[0011]上述进一步方案的有益效果是:在数据准备阶段设计了5种采样策略,同时提供了每一种采样策略对应的模板和样例。
[0012]进一步地,问句生成阶段中问句生成策略包括简单类生成策略、聚合类生成策略、计数类生成策略、比较类生成策略和多跳类生成策略。
[0013]上述进一步方案的有益效果是:对于问句生成阶段,设计了5种问句生成策略,用于与数据准备阶段中的样例组合生成简单类、聚合类、计数类、比较类以及多跳类问句。
[0014]进一步地,通过问句生成策略和数据准备阶段中的样例获得简单类问句、聚合类问句、计数类问句、比较类问句和多跳类问句;
所述简单类问句根据单三元组生成的样例与生成的模板组合得到;所述计数类问句根据单三元组生成的样例和部分双三元组生成的样例,与生成模板组合得到;所述比较类问句、多跳类问句和聚合类问句根据第一双三元组生成的样例、第二双三元组生成的样例、三三元组生成的样例和多三元组生成的样例,与生成模板组合得到。
[0015]上述进一步方案的有益效果是:通过上述技术方案,提供了简单类问句、聚合类问句、计数类问句、比较类问句和多跳类问句的具体获取方法。
[0016]进一步地,S2中包括以下分步骤:S2

1:将BERT模型作为编码器进行词向量表示,并提取计算机学科语料中标注的领域信息;S2

2:基于领域信息,利用BiLSTM模型的上下文特征学习和CRF模型的最大标签序列,识别出问句中的主题实体和谓词;S2

3:基于问句中的主题实体和谓词,以计算机学科语料训练的参数为基础,以问句和问句类型以及问句和答案实体类型分别拼接成序列作为输入,通过BERT模型提取序列特征后送入DPCNN模型,增强相邻字之间的信息融合,获得语义信息,完成问句分类和答案实体类型识别;S2
...

【技术保护点】

【技术特征摘要】
1.一种基于学科领域知识图谱的复杂问答方法,其特征在于,包括以下步骤:S1:基于计算机学科知识图谱设计复杂问句集;S2:基于复杂问句集,通过多任务问答模型识别出问句中的主题实体和谓词,并对问句类型和答案实体类型进行分类和预测;S3:将主题实体送入计算机学科知识图谱中生成包含实体的查询图;S4:对于多跳问句,通过Multi

hop pruning算法对问句进行依存句法分析, 筛选路径中的中间实体,并结合谓词所在的关键路径,分别计算问句中的主题实体和谓词与查询图中的中间实体和关系的语义相似度,根据语义相似度对查询图中的中间实体和关系所在的路径进行剪枝;S5:对于多主题实体问句,通过Multi

entity pruning算法生成各个主题实体的查询子图,并相互作为约束条件进行剪枝;S6:对剪枝后的查询图通过预测的答案实体类型沿路径搜索答案,生成候选答案集;S7:针对不同类型的复杂问句,对候选答案集进行不同的逻辑处理,得到问题的最终答案,完成基于学科领域知识图谱的复杂问答。2.根据权利要求1所述的基于学科领域知识图谱的复杂问答方法,其特征在于,所述S1中设计复杂问句集包括以下分步骤:S1

1:利用数据准备阶段获取计算机学科知识图谱中的各类实体和与实体相连的两跳内实体集和关系集;S1

2:利用问句生成阶段根据数据准备阶段获取的实体集和关系集,结合生成策略使用少量模板生成大规模的问句集;S1

3:对问句集中的谓词、名词和连词进行自动化替换,并人工调整问句结构,获得表达相同含义的不同问句;S1

4:对不同问句进行问句标注,用于训练模型和测试问答效果,完成复杂问句集的设计。3.根据权利要求2所述的基于学科领域知识图谱的复杂问答方法,其特征在于,所述数据准备阶段中采样策略包括单三元组采用策略、第一双三元组采用策略、第二双三元组采用策略、三三元组采用策略和多三元组采用策略;分别对知识图谱中的单三元组、第一双三元组、第二双三元组、三三元组和多三元组进行采样,并填充模板占位符对目标实体进行描述,采样涉及的三元组越多,生成问句中包含的限定条件越复杂。4.根据权利要求3所述的基于学科领域知...

【专利技术属性】
技术研发人员:闫阳王佳坤李华昱
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1