一种基于知识图谱的综合管廊行业知识问答系统构建方法技术方案

技术编号:26065767 阅读:15 留言:0更新日期:2020-10-28 16:38
本发明专利技术提供一种基于知识图谱的综合管廊行业知识问答系统构建方法,收集综合管廊相关文档,包括综合管廊规划、设计、施工、运维这四个模块的规范文档、案例文档、法律法规、政策标准,综合管廊相关新闻,抽取上述文档中的实体及属性,生成综合管廊知识图谱数据,并存储于图数据库;本发明专利技术通过构建综合管廊行业知识图谱,基于此实现一个管廊行业的KBQA系统,该系统进行问答输出的同时,通过相似度及语义关联,向用户输出相关文献与答案出处文档,增强知识问答结果的可靠性,解决综合管廊领域知识问答空白的问题。本发明专利技术通过对领域内相关政策法规,国家及地方标准的文档抽取,增加了问答结果出处的环节,从标准中找答案,提高了回答的准确性。

【技术实现步骤摘要】
一种基于知识图谱的综合管廊行业知识问答系统构建方法
本专利技术涉及知识图谱构建
,尤其是涉及一种基于知识图谱的综合管廊行业知识问答系统构建方法。
技术介绍
随着自然语言处理与人工智能技术的飞速发展,人们更加习惯于运用网络解决工作生活中的问题。问答系统在各个领域中的应用越来越广泛。对话问答系统是人工智能的一个重要分支与应用,现有的问答系统主要包括开放域问答、基于知识图谱的问答系统等。问答系统的出现为人们带来了极大的便捷,但专业领域内的问题解决速度与用户体验却往往受限。如何在某一专业领域为特定用户提供更为专业和准备的问题答案是一个亟待解决的问题。现有技术的缺陷和不足:目前,关于知识问答的探讨与建设都是侧重于开放域问答或百科类问答,而基于特定领域的知识图谱问答的探讨还不多。例如:申请号CN201711459522.8的专利是关于金融理财产品领域,申请号CN201710318042.3的专利是关于厨房领域,而关于综合管廊领域KBQA的探讨还是空白。另外,目前问答系统的答案更多来源于各大网站信息、网友回复等,其准确性无法考证,如何从法律法规及相关标准中找出更为准确的专业领域问答内容是一个急需解决的问题。
技术实现思路
本专利技术要解决的问题是综合管廊领域知识问答系统空白,以及问答回答可信度不足的问题。为解决上述问题,本专利技术针对综合管廊领域构建了基于知识图谱的知识问答系统,解决包含管廊的规划、设计、施工及维护等相关方面的知识问答,根据用户的实时提问,提供回答以及相关的参考文献,并给出答案所出自的相关政策、标准,提高问答的准确性与可靠度。为实现上述目的,本专利技术提供了一种基于知识图谱的综合管廊行业知识问答系统构建方法,包括如下步骤:步骤(1)、数据采集:收集综合管廊相关文档,包括综合管廊规划、设计、施工、运维这四个模块的规范文档、案例文档、法律法规、政策标准,综合管廊相关新闻等,抽取上述文档中的实体及属性,生成综合管廊知识图谱数据,并存储于图数据库;步骤(2)、查询模板构建:针对上述抽取的实体与属性内容,构建问题回复标准模板,生成问题在不同情形下回答语句;如当用户询问问题为实体的某一属性时则根据实体与属性分类结果可匹配模板[实体]的[属性]是[属性值],如询问“综合管廊是什么”,得到“综合管廊的名词解释是...”;步骤(3)、问句分析:获取用户在问答系统问句输入界面输入的问句,对用户问句进行分析理解;其中,问句分析理解主要包括问句意图识别、实体识别与标准化以及问句属性分类;具体步骤如下:步骤(3.1)、问句意图识别步骤,针对含有实体的问句进行意图识别,判断用户所问问题为新闻科普类问题还是管廊专业性问题,针对新闻科普类问题将问题语义与知识库新闻类问题进行语义关联,计算语义余弦相似度,选择相似度大于预设阈值的最佳候选答案输出;具体做法如下:运用BERT预训练模型提取句子的向量作为问句的句向量,同理计算知识库中每个新闻类问题的句向量,运用余弦相似度比较两个句子的相似度。具体计算公式如下:其中,x,y分别为BERT所提取出的两个句子的句向量,长度为n,xi和yi分别表示句向量每一维度的具体数值;阈值的设定方式如下:计算出两句子的余弦相似度后,通过计算余弦相似度,先设定一个较低阈值,当相似度值高于阈值,则表示两个句子相似,反之则不相似。取出已标注“相似”和“不相似”的部分数据集,通过计算余弦相似度,不断调整阈值,使得相似度准确率提高,最终以准确率最高时的阈值作为设定阈值。如用户询问“我国综合管廊第一批试点城市是什么”,该问句被分为新闻类问题,则进入新闻类语义关联相似度匹配,最终得到与我国第一批综合管廊试点城市名单是...”该新闻的相似度最高且高于预设阈值,表明这两句话相似;步骤(3.2)、连续问句处理步骤,针对管廊专业性问题,首先判断是否为连续问句模式,将连续问句拆分为多个单一问句,逐句进行分析;问句分析首先将问句分词并将每个词与知识库中的每个实体词进行匹配,查找问句中是否包含知识库中的实体词,如果包含则将问句中的实体词取出,即为实体;如用户询问“综合管廊是什么?”,“综合管廊”为知识库中的一实体,则该问句分词后与知识库中的实体词进行匹配可得到该问句中的实体为“综合管廊”;进一步,根据字符串的编辑距离比,找出编辑距离比大于阈值的作为最佳候选实体,并通过知识图谱产生的实体关联关系,对识别出的实体进行标准化,阈值的设定与余弦相似度阈值设定方式一致;编辑距离,又称Levenshtein距离,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。句子string_a和句子string_b的编辑距离比公式如(1-2)所示。其中,different_step(string_a,string_b)为编辑操作次数;len(string_a),len(string_b)分别表示string_a和string_b的字符串长度;特别地,当连续问句拆分为单一问句时往往会出现某些问句中不包含实体的现象,因此在实体标准化后需对连续问句进行实体关联。如用户询问“雨水管道和排水管道的关系是什么?设计上都有什么要求”,则该句话最终应输出“排水管道与雨水管道同属于综合管廊入廊管线;排水管道的设计要求为...;雨水管道的设计要求为...”;即为多问句回答;步骤(3.3)、问题属性分类步骤,根据属性分类及标准化后实体,进入知识库进行语义关联,选出最佳答案,匹配答案模板向用户输出;另外,在输出最佳答案的同时,还输出与问句语义关联程度较高的其他检索内容供用户选择性查阅,在一定程度上避免了语义关联不准确的问题,提高了本专利技术所构建的基于知识图谱的知识问答系统回答的准确性与泛化能力。此外本专利技术根据用户提出问题输出可供预览的问题相关文献,以及可供预览的答案出处相关文档,所述方法包括:1、相关期刊检索模块:根据综合管廊领域知识体系内容,通过爬取、下载等方式收集包括但不限于综合管廊规划、设计、施工、运维等方面的期刊文献,存储于搜索引擎中,获取用户问句后,在进行知识问答的同时对搜索引擎中的期刊与问句进行相似度检索,输出相似度较高的相关候选期刊供用户浏览。如当用户询问“综合管廊排水设施”时,在输出相关答案的同时,还输出与该问句相似度匹配排名前三的期刊资料,如《住房城乡建设部鼓励支持地下综合管廊和排水防涝设施建设》,《综合管廊内排水对象分析及排水系统的选择》,《专题询问公共设施管理》;2、答案出处模块:在抽取实体及属性阶段,记录实体及属性来源,来源主要为国家及地方标准、法律法规、相关政策等可靠性较高的文献,在向用户输出最佳候选答案的同时,关联答案出处一同输出可供预览的文献,方便用户查阅并增强了答案可靠性。如用户询问“管廊内消防系统的设计有什么要求”,在输出答案的同时还需输出“答案出处”,如《GB5001本文档来自技高网...

【技术保护点】
1.一种基于知识图谱的综合管廊行业知识问答系统构建方法,其特征在于,包括如下步骤:/n步骤(1)、数据采集:/n收集综合管廊相关文档,包括综合管廊规划、设计、施工、运维这四个模块的规范文档、案例文档、法律法规、政策标准,综合管廊相关新闻,抽取上述文档中的实体及属性,生成综合管廊知识图谱数据,并存储于图数据库;/n步骤(2)、查询模板构建:/n针对上述抽取的实体与属性内容,构建问题回复标准模板,生成问题在不同情形下回答语句;/n步骤(3)、问句分析:/n获取用户在问答系统问句输入界面输入的问句,对用户问句进行分析理解;其中,问句分析理解主要包括问句意图识别、实体识别与标准化以及问句属性分类。/n

【技术特征摘要】
1.一种基于知识图谱的综合管廊行业知识问答系统构建方法,其特征在于,包括如下步骤:
步骤(1)、数据采集:
收集综合管廊相关文档,包括综合管廊规划、设计、施工、运维这四个模块的规范文档、案例文档、法律法规、政策标准,综合管廊相关新闻,抽取上述文档中的实体及属性,生成综合管廊知识图谱数据,并存储于图数据库;
步骤(2)、查询模板构建:
针对上述抽取的实体与属性内容,构建问题回复标准模板,生成问题在不同情形下回答语句;
步骤(3)、问句分析:
获取用户在问答系统问句输入界面输入的问句,对用户问句进行分析理解;其中,问句分析理解主要包括问句意图识别、实体识别与标准化以及问句属性分类。


2.根据权利要求1中所述的一种基于知识图谱的综合管廊行业知识问答系统构建方法,其特征在于,步骤(3)中问句分析的具体步骤如下:
步骤(3.1)、问句意图识别
针对含有实体的问句进行意图识别,判断用户所问问题为新闻科普类问题还是管廊专业性问题,针对新闻科普类问题将问题语义与知识库新闻类问题进行语义关联,计算语义余弦相似度,选择相似度大于预设阈值的最佳候选答案输出;
具体做法如下:运用BERT预训练模型提取句子的向量作为问句的句向量,同理计算知识库中每个新闻类问题的句向量,运用余弦相似度比较两个句子的相似度;
具体计算公式如下:



其中,x,y分别为BERT所提取出的两个句子的句向量,长度为n,xi和yi分别表示句向量每一维度的具体数值;
阈值的设定方式如下:计算出两句子的余弦相似度后,通过计算余弦相似度,先设定一个较低阈值,当相似度值高于阈值,则表示两个句子...

【专利技术属性】
技术研发人员:朱安安邱彦林陈尚武
申请(专利权)人:杭州叙简科技股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1