一种基于自然语言问句的专家领域知识图谱查询方法技术

技术编号：27935589 阅读：29 留言：0更新日期：2021-04-02 14:15

本发明专利技术涉及一种基于自然语言问句的专家领域知识图谱查询方法，其中，包括：获得的查询问句利用HanLP汉语言处理包进行分词，获得查询问句的特征词并获得关键词和词性；用对应关键词的词性替换关键词，进行查询问句的抽象化表示；转换后的抽象化的句子，基于朴素贝叶斯分类器进行问题分类，先定义查询问题模板集，利用朴素贝叶斯分类器对问题模板集进行训练，而后将输入的问句进行概率预测，返回定义的问题类别标签，从而匹配到问题模板；用匹配到的问题模板还原抽象前的关键词，并且返回该问题模板的分类标签和关键词实体名；根据分类标签和关键词实体名生成Cypher语句进行Neo4j查询，返回给用户结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自然语言问句的专家领域知识图谱查询方法
本专利技术涉及自然语言知识图谱技术，特别涉及一种基于自然语言问句的专家领域知识图谱查询方法。
技术介绍
知识图谱本质是大规模的语义网络，从2012年谷歌提出知识图谱，知识图谱一直在快速地发展，其应用也不再局限于“语义网络”范畴。大数据时代的到来，出现海量数据、强大的计算能力和群智计算，知识图谱通过构建大规模、高质量的知识库，从知识规模的量带来质的改变。尤其是在语义搜索、智能问答、数据分析、自然语言处理、视觉理解、物联网设备等发面展现出越来越大的价值。互联网时代急需自动化、智能化构建行业知识图谱的工具，将专业领域知识赋予机器，图谱中富含实体概念、属性、关系等信息，使机器理解与解释成为可能。让机器代替人工从事简单知识工作，实现数据分析、智能检索、信息筛选、决策制定、可视化展示等一系列的互联网时代大数据开放应用的需求。现有的基于Neo4j图数据库进行知识存储形成可视化图谱技术在理论研究方面已经获得一定成果。但是在实际应用中由于基于Neo4j图数据库进行知识图谱的查询是通过Neo4j特有的Cypher查询语句进行的，专业技术较强，无法满足用户查询输入的多元化，不能准确理解用户自然语言问句的查询意图，容错率较低。
技术实现思路
本专利技术的目的在于提供一种基于自然语言问句的专家领域知识图谱查询方法，用于解决上述现有技术的问题。本专利技术一种基于自然语言问句的专家领域知识图谱查询方法，其中，包括：获得的查询问句利用HanLP汉语言处理包进行分词，...

【技术保护点】
1.一种基于自然语言问句的专家领域知识图谱查询方法，其特征在于，包括：/n获得的查询问句利用HanLP汉语言处理包进行分词，获得查询问句的特征词并获得关键词和词性；/n用对应关键词的词性替换关键词，进行查询问句的抽象化表示；/n转换后的抽象化的句子，基于朴素贝叶斯分类器进行问题分类，先定义查询问题模板集，利用朴素贝叶斯分类器对问题模板集进行训练，而后将输入的问句进行概率预测，返回定义的问题类别标签，从而匹配到问题模板；/n用匹配到的问题模板还原抽象前的关键词，并且返回该问题模板的分类标签和关键词实体名；/n根据分类标签和关键词实体名生成Cypher语句进行Neo4j查询，返回给用户结果。/n

【技术特征摘要】
1.一种基于自然语言问句的专家领域知识图谱查询方法，其特征在于，包括：
获得的查询问句利用HanLP汉语言处理包进行分词，获得查询问句的特征词并获得关键词和词性；
用对应关键词的词性替换关键词，进行查询问句的抽象化表示；
转换后的抽象化的句子，基于朴素贝叶斯分类器进行问题分类，先定义查询问题模板集，利用朴素贝叶斯分类器对问题模板集进行训练，而后将输入的问句进行概率预测，返回定义的问题类别标签，从而匹配到问题模板；
用匹配到的问题模板还原抽象前的关键词，并且返回该问题模板的分类标签和关键词实体名；
根据分类标签和关键词实体名生成Cypher语句进行Neo4j查询，返回给用户结果。

2.如权利要求1所述的基于自然语言问句的专家领域知识图谱查询方法，其特征在于，对于一个自然语言问句，根据特征词对应知识图谱中的结果，通过构建专家领域中文问句集来支持知识图谱查询，根据知识图谱中存储的知识特征定义问题模板，结合现实用户查询可能出现的情况列出问句集合，为朴素贝叶斯分类器提供训练样本。

3.如权利要求1所述的基于自然语言问句的专家领域知识图谱查询方法，其特征在于，
从查询问句中提取特征词，得到特征词生成特征向量从而进行问题分类，对问句集合进行归类并定义相应的分类标签，每个标签下的问句具有相同的特征，以判别查询问句所属的类别；
对可能出现的问句的特征词汇进行汇总，构建特征词汇表。

4.如权利要求3所述的基于自然语言问句的专家领域知识图谱查询方法，其特征在于，根据特征词汇表，定义待分类的查询问句为x＝{a1,a2,a3,...,an}，其中ai为x的一个特征，若x中所含的特征词对应在特征词汇表中，则该特征词的特征向量值为1，若没有则为0，从而构建出查询问句的特征向量。

5.如权利要求4所述的基于自然语言问句的专家领域知识图谱查询方法，其特征在于，朴素贝叶斯分类包括：
设输入空间为n维向量的集合，输出空间为类标记...

【专利技术属性】
技术研发人员：赵骁雅，王泊涵，张佩荣，
申请(专利权)人：北京计算机技术及应用研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人