一种基于自然语言问句的专家领域知识图谱查询方法技术

技术编号:27935589 阅读:29 留言:0更新日期:2021-04-02 14:15
本发明专利技术涉及一种基于自然语言问句的专家领域知识图谱查询方法,其中,包括:获得的查询问句利用HanLP汉语言处理包进行分词,获得查询问句的特征词并获得关键词和词性;用对应关键词的词性替换关键词,进行查询问句的抽象化表示;转换后的抽象化的句子,基于朴素贝叶斯分类器进行问题分类,先定义查询问题模板集,利用朴素贝叶斯分类器对问题模板集进行训练,而后将输入的问句进行概率预测,返回定义的问题类别标签,从而匹配到问题模板;用匹配到的问题模板还原抽象前的关键词,并且返回该问题模板的分类标签和关键词实体名;根据分类标签和关键词实体名生成Cypher语句进行Neo4j查询,返回给用户结果。

【技术实现步骤摘要】
一种基于自然语言问句的专家领域知识图谱查询方法
本专利技术涉及自然语言知识图谱技术,特别涉及一种基于自然语言问句的专家领域知识图谱查询方法。
技术介绍
知识图谱本质是大规模的语义网络,从2012年谷歌提出知识图谱,知识图谱一直在快速地发展,其应用也不再局限于“语义网络”范畴。大数据时代的到来,出现海量数据、强大的计算能力和群智计算,知识图谱通过构建大规模、高质量的知识库,从知识规模的量带来质的改变。尤其是在语义搜索、智能问答、数据分析、自然语言处理、视觉理解、物联网设备等发面展现出越来越大的价值。互联网时代急需自动化、智能化构建行业知识图谱的工具,将专业领域知识赋予机器,图谱中富含实体概念、属性、关系等信息,使机器理解与解释成为可能。让机器代替人工从事简单知识工作,实现数据分析、智能检索、信息筛选、决策制定、可视化展示等一系列的互联网时代大数据开放应用的需求。现有的基于Neo4j图数据库进行知识存储形成可视化图谱技术在理论研究方面已经获得一定成果。但是在实际应用中由于基于Neo4j图数据库进行知识图谱的查询是通过Neo4j特有的Cypher查询语句进行的,专业技术较强,无法满足用户查询输入的多元化,不能准确理解用户自然语言问句的查询意图,容错率较低。
技术实现思路
本专利技术的目的在于提供一种基于自然语言问句的专家领域知识图谱查询方法,用于解决上述现有技术的问题。本专利技术一种基于自然语言问句的专家领域知识图谱查询方法,其中,包括:获得的查询问句利用HanLP汉语言处理包进行分词,获得查询问句的特征词并获得关键词和词性;用对应关键词的词性替换关键词,进行查询问句的抽象化表示;转换后的抽象化的句子,基于朴素贝叶斯分类器进行问题分类,先定义查询问题模板集,利用朴素贝叶斯分类器对问题模板集进行训练,而后将输入的问句进行概率预测,返回定义的问题类别标签,从而匹配到问题模板;用匹配到的问题模板还原抽象前的关键词,并且返回该问题模板的分类标签和关键词实体名;根据分类标签和关键词实体名生成Cypher语句进行Neo4j查询,返回给用户结果。本专利技术对用户进行基于知识图谱查询的需求,提出一种基于自然语言问句的专家领域知识图谱查询算法,其优势在于对查询问句进行自然语言处理满足查询输入的多元化,具备一定的容错率,准确理解用户自然语言问句的查询意图,根据问句中的特征词汇在知识图谱中提取对应实体和与其高度相关的实体作为结果返回,可全面提升查询结果的准确性和可用性。附图说明图1为基于自然语言问句的专家领域知识图谱查询方法流程图;图2朴素贝叶斯分类流程图;图3为Cypher语句生成流程图。具体实施方式为使本专利技术的目的、内容、和优点更加清楚,下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。如图1所示,一种基于自然语言问句的专家领域知识图谱查询方法,包括:首先,将用户在查询框中输入的查询问句,通过HanLp进行分词得到实体关系识别,将自然语言问句抽象化,提取问句特征词和待查询实体名称;其次,根据问句词向量,计算隶属各类的概率值,取值最大的类作为分得学者有类结果;然后,根据类别标签序号进行问题识别与模板匹配,将待查询的核心实体名套用对应的问题模板,得到查询问句最终对应得分类标签以及核心实体名,方便进一步生成Cypher语句进行Neo4j查询。基于自然语言问句的智能查询算法的步骤为:步骤一,获得的查询问句利用HanLP汉语言处理包进行分词,获得查询问句的特征词并获得其关键词和词性。步骤二,用关键词的词性替换这个关键词,进行查询问句的抽象化表示。步骤三,转换后的抽象化的句子进入分类器,获得分类标签,从而匹配到问题模板。步骤四,用匹配到的模板还原抽象前的关键词,并且返回该模板的分类标签和关键词实体名。步骤五,根据这个标签和核心实体名生成Cypher语句进行Neo4j查询,返回给用户最终的结果。本专利技术一种基于自然语言问句的专家领域知识图谱查询方法具体包括:(1)自然语言问句的实体关系抽取包括:自然语言处理流程的第一步是获取语料,从查询语句中识别出实体特征词。目前针对中文分词领域有很多开源的工具,比如中国科学院计算所NLPIR、哈工大的LTP平台、清华大学的THULAC、斯坦福大学的StanfordNLPtools、jieba分词、IKAnalyzer以及汉语言处理包HanLP等。其中,汉语言处理包HanLP是基于Java语言实现的,功能较强容易实现,与应用所需的设计开发语言一致,能与框架结合,因此选用HanLP分词器来实现前期的语料获取的处理工作。HanLP是由一系列模型与算法组成的Java工具包,目标是促进自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。在HanLP工具包中包括中文分词、词性标注、命名实体识别、关键词提取、自动摘要、文本推荐、依存句法分析等,并且每个组件下都提供了实现的工具。利用HanLP对查询问句进行分词处理以及命名实体识别,并且对其专业领域的词汇进行扩充,提升实体抽取及词性标注的准确性。(2)基于朴素贝叶斯分类器的问题分类方法包括:图2朴素贝叶斯分类流程图,如图2,基于朴素贝叶斯分类器研究学者知识图谱查询问题的分类匹配。先定义查询问题模板集,利用朴素贝叶斯分类器对问题模板集进行训练,而后将输入的问句进行概率预测,返回定义的问题类别标签。表1参数表参数说明x输入向量ai输入向量的一个特征X输入空间RnN维向量空间Y输出空间y输出向量P(X,Y)X和Y的联合概率分布P(X=x|Y=ck)条件概率分布T训练数据集Sj特征向量的取值ck输出向量的取值K输出向量的取值个数具体包括:1)定义问题模板创建训练样本对于一个自然语言问句,比如,“大数据领域的学者有哪些?”可以提取出“大数据”,“领域”,“学者”等特征词,根据这些特征词再对应知识图谱中的结果。通过构建专家领域中文问句集来支持知识图谱查询的实现。根据知识图谱中存储的知识特征定义问题模板,再结合现实用户查询可能出现的情况列出问句集合,为下一步的朴素贝叶斯分类器提供训练样本。2)构建特征词汇表生成特征向量需要从提出的查询语句中提取特征词,得到的特征词生成特征向量从而进行问题分类。为了提高查询的效率和准确度,对问句集合进行了归类并定义相应的分类标签,每个标签下的问句具有相同的特征,通过这些特征可以判别查询问句所属的类别,从而提高查询结果的准确度。结合实际情况对本文档来自技高网...

【技术保护点】
1.一种基于自然语言问句的专家领域知识图谱查询方法,其特征在于,包括:/n获得的查询问句利用HanLP汉语言处理包进行分词,获得查询问句的特征词并获得关键词和词性;/n用对应关键词的词性替换关键词,进行查询问句的抽象化表示;/n转换后的抽象化的句子,基于朴素贝叶斯分类器进行问题分类,先定义查询问题模板集,利用朴素贝叶斯分类器对问题模板集进行训练,而后将输入的问句进行概率预测,返回定义的问题类别标签,从而匹配到问题模板;/n用匹配到的问题模板还原抽象前的关键词,并且返回该问题模板的分类标签和关键词实体名;/n根据分类标签和关键词实体名生成Cypher语句进行Neo4j查询,返回给用户结果。/n

【技术特征摘要】
1.一种基于自然语言问句的专家领域知识图谱查询方法,其特征在于,包括:
获得的查询问句利用HanLP汉语言处理包进行分词,获得查询问句的特征词并获得关键词和词性;
用对应关键词的词性替换关键词,进行查询问句的抽象化表示;
转换后的抽象化的句子,基于朴素贝叶斯分类器进行问题分类,先定义查询问题模板集,利用朴素贝叶斯分类器对问题模板集进行训练,而后将输入的问句进行概率预测,返回定义的问题类别标签,从而匹配到问题模板;
用匹配到的问题模板还原抽象前的关键词,并且返回该问题模板的分类标签和关键词实体名;
根据分类标签和关键词实体名生成Cypher语句进行Neo4j查询,返回给用户结果。


2.如权利要求1所述的基于自然语言问句的专家领域知识图谱查询方法,其特征在于,对于一个自然语言问句,根据特征词对应知识图谱中的结果,通过构建专家领域中文问句集来支持知识图谱查询,根据知识图谱中存储的知识特征定义问题模板,结合现实用户查询可能出现的情况列出问句集合,为朴素贝叶斯分类器提供训练样本。


3.如权利要求1所述的基于自然语言问句的专家领域知识图谱查询方法,其特征在于,
从查询问句中提取特征词,得到特征词生成特征向量从而进行问题分类,对问句集合进行归类并定义相应的分类标签,每个标签下的问句具有相同的特征,以判别查询问句所属的类别;
对可能出现的问句的特征词汇进行汇总,构建特征词汇表。


4.如权利要求3所述的基于自然语言问句的专家领域知识图谱查询方法,其特征在于,根据特征词汇表,定义待分类的查询问句为x={a1,a2,a3,...,an},其中ai为x的一个特征,若x中所含的特征词对应在特征词汇表中,则该特征词的特征向量值为1,若没有则为0,从而构建出查询问句的特征向量。


5.如权利要求4所述的基于自然语言问句的专家领域知识图谱查询方法,其特征在于,朴素贝叶斯分类包括:
设输入空间为n维向量的集合,输出空间为类标记...

【专利技术属性】
技术研发人员:赵骁雅王泊涵张佩荣
申请(专利权)人:北京计算机技术及应用研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1