知识数据提供方法、装置、电子设备和存储介质制造方法及图纸

技术编号:21089775 阅读:42 留言:0更新日期:2019-05-11 10:02
本公开实施例提供一种知识数据提供方法、装置、电子设备和存储介质。知识数据提供方法包括:获取查询请求语句;对查询请求语句进行分词处理,获取至少一个查询词;从扩展词典分别获取与各个查询词对应的扩展关键词;将获取到的各个所述查询词或其对应的扩展关键词的组合分别与多个语义匹配表达式进行匹配,获取查询意图的信息;从知识库获取与所述查询意图对应的知识数据;提供所述知识数据。能够对以自然语言的方式提出的查询请求进行理解、分析,通过构建的语义理解框架对从查询请求提取的关键信息进行需求匹配,并且根据匹配得到的查询意图,提供知识库中的相应知识数据,从而能够为查询用户提供准确地匹配到其查询意图的知识数据。

Knowledge Data Provision Methods, Devices, Electronic Equipment and Storage Media

【技术实现步骤摘要】
知识数据提供方法、装置、电子设备和存储介质
本公开实施例涉及信息处理
,尤其涉及一种知识数据提供方法、装置、电子设备和存储介质。
技术介绍
目前在Web上进行的信息检索主要是利用搜索引擎,进行基于字符的关键字匹配检索。尽管搜索引擎在一定程度上避免了用户浏览网络信息的盲目性,给用户带来了便利,但是这种检索方式的主要问题是在返回大量不相关的结果的同时却又漏掉了一些相关页面,在很大程度上无法满足用户的需求。面对网络信息量的激增,传统的基于信息定位的Web信息表示方法,使得现有信息检索面临前文中所述的困难和窘境。
技术实现思路
本公开实施例提供了一种信息处理技术方案,用于基于智能语义分析的技术提供知识数据,以在信息搜索中智能、准确地提供用户实际查询的知识信息。根据本公开实施例的第一方面,提供一种知识数据提供方法,包括:获取查询请求语句;对所述查询请求语句进行分词处理,获取至少一个查询词;从扩展词典分别获取与各个所述查询词对应的扩展关键词,所述扩展词典包括多个查询词的扩展关键词以及作为实体词的查询词的类别信息;将获取到的各个所述查询词或其对应的扩展关键词的组合分别与多个语义匹配表达式进行匹配,获取查询意图的信息;从知识库获取与所述查询意图对应的知识数据;提供所述知识数据。可选地,所述查询意图包括知识主题和知识属性的信息。可选地,所述知识库中的各条知识数据存储为包含知识主题、知识属性和相应的知识答案的三元组。可选地,所述扩展关键词包括查询词的至少一种以下词语:同义词、替代用词、标准用词和上位词。可选地,所述语义匹配表达式包括单个作为实体词的第一匹配关键词或单个实体对象类别的信息,并且与所述语义匹配表达式对应的查询意图的信息包括与所述匹配关键词或实体对象类别对应的知识主题和所述知识主题的预设属性的信息。可选地,所述语义匹配表达式还包括至少一个第二匹配关键词,并且与所述语义匹配表达式对应的查询意图的信息包括与所述匹配关键词或实体对象类别对应的知识主题以及与所述至少一个第二匹配关键词对应的知识属性的信息。根据本公开实施例的第二方面,提供一种知识数据提供装置,包括:请求获取模块,用于获取查询请求语句;请求分词模块,用于对所述请求语句获取模块获取的查询请求语句进行分词处理,获取至少一个查询词;请求扩展模块,用于从扩展词典分别获取与所述请求获取模块获取到的各个所述查询词对应的扩展关键词,所述扩展词典包括多个查询词的扩展关键词以及作为实体词的查询词的类别信息;请求匹配模块,用于将所述请求扩展模块获取到的各个所述查询词或其对应的扩展关键词的组合分别与多个语义匹配表达式进行匹配,获取查询意图的信息;知识数据获取模块,用于从知识库获取与所述请求匹配模块匹配得到的查询意图对应的知识数据;知识数据提供模块,用于提供所述知识数据获取模块获取的知识数据。可选地,所述查询意图包括知识主题和知识属性的信息,所述知识库中的各条知识数据存储为包含知识主题、知识属性和相应的知识答案的三元组。可选地,所述扩展关键词包括查询词的至少一种以下词语:同义词、替代用词、标准用词和上位词。根据本公开实施例的第三方面,提供一种电子设备,包括:处理器和存储器;所述存储器用于存放至少一个可执行指令,所述可执行指令使所述处理器执行任一前述知识数据提供方法的步骤。根据本公开实施例的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有可执行指令,所述可执行指令使所述处理器执行任一前述知识数据提供方法的步骤。通过本公开提供的知识数据提供方案,能够对以自然语言的方式提出的查询请求进行理解、分析,通过构建的语义理解框架对从查询请求提取的关键信息进行需求匹配,并且根据匹配得到的查询意图,提供知识库中的相应知识数据,从而能够为查询用户提供准确地匹配到其查询意图的知识数据。附图说明图1是示出构建语义理解框架的示例性处理的示意图;图2示出了以疾病类别作为知识主题的示例性知识图谱;图3是示出根据本公开的示例性实施例的知识数据提供方法的处理的流程图;图4是示出图3中的示例性知识图谱以及知识数据的查找路径的示意图;图5~图7分别示出根据本公开的示例性实施例的知识主题、知识属性以及知识答案的示意图;图8是示出根据本公开的知识数据提供装置的逻辑框图;图9是示出根据本公开一些实施例的电子设备的结构示意图。具体实施方式下面结合附图(若干附图中相同的标号表示相同的元素)和实施例,对本公开实施例的具体实施方式作进一步详细说明。以下实施例用于说明本公开,但不用来限制本公开的范围。本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。本公开旨在将非结构化的自然语言进行结构化描述,以构建知识库,并且基于语义理解规则来提供知识库中的知识数据。为此,需要对用于构建知识库的各种语料进行分析和组织,并且建立包括知识库以及语义理解规则的一整套用于提供知识数据的语义理解框架。为了构建该语义理解框架,需要海量的知识语料来构建实际存有知识数据的知识库、用于对查询需求进行准确的语义匹配的语义匹配规则库以及用于对查询需求中的词语进行扩展和语义匹配所需的扩展词典。以下将参照图1描述用于基于海量知识语料来构建语义理解框架的一种示例性处理。文本分词基于规则与统计相结合的分词技术,将语料的汉字序列切分成有意义的词,采用正向最大分词技术和二次扫描技术,在保证分词效率的同时,可以发现绝大多数的交集型分词歧义。基于实例的切分歧义处理技术,对歧义进行准确处理,并使系统具有良好的可扩充性。实体识别在文本分词的基础上,自动抽取语料中的各种实体。采用隐马尔可夫(HMM)模型进行命名识别和词性标注:在词典分词的基础上,采用底层隐马模型识别出普通无嵌套的实体,并依次采取高层隐马模型识别出复杂嵌套实体;然后将识别出的未登录词以科学计算出来的概率加入到基于类的切分隐马模型中,未登录词与歧义均不作为特例,与普通词一起参与各种候选结果的竞争。词典挖掘结合已经积累的专业词典,通过自动挖掘技术挖出一些新词汇,形成最终的大词典,自动挖掘主要包括领域词发现和新词发现两个方向。领域词发现基于未标注语料的领域词汇自动抽取方法。该方法主要分三步进行:首先,在分词的基础上,计算语料库中词语之间结合的“紧密程度”,根据阈值过滤;然后对语料进行统计,得到词语的特征;最后,我们利用SVM机器学习方法,根据词语的特征对词语进行分类得到领域词汇。新词发现包括实体词获取与非实体词获取。实体词获取:本文采用了的层叠隐马尔可夫模型(CascadedHiddenMarkovModel,简称CascadedHMM)在统一的隐马尔可夫模型中来识别各类命名实体,并在这些隐马尔可夫模型中建立起一定的联系,形成一个一体化的命名实体识别系统。此外,对于获取的实体词,还标注各个实体词的类别信息。例如,对实体词“中秋节”,标注其类别为节日;对实体词“北京”,标注其类别为地名。非实体词获取:采用Nagao算法进行字串频率统计,统计出现频率大于一定值的N到M元的字串;然后以一定策略进行子串归并,长串归并掉短串,初步过滤掉候选串中的垃圾;最后综合三种策略,对候选串进行最后的过滤,得到高频词本文档来自技高网...

【技术保护点】
1.一种知识数据提供方法,包括:获取查询请求语句;对所述查询请求语句进行分词处理,获取至少一个查询词;从扩展词典分别获取与各个所述查询词对应的扩展关键词,所述扩展词典包括多个查询词的扩展关键词以及作为实体词的查询词的类别信息;将获取到的各个所述查询词或其对应的扩展关键词的组合分别与多个语义匹配表达式进行匹配,获取查询意图的信息;从知识库获取与所述查询意图对应的知识数据;提供所述知识数据。

【技术特征摘要】
1.一种知识数据提供方法,包括:获取查询请求语句;对所述查询请求语句进行分词处理,获取至少一个查询词;从扩展词典分别获取与各个所述查询词对应的扩展关键词,所述扩展词典包括多个查询词的扩展关键词以及作为实体词的查询词的类别信息;将获取到的各个所述查询词或其对应的扩展关键词的组合分别与多个语义匹配表达式进行匹配,获取查询意图的信息;从知识库获取与所述查询意图对应的知识数据;提供所述知识数据。2.根据权利要求1所述的方法,其特征在于,所述查询意图包括知识主题和知识属性的信息。3.根据权利要求2所述的方法,其特征在于,所述知识库中的各条知识数据存储为包含知识主题、知识属性和相应的知识答案的三元组。4.根据权利要求1所述的方法,其特征在于,所述扩展关键词包括查询词的至少一种以下词语:同义词、替代用词、标准用词和上位词。5.根据权利要求1所述的方法,其特征在于,所述语义匹配表达式包括单个作为实体词的第一匹配关键词或单个实体对象类别的信息,并且与所述语义匹配表达式对应的查询意图的信息包括与所述匹配关键词或实体对象类别对应的知识主题和所述知识主题的预设属性的信息。6.根据权利要求5所述的方法,其特征在于,所述语义匹配表达式还包括至少一个第二匹配关键词,并且与所述语义匹配表达式对应的查询意图的信息包括与所述匹配关键词或实体对象类别对应的知识主题以及与所述至少一个第二匹配关键词对应的知识属性的信息。7.一种知识数据提供装...

【专利技术属性】
技术研发人员:刘超王洪俊施水才
申请(专利权)人:北京拓尔思信息技术股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1