本发明专利技术公开了一种检索请求语义扩展方法,包括如下步骤:接收用户的检索请求;对检索请求进行分词处理,生成关键词;基于知识树对关键词进行语义扩展,生成扩展后的关键词组合;对关键词组合,结合检索组合库进行最优匹配组合查询,得到有效检索组合;将有效检索组合与用户已经输入的检索请求合并,生成有效检索组合集。本发明专利技术能够实现多维度语义扩展,并且通过最优匹配组合查询将大量的多重组合集快速聚焦到有效检索组合集中,实现了充分的语义扩展与真实有意义的检索组合的有机结合,有效提高了搜索结果的精度。
【技术实现步骤摘要】
本专利技术涉及一种对用户的检索请求进行语义扩展的方法,属于网络搜索
技术介绍
搜索引擎是根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,从而为用户提供检索服务的信息服务系统。现有的搜索引擎根据用户提供的关键词进入自身的数据库系统进行检索,并将搜索结果反馈给用户。在这个过程中,往往用几个简单的关键词很难表达出用户真正的搜索意图,或者用户不知道应该输入什么样的关键词,才能准确表达自己需要搜索的信息。而搜索引擎需要根据用户输入的信息进行分析判断,并根据判断结果来提供搜索结果。因此,现有搜索引擎的搜索结果与用户的需求之间经常是答非所问,令人失望。为了让用户能够检索到其所期望的搜索结果,对用户输入的检索词进行扩展成为一个可行的方法。这方面已有一些较为成熟的技术方案。例如美国谷歌公司在申请号为200880024690. 7的中国专利申请中,提出了一种用于提供搜索查询信息的系统,利用历史搜索查询信息的统计,依据当前输入的查询与之匹配,得到扩展的搜索查询信息。具体地说,该系统接收对搜索查询信息的请求,从搜索查询日志识别搜索查询集合,搜索查询日志包括在预定时间长度内提交给搜索服务的搜索查询,并且提供所述搜索查询集合。所述搜索查询集合中的每一个与至少预定数量的独特标识符相关联。所述搜索查询集合中的每一个通过精确匹配、扩展匹配和宽泛匹配而与对搜索查询信息的请求相匹配。在申请号为200810151074.X的中国专利申请中,也公开了一种关键词自动扩展查询方法,通过关键词识别码做一级关键词扩展。该方法包括以下步骤1)建立一数据库该数据库包含关键词、词汇和识别码;2)将关键词与至少一词汇对应;3)将相关的关键词与一识别码对应;4)通过用户输入的关键词,确定数据库中与该关键词对应的识别码;5)通过该识别码提取该识别码对应相关的关键词;6)通过相关的关键词,查询出与每一相关的关键词对应的词汇。另外,在申请号为201110089889.1的中国专利申请中,提出了一种基于关键词的WEB服务器扩展检索方法,将关键词进行语义扩展,利用扩展后的增量关键词提供检索。具体地说,该方法由WEB服务器提供的检索系统自动扩展出与用户所输入关键词相对应的扩展词进行辅助检索,即WEB服务器的检索系统在进行检索之前,先根据扩展条件自动把用户查询的关键词进行语义扩展,从而形成新的查询条件,并检索相匹配的信息文本返回给用户。该技术方案可以增强WEB服务器的语义扩展检索性能,并且扩展条件可灵活选择,能够更好地满足人们对于语义信息检索的灵活性需求。
技术实现思路
本专利技术所要解决的技术问题在于提供。该方法可以用在搜索引擎中,对用户的检索请求进行语义扩展,从而提高搜索结果的精度。为实现上述的专利技术目的,本专利技术采用下述的技术方案,包括如下步骤接收用户的检索请求;对所述检索请求进行分词处理,生成关键词;基于知识树对所述关键词进行语义扩展,生成扩展后的关键词组合;对所述关键词组合,结合检索组合库进行最优匹配组合查询,得到有效检索组合;将所述有效检索组合与用户已经输入的检索请求合并,生成有效检索组合集。其中较优地,在对所述检索请求进行分词处理时,过滤停用词。其中较优地,所述知识树由若干个语义节点构成,每个语义节点下包括不同维度的语义扩展。其中较优地,所述语义扩展包括同义词集、汉语拼音集、拆字变形集、错别字词集和其他变形词集。其中较优地,在进行最优匹配组合查询时,以所述关键词组合进行输入,查询所述检索组合库,得到所述关键词组合的频度和匹配相似度,然后利用所述频度和所述匹配相似度对所述关键词组合计算得分,并进行排序,在排序后优选所述关键词组合的个数,得到有效检索组合。其中较优地,所述检索组合库用于记录检索关键词组合请求的时刻、频次。其中较优地,在生成所述有效检索组合集后,将用户继续输入的关键词组合存储到所述检索组合库中;如果所述关键词组合已经存在则记录存储时刻,更新频次;如果不存在,创建新记录。本专利技术所提供的检索请求语义扩展方法能够实现多维度语义扩展,并且通过最优匹配组合查询将大量的多重组合集快速聚焦到有效检索组合集中,实现了充分的语义扩展与真实有意义的检索组合的有机结合,有效提高了搜索结果的精度。附图说明图1是本专利技术所提供的检索请求语义扩展方法的流程图;图2是本专利技术中,知识树节点的结构示意图。具体实施例方式本专利技术提供了,将关键词结成知识树,每个关键词形成的语义节点由其子节点的语义集合支撑。在此基础上,利用扩展的关键词集合,在检索组合库中查询最优匹配的组合,用以聚焦扩展后的检索组合。下面结合附图和具体实施例,对上述技术方案做进一步的详细说明。如图1所示,本专利技术所提供的检索请求语义扩展方法包括如下步骤接收检索请求;分词处理,过滤停用词;利用知识树生成语义扩展集合;结合检索组合库进行最优匹配组合查询;生成有效检索组合集。其中,在接收检索请求步骤得到用户输入的检索请求后,通过分词处理,消除停用词,生成语义明确的词汇一关键词。每个关键词投影到知识树中的语义节点上,以便对关键词的语义进行多维度扩展。这样,语义扩展集合是通过知识树扩展后的关键词组合。通过扩展后的关键词组合因多维度的充分语义扩展,词集基往往会很大,关键词组合呈指数增长。为此,在最优匹配组合查询步骤中以新生成的关键词组合进行输入,查询检索组合库,得到关键词组合的频度和匹配相似度,然后利用这两项特征对关键词组合计算得分,并进行排序。在排序后优选关键词组合的个数,得到有效检索组合,同时将用户已经输入的检索请求的关键词组合并入其中,生成有效检索组合集。在生成有效检索组合集后,将用户继续输入的关键词组合存储到检索组合库中,如果此关键词组合已经存在则记录存储时刻,更新频次;如果不存在,创建新记录。本检索请求语义扩展方法的主要特点在于基于知识树的关键词多维度语义扩展。该知识树用于实现语义节点的存储,每个语义节点具有一级语义词汇集合作为支撑,其具体结构如图2所示。例如在语义节点I和语义节点2中,分别含有同义词集、汉语拼音集、拆字变形集、错别字词集和一些简写等其他变形词集。知识树由若干个语义节点构成,每个语义节点下包括不同维度的语义扩展,描述了语义节点中语义扩展的形式及其多维度的属性。这样的知识树可由人工创建并维护。在本专利技术中,接收检索请求步骤用于提供用户检索请求的输入通道。在分词处理步骤中,对接收的检索请求内容进行分词处理,得到有语义的关键词,并将停用词过滤,以便减少不必要的计算。在最优匹配组合查询步骤中,通过语义扩展后的词集在检索组合库中找到频度、匹配精度两方面组合最优的检索请求项集合。这里的检索组合库是历史检索关键词组合库,记录了检索关键词组合请求的时刻、频次。有效检索组合集是通过上述最优匹配组合查询步骤得到最优的检索组合集与用户已提交的检索请求的并集。在基于知识树的关键词多维度语义扩展之后,利用历史检索组合记录聚焦高频、高相似度的检索组合,生成有效检索组合集。在形成有效检索组合集的过程中,本专利技术将检索到的最优匹配组合集与用户已提交的检索请求合并,以保证最基本的检索质量。下面通过一个实施例对本检索请求语义扩展方法展开具体说明。例如查询关键词网页内容在知识树中语义节本文档来自技高网...
【技术保护点】
一种检索请求语义扩展方法,其特征在于包括如下步骤:接收用户的检索请求;对所述检索请求进行分词处理,生成关键词;基于知识树对所述关键词进行语义扩展,生成扩展后的关键词组合;对所述关键词组合,结合检索组合库进行最优匹配组合查询,得到有效检索组合;将所述有效检索组合与用户已经输入的检索请求合并,生成有效检索组合集。
【技术特征摘要】
【专利技术属性】
技术研发人员:庞晓曦,王树强,宋传宝,
申请(专利权)人:北京海量融通软件技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。