本发明专利技术涉及大数据查询技术领域,特别是涉及一种高效的大数据查询方法。本发明专利技术在历史查询库中保存了词的历史查询记录;用户输入查询请求时,系统首先分析用户的查询意图,并提供候选关键词供用户选择,用户确定最终的查询关键词后,系统对关键词进行分词处理,从关键词中提取出主词和辅词;系统将主词与历史查询库执行匹配操作,匹配后,将符合的历史查询库结果和新数据的查询结果合并,产生合并结果集,若有辅词,则在合并结果集上继续查询,得到最终查询结果;若无辅词,则直接将合并结果集作为查询结果返回给用户;最后更新历史查询库。本发明专利技术节省了大数据搜索时间,提高了查询效率;可以用于大数据的查询上。
【技术实现步骤摘要】
一种高效的大数据查询方法
本专利技术涉及大数据查询
,特别是涉及一种高效的大数据查询方法。
技术介绍
随着大数据时代的到来,面对日益增长的海量数据,如何更好的处理大数据,满足用户对大数据查询的高效、准确及个性化等需求,逐渐引起人们的关注。虽然针对大数据处理已经有很多新的技术或方法,但是从大数据中获取满足用户查询需求的数据,仍然需要花费较长的时间,而对于大数据交互式的查询效率,更是一个巨大的挑战。
技术实现思路
本专利技术解决的技术问题在于提供一种高效的大数据查询方法,可节省大数据处理时间,实现高效的大数据查询。本专利技术解决上述技术问题的技术方案是:在历史查询库中保存主词的历史查询记录;用户输入查询请求时,首先分析用户的查询意图,并提供候选关键词供用户选择;用户确定最终的查询关键词后,对关键词进行分词处理,从关键词中提取出主词和辅词;系统将主词与历史查询库执行匹配操作,若匹配,则将符合的历史查询库结果和新数据的查询结果合并,产生合并结果集;如有辅词,则在合并结果集上继续查询,得到最终查询结果;如无辅词,则直接将合并结果集作为查询结果返回给用户;若不匹配,则全库执行全新查询后将结果返回给用户;最后更新历史查询库。所述的查询方法详细流程为:第一步,用户通过系统输入查询关键词;第二步,系统通过分析用户的查询请求意图,提供相近的候选查询关键词供用户选择,若用户不选择候选查询关键词,则将用户输入的查询关键词作为本次查询的关键词;用户确定最终的查询关键词后,系统对关键词进行分词处理,提取出主词和辅词;第三步,系统将分词处理后的主、辅词和历史查询库进行匹配处理,历史查询库只保存主词的历史查询结果,匹配的过程可能出现3种情况:(1)全匹配:如果是全匹配,则表明用户的查询关键词只有主词,且该主词以前出现过,在历史共享库中有相应的历史查询结果,因此,历史库的历史查询结果可以直接为本次查询使用,即共享历史查询库结果;同时,由于历史查询库只是保存某段时间之前的查询数据,有可能在该历史查询后又有新的数据产生,所以对于历史查询库最后时间点之后新增的数据,仍然需要执行查询,最后将新增数据的查询结果和历史查询库的共享结果合并,形成合并结果集,即是用户本次查询的结果;(2)部分匹配:如果是部分匹配,则表明用户输入的查询关键词提取出了主词和辅词,其中主词以前出现过,在历史共享库中有相应的历史查询结果,因此,历史库的历史查询结果可以直接为本次查询使用,即共享历史查询库结果;同时,由于历史查询库只是保存某段时间之前的查询数据,有可能在该历史查询后又有新的数据产生,所以对于历史查询库最后时间点之后新增的数据,仍然需要执行查询,然后将新增数据的查询结果和历史查询库的共享结果合并,形成合并结果集;最后在合并结果集中继续对辅词进行查询,得出用户本次查询的结果;(3)完全不匹配:如果是完全不匹配,则表明用户输入的查询关键词没有任何历史查询记录,在历史查询库中不存在,这种情况则需要对全库执行全新的查询处理,最终得到用户本次查询的结果;第四步,将用户本次查询的结果返回给用户;第五步,更新历史查询库中对应主词的查询记录。所述的提取主词和辅词的具体方法为:系统采用开源的分词工具ICTCLAS,对用户确定的查询关键词进行分词处理,分词后的关键词都带有形容词、动词、名词等词性标注,其中,动词和名词对主题表达的贡献度最大,所以可将动词和名词作为主词,其他词则作为辅词。所述的提供相近候选查询关键词的具体方法为:系统通过和历史查询库进行模糊匹配的方式,分析用户的查询请求意图,提供相近的候选查询关键词。本专利技术通过对用户查询的关键词进行分词处理,并通过共享历史查询库的历史查询结果,使其具有如下优点:(1)分词匹配,查询更精确;(2)共享历史查询库,减少重复查询操作;(3)节省大数据搜索时间,提高了查询效率。附图说明下面结合附图对本专利技术进一步说明:图1是本专利技术的处理流程示意图。具体实施方式如图1所示,本专利技术的详细流程为:第一步,用户通过系统输入查询关键词;第二步,系统通过分析用户的查询请求意图,提供相近的候选查询关键词供用户选择,若用户不选择候选查询关键词,则将用户输入的查询关键词作为本次查询的关键词;用户确定最终的查询关键词后,系统对关键词进行分词处理,提取出主词和辅词;其中,提供相近候选查询关键词的具体方法为:系统通过和历史查询库进行模糊匹配的方式,分析用户的查询请求意图,提供相近的候选查询关键词,例如用户输入“车”,系统会根据历史查询库中已有的历史查询关键词记录,提供候选关键词“汽车”、“自行车”等,供用户选择;提取主词和辅词的具体方法为:系统采用开源的分词工具ICTCLAS,对用户确定的查询关键词进行分词处理,分词后的关键词都带有词性标注,如形容词、动词、名词等,其中,动词和名词对主题表达的贡献度最大,所以可将动词和名词作为主词,其他词则作为辅词;例如用户确定的查询关键词为“红色的苹果”,分词后为“红色/的/苹果”,则提取“苹果”为主词,“红色”为辅词;第三步,系统将分词处理后的主、辅词和历史查询库进行匹配处理,历史查询库只保存主词的历史查询结果,匹配的过程可能出现3种情况:(1)全匹配:如果是全匹配,则表明用户的查询关键词只有主词,且该主词以前出现过,在历史共享库中有相应的历史查询结果,因此,历史库的历史查询结果可以直接为本次查询使用,即共享历史查询库结果;同时,由于历史查询库只是保存某段时间之前的查询数据,有可能在该历史查询后又有新的数据产生,所以对于历史查询库最后时间点之后新增的数据,仍然需要执行查询,最后将新增数据的查询结果和历史查询库的共享结果合并,形成合并结果集,即是用户本次查询的结果;(2)部分匹配:如果是部分匹配,则表明用户输入的查询关键词提取出了主词和辅词,其中主词以前出现过,在历史共享库中有相应的历史查询结果,因此,历史库的历史查询结果可以直接为本次查询使用,即共享历史查询库结果;同时,由于历史查询库只是保存某段时间之前的查询数据,有可能在该历史查询后又有新的数据产生,所以对于历史查询库最后时间点之后新增的数据,仍然需要执行查询,然后将新增数据的查询结果和历史查询库的共享结果合并,形成合并结果集;最后在合并结果集中继续对辅词进行查询,得出用户本次查询的结果;(3)完全不匹配:如果是完全不匹配,则表明用户输入的查询关键词没有任何历史查询记录,在历史查询库中不存在,这种情况则需要对全库执行全新的查询处理,最终得到用户本次查询的结果;第四步,将用户本次查询的结果返回给用户;第五步,更新历史查询库中对应主词的查询记录。本文档来自技高网...
【技术保护点】
一种高效的大数据查询方法,其特征在于:在历史查询库中保存主词的历史查询记录;用户输入查询请求时,首先分析用户的查询意图,并提供候选关键词供用户选择;用户确定最终的查询关键词后,对关键词进行分词处理,从关键词中提取出主词和辅词;系统将主词与历史查询库执行匹配操作,若匹配,则将符合的历史查询库结果和新数据的查询结果合并,产生合并结果集;如有辅词,则在合并结果集上继续查询,得到最终查询结果;如无辅词,则直接将合并结果集作为查询结果返回给用户;若不匹配,则全库执行全新查询后将结果返回给用户;最后更新历史查询库。
【技术特征摘要】
1.一种高效的大数据查询方法,其特征在于:在历史查询库中保存主词的历史查询记录;用户输入查询请求时,首先分析用户的查询意图,并提供候选关键词供用户选择;用户确定最终的查询关键词后,对关键词进行分词处理,从关键词中提取出主词和辅词;系统将主词与历史查询库执行匹配操作,若匹配,则将符合的历史查询库结果和新数据的查询结果合并,产生合并结果集;如有辅词,则在合并结果集上继续查询,得到最终查询结果;如无辅词,则直接将合并结果集作为查询结果返回给用户;若不匹配,则全库执行全新查询后将结果返回给用户;最后更新历史查询库;所述的查询方法详细流程为:第一步,用户通过系统输入查询关键词;第二步,系统通过分析用户的查询请求意图,提供相近的候选查询关键词供用户选择,若用户不选择候选查询关键词,则将用户输入的查询关键词作为本次查询的关键词;用户确定最终的查询关键词后,系统对关键词进行分词处理,提取出主词和辅词;第三步,系统将分词处理后的主、辅词和历史查询库进行匹配处理,历史查询库只保存主词的历史查询结果,匹配的过程会出现3种情况:(1)全匹配:如果是全匹配,则表明用户的查询关键词只有主词,且该主词以前出现过,在历史查询库中有相应的历史查询结果,因此,历史查询库的历史查询结果可以直接为本次查询使用,即共享历史查询库结果;同时,由于历史查询库只是保存某段时间之前的查询数据,有可能在该历史查询后又有新的数据产生,所以对于历史查询库最后时间点之后新增的数据,仍然需要执行查询,最后将新增数据的查询结果和历史...
【专利技术属性】
技术研发人员:胡文彬,艾建文,季统凯,
申请(专利权)人:国云科技股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。