一种数据检索方法、装置、设备及存储介质制造方法及图纸

技术编号:32655754 阅读:12 留言:0更新日期:2022-03-17 11:03
本发明专利技术实施例提供了一种数据检索方法、装置、设备及存储介质,在接收到用户输入的多个查询请求时,从查询请求中提取出多个查询请求对应的多个索引,基于索引的关联关系将多个索引划分为至少一个分组,从SQL数据库中检索出多个索引关联的数据,其中,每个分组在SQL数据库进行一次扫描。由于分组中的索引存在关联关系,分组中的多个索引要求检索的数据存在相同的部分,在检索到其中一个索引的数据时,同时也能得到分组中其他索引的数据,因此,在检索时,仅需对SQL数据库扫描一次,避免针对输入的多个索引多次扫描SQL数据库,减少了检索时间,提高了检索效率。提高了检索效率。提高了检索效率。

【技术实现步骤摘要】
一种数据检索方法、装置、设备及存储介质


[0001]本专利技术实施例涉及数据检索
,尤其涉及一种数据检索方法、装置、设备及存储介质。

技术介绍

[0002]在大数据时代中,数据库系统的数据类型与规模在不断扩增,这给数据库管理带来了一定的挑战。在社会生产生活中,对于数据库的应用范围逐步增大,提升数据库开发及应用的效率,是保障社会生产生活高效运转的关键。
[0003]现有的检索方式,大多基于索引,全盘扫描数据库或扫描数据库中索引对应的数据库,从而找到索引关联的数据。
[0004]但是,当用户输入多个索引,且多个索引之间存在包含的关系时,例如索引1为“五年级”,索引2为“三年级到五年级”,此时,针对这两个索引,需要分别对数据库进行两次扫描,耗费时间较长,检索效率低下。

技术实现思路

[0005]本专利技术提供一种数据检索方法、装置、设备及存储介质,以减少了检索时间,提高了检索效率。
[0006]第一方面,本专利技术实施例提供了数据检索方法,包括:
[0007]接收用户输入的多个查询请求;
[0008]从所述查询请求中提取出多个查询请求对应的多个索引;
[0009]基于所述索引的关联关系将多个所述索引划分为至少一个分组;
[0010]从所述SQL数据库中检索出多个所述索引关联的数据,其中,每个所述分组在所述SQL数据库进行一次扫描。
[0011]可选的,从所述查询请求中提取出多个查询请求对应的多个索引,包括:
[0012]从所述查询请求中提取关键词;
[0013]基于词典中所述关键词的历史索引频率从所述关键词筛选出目标关键词;
[0014]判断所述目标关键词前后是否存在连接词;
[0015]在所述目标关键词前后不存在连接词时,将所述目标关键词作为索引;
[0016]在所述目标关键词前后存在连接词时,将所述目标关键词和所述连接词作为索引。
[0017]可选的,从所述查询请求中提取关键词,包括:
[0018]对所述查询请求进行分词,得到多个候选关键词;
[0019]遍历所述候选关键词,从词向量文件中抽取所述候选关键词的词向量表示;
[0020]对所述候选关键词的词向量进行聚类处理,得到各个类别的聚类中心;
[0021]计算各类别下,各所述词向量与聚类中心的距离,并升序排列;
[0022]将排名前N个候选关键词作为关键词。
[0023]可选的,基于所述索引的关联关系将多个所述索引划分为至少一个分组,包括:
[0024]计算各索引之间的相似度;
[0025]将相似度大于预设的相似度阈值的至少一个索引划分为一个分组。
[0026]可选的,基于所述索引的关联关系将多个所述索引划分为至少一个分组,包括:
[0027]确定各所述索引的索引模式;
[0028]将属于同一索引模式的至少一个索引划分为一个分组。
[0029]可选的,从所述SQL数据库中检索出多个所述索引关联的数据,包括:
[0030]基于所述分组内的所述索引确定所述分组的索引范围;
[0031]针对所述分组内的每一所述索引,从所述索引范围中找到与所述索引关联的数据。
[0032]可选的,所述数据检索方法还包括:
[0033]记录所述索引的检索;
[0034]更新词典中所述索引对应的关键词的历史索引频率。
[0035]第二方面,本专利技术实施例还提供了一种数据检索装置,包括:
[0036]查询请求接收模块,用于接收用户输入的多个查询请求;
[0037]索引提取模块,用于从所述查询请求中提取出多个查询请求对应的多个索引;
[0038]索引分组模块,用于基于所述索引的关联关系将多个所述索引划分为至少一个分组;
[0039]检索模块,用于从所述SQL数据库中检索出多个所述索引关联的数据,其中,每个所述分组在所述SQL数据库进行一次扫描。
[0040]可选的,索引提取模块包括:
[0041]关键词提取子模块,用于从所述查询请求中提取关键词;
[0042]目标关键词确定子模块,用于基于词典中所述关键词的历史索引频率从所述关键词筛选出目标关键词;
[0043]判断子模块,用于判断所述目标关键词前后是否存在连接词;
[0044]第一索引确定子模块,用于在所述目标关键词前后不存在连接词时,将所述目标关键词作为索引;
[0045]第二索引确定子模块,用于在所述目标关键词前后存在连接词时,将所述目标关键词和所述连接词作为索引。
[0046]可选的,关键词提取子模块包括:
[0047]分词单元,用于对所述查询请求进行分词,得到多个候选关键词;
[0048]词向量确定单元,用于遍历所述候选关键词,从词向量文件中抽取所述候选关键词的词向量表示;
[0049]聚类单元,用于对所述候选关键词的词向量进行聚类处理,得到各个类别的聚类中心;
[0050]距离计算单元,用于计算各类别下,各所述词向量与聚类中心的距离,并升序排列;
[0051]关键词确定单元,用于将排名前N个候选关键词作为关键词。
[0052]可选的,索引分组模块包括:
[0053]相似度计算子模块,用于计算各索引之间的相似度;
[0054]第一分组子模块,用于将相似度大于预设的相似度阈值的至少一个索引划分为一个分组。
[0055]可选的,索引分组模块包括:
[0056]索引模式确定子模块,用于确定各所述索引的索引模式;
[0057]第二分组子模块,用于将属于同一索引模式的至少一个索引划分为一个分组。
[0058]可选的,检索模块包括:
[0059]索引范围确定子模块,用于基于所述分组内的所述索引确定所述分组的索引范围;
[0060]索引子模块,用于针对所述分组内的每一所述索引,从所述索引范围中找到与所述索引关联的数据。
[0061]可选的,所述数据检索装置还包括:
[0062]记录模块,用于记录所述索引的检索;
[0063]更新模块,用于更新词典中所述索引对应的关键词的历史索引频率。
[0064]第三方面,本专利技术实施例还提供了一种计算机设备,包括:
[0065]一个或多个处理器;
[0066]存储装置,用于存储一个或多个程序;
[0067]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术第一方面提供的数据检索方法。
[0068]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术第一方面提供的数据检索方法。
[0069]本专利技术实施例提供的数据检索方法,在接收到用户输入的多个查询请求时,从查询请求中提取出多个查询请求对应的多个索引,基于索引的关联关系将多个索引划分为至少本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据检索方法,其特征在于,包括:接收用户输入的多个查询请求;从所述查询请求中提取出多个查询请求对应的多个索引;基于所述索引的关联关系将多个所述索引划分为至少一个分组;从SQL数据库中检索出多个所述索引关联的数据,其中,每个所述分组在所述SQL数据库进行一次扫描。2.根据权利要求1所述的数据检索方法,其特征在于,从所述查询请求中提取出多个查询请求对应的多个索引,包括:从所述查询请求中提取关键词;基于词典中所述关键词的历史索引频率从所述关键词筛选出目标关键词;判断所述目标关键词前后是否存在连接词;在所述目标关键词前后不存在连接词时,将所述目标关键词作为索引;在所述目标关键词前后存在连接词时,将所述目标关键词和所述连接词作为索引。3.根据权利要求2所述的数据检索方法,其特征在于,从所述查询请求中提取关键词,包括:对所述查询请求进行分词,得到多个候选关键词;遍历所述候选关键词,从词向量文件中抽取所述候选关键词的词向量表示;对所述候选关键词的词向量进行聚类处理,得到各个类别的聚类中心;计算各类别下,各所述词向量与聚类中心的距离,并升序排列;将排名前N个候选关键词作为关键词。4.根据权利要求1

3任一所述的数据检索方法,其特征在于,基于所述索引的关联关系将多个所述索引划分为至少一个分组,包括:计算各索引之间的相似度;将相似度大于预设的相似度阈值的至少一个索引划分为一个分组。5.根据权利要求1

3任一所述的数据检索方法,其...

【专利技术属性】
技术研发人员:郝振斌
申请(专利权)人:广州辰创科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1