搜索方法及搜索装置制造方法及图纸

技术编号:31618936 阅读:49 留言:0更新日期:2021-12-29 18:53
本公开示出了一种搜索方法及装置,其中,搜索方法包括:获取搜索请求,搜索请求包括请求搜索的第一搜索字段以及与第一搜索字段对应的第一搜索词;确定第一搜索字段对应的搜索分词策略,搜索分词策略包括对第一搜索词进行分词处理的信息;基于搜索分词策略,对第一搜索词进行分词处理,获得搜索关键词;根据搜索关键词,搜索索引文档,获得搜索结果,索引文档包括索引关键词与文档之间的对应关系,索引关键词是基于文档中的第二搜索字段对应的索引分词策略,对第二搜索字段的字段内容进行分词处理得到的,搜索结果包括与搜索关键词匹配的索引关键词对应的文档。本公开技术方案可以提高搜索结果的召回率,满足多场景的搜索需求。满足多场景的搜索需求。满足多场景的搜索需求。

【技术实现步骤摘要】
搜索方法及搜索装置


[0001]本公开涉及计算机
,尤其涉及一种搜索方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

技术介绍

[0002]随着互联网的发展,各行各业的信息化系统呈爆炸式增长,系统复杂度也越来越高,数据体量也越来越大。目前,各个行业的信息化系统基本上都是依托于传统的关系型数据库如MySQL、Oracle等进行数据管理和存储,但是关系型数据库的系统搜索能力和体验随着数据量级的增大愈发难以满足用户愈来愈高的搜索需求。因此,引入弹性搜索引擎Elasticsearch作为系统搜索能力的核心,由数据库专注于数据存储,由搜索引擎专注于数据搜索。然而,现有的弹性搜索引擎支持的应用场景较为单一,无法满足多场景的搜索需求。

技术实现思路

[0003]本公开提供一种搜索方法、装置、电子设备、计算机可读存储介质及计算机程序产品,以至少解决相关技术中无法满足多场景搜索需求的问题。本公开的技术方案如下:
[0004]根据本公开的第一方面,提供一种搜索方法,包括:
[0005]获取搜索请求,所述搜索请求包括请求搜索的第一搜索字段以及与所述第一搜索字段对应的第一搜索词;
[0006]确定所述第一搜索字段对应的搜索分词策略,所述搜索分词策略包括对所述第一搜索词进行分词处理的信息;
[0007]基于所述搜索分词策略,对所述第一搜索词进行分词处理,获得搜索关键词;
[0008]根据所述搜索关键词,搜索索引文档,获得搜索结果,所述索引文档包括索引关键词与文档之间的对应关系,所述索引关键词是基于所述文档中的第二搜索字段对应的索引分词策略,对所述第二搜索字段的字段内容进行分词处理得到的,所述搜索结果包括与所述搜索关键词匹配的索引关键词对应的文档。
[0009]在一种可选的实现方式中,所述确定所述第一搜索字段对应的搜索分词策略的步骤,包括:
[0010]根据搜索字段与业务类型之间的对应关系,确定所述第一搜索字段对应的第一业务类型;
[0011]根据业务类型与第一分词策略之间的对应关系,确定与所述第一业务类型对应的第一分词策略为所述搜索分词策略;
[0012]其中,所述索引分词策略与所述第二搜索字段对应的第二业务类型具有对应关系。
[0013]在一种可选的实现方式中,在所述根据所述搜索关键词,搜索索引文档的步骤之前,还包括:
[0014]获取目标文档,所述目标文档包含所述第二搜索字段以及所述第二搜索字段的字段内容;
[0015]根据搜索字段与业务类型之间的对应关系,确定所述第二搜索字段对应的第二业务类型;
[0016]根据业务类型与第二分词策略之间的对应关系,确定与所述第二业务类型对应的第二分词策略为所述索引分词策略,所述索引分词策略包括对所述第二搜索字段的字段内容进行分词处理的信息;
[0017]基于所述索引分词策略,对所述第二搜索字段的字段内容进行分词处理,获得所述索引关键词;
[0018]构建所述索引文档,所述索引文档包括所述索引关键词与所述目标文档之间的对应关系。
[0019]在一种可选的实现方式中,所述业务类型与第一分词策略之间的对应关系包括以下至少之一:
[0020]当所述业务类型为单行文本和/或多行文本时,对应的第一分词策略包括:基于第一词典,按照最粗粒度,对分词对象进行分词;
[0021]当所述业务类型为下拉单选、下拉多选、单选框、复选框、时间、整型、浮点型、布尔类型、人员单选和人员多选中的至少之一时,对应的第一分词策略包括:将输入的分词对象作为分词结果。
[0022]在一种可选的实现方式中,所述业务类型与第二分词策略之间的对应关系包括以下至少之一:
[0023]当所述业务类型为单行文本和/或多行文本时,对应的第二分词策略包括:对分词对象进行分词,得到以下分词结果:基于第二词典并按照最细粒度对所述分词对象进行分词得到的第一初始结果,对所述分词对象按照字节大小为N的滑动窗口操作进行分词得到的第二初始结果,所述第一初始结果的全拼和首字母,以及所述第二初始结果的全拼和首字母,其中,N为大于零的整数;
[0024]当所述业务类型为人员单选和/或人员多选时,对应的第二分词策略包括:将分词对象的全拼和首字母作为分词结果;
[0025]当所述业务类型为下拉单选、下拉多选、单选框、复选框、时间、整型、浮点型和布尔类型中的至少之一时,对应的第二分词策略包括:将输入的分词对象作为分词结果。
[0026]在一种可选的实现方式中,所述搜索请求包括多个所述第一搜索字段,在所述获得搜索结果的步骤之后,还包括:
[0027]获取排序请求,所述排序请求包括从多个所述第一搜索字段中指定的第一级排序字段;
[0028]根据搜索字段与业务类型之间的对应关系,确定所述第一级排序字段对应的第三业务类型;
[0029]根据业务类型与排序规则之间的对应关系,确定与所述第三业务类型对应的第一级排序规则;
[0030]按照所述第一级排序规则,对所述搜索结果进行第一级排序。
[0031]在一种可选的实现方式中,所述排序请求还包括从多个所述第一搜索字段中指定
的第二级排序字段,在所述对所述搜索结果进行第一级排序的步骤之后,还包括:
[0032]根据搜索字段与业务类型之间的对应关系,确定所述第二级排序字段对应的第四业务类型;
[0033]根据业务类型与排序规则之间的对应关系,确定与所述第四业务类型对应的第二级排序规则;
[0034]按照所述第二级排序规则,对完成第一级排序的搜索结果进行第二级排序。
[0035]在一种可选的实现方式中,所述业务类型与排序规则之间的对应关系包括以下至少之一:
[0036]若所述业务类型为下拉单选、单选框、单行文本和多行文本中的至少之一,则按照首字母或首字符的编码值大小进行排序,所述编码值是按照预设编码规则对首字母或首字符进行编码得到的数值;
[0037]若所述业务类型为时间,则按照时间大小进行排序;
[0038]若所述业务类型为整型和/或浮点型,则按照数值大小进行排序;
[0039]若所述业务类型为布尔类型,则按照布尔值的大小进行排序;
[0040]若所述业务类型为下拉多选和/或复选框,则按照预先指定的选项顺序进行排序。
[0041]在一种可选的实现方式中,所述搜索请求包括多个所述第一搜索字段,在所述获得搜索结果的步骤之后,还包括:
[0042]获取分组请求,所述分组请求包括从多个所述第一搜索字段中指定的第一级分组字段和第二级分组字段;
[0043]按照所述第一级分组字段,对所述搜索结果进行第一级分组;
[0044]按照所述第二级分组字段,对完成第一级分组的搜索结果进行第二级分组。
[0045]根据本公开的第二方面,提供一种搜索装置,所述装置包括:
[0046]获取模块,被配置为获取搜索请求,所述搜索请求包括请本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种搜索方法,其特征在于,包括:获取搜索请求,所述搜索请求包括请求搜索的第一搜索字段以及与所述第一搜索字段对应的第一搜索词;确定所述第一搜索字段对应的搜索分词策略,所述搜索分词策略包括对所述第一搜索词进行分词处理的信息;基于所述搜索分词策略,对所述第一搜索词进行分词处理,获得搜索关键词;根据所述搜索关键词,搜索索引文档,获得搜索结果,所述索引文档包括索引关键词与文档之间的对应关系,所述索引关键词是基于所述文档中的第二搜索字段对应的索引分词策略,对所述第二搜索字段的字段内容进行分词处理得到的,所述搜索结果包括与所述搜索关键词匹配的索引关键词对应的文档。2.根据权利要求1所述的搜索方法,其特征在于,所述确定所述第一搜索字段对应的搜索分词策略的步骤,包括:根据搜索字段与业务类型之间的对应关系,确定所述第一搜索字段对应的第一业务类型;根据业务类型与第一分词策略之间的对应关系,确定与所述第一业务类型对应的第一分词策略为所述搜索分词策略;其中,所述索引分词策略与所述第二搜索字段对应的第二业务类型具有对应关系。3.根据权利要求2所述的搜索方法,其特征在于,在所述根据所述搜索关键词,搜索索引文档的步骤之前,还包括:获取目标文档,所述目标文档包含所述第二搜索字段以及所述第二搜索字段的字段内容;根据搜索字段与业务类型之间的对应关系,确定所述第二搜索字段对应的第二业务类型;根据业务类型与第二分词策略之间的对应关系,确定与所述第二业务类型对应的第二分词策略为所述索引分词策略,所述索引分词策略包括对所述第二搜索字段的字段内容进行分词处理的信息;基于所述索引分词策略,对所述第二搜索字段的字段内容进行分词处理,获得所述索引关键词;构建所述索引文档,所述索引文档包括所述索引关键词与所述目标文档之间的对应关系。4.根据权利要求2所述的搜索方法,其特征在于,所述业务类型与第一分词策略之间的对应关系包括以下至少之一:当所述业务类型为单行文本和/或多行文本时,对应的第一分词策略包括:基于第一词典,按照最粗粒度,对分词对象进行分词;当所述业务类型为下拉单选、下拉多选、单选框、复选框、时间、整型、浮点型、布尔类型、人员单选和人员多选中的至少之一时,对应的第一分词策略包括:将输入的分词对象作为分词结果。5.根据权利要求3所述的搜索方法,其特征在于,所述业务类型与第二分词策略之间的对应关系包括以下至少之一:
当所述业务类型为单行文本和/或多行文本时,对应的第...

【专利技术属性】
技术研发人员:焦阳
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1