System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据检索领域,具体而言,涉及一种信息检索方法及装置。
技术介绍
1、信息检索是用户进行信息查询和信息获取的主要方式,即用户根据需要,采用一定的方法,并借助检索工具,从信息集合中查出所需要信息的查找过程。广义的信息检索包括信息存储和信息检索。
2、召回率(recall rate)是评估搜索引擎效果的一个重要指标,其计算公式为:recall rate=检索出的与所需信息相符的文档数/所有需要检索的文档数。在搜索引擎能够返回所有与检索请求相关的结果时,召回率为100%。
3、目前,通常采用es(elasticsearch,搜索数据分析引擎)引擎和mysql数据进行信息检索。然而,在召回率要求高,尤其是召回率为100%的情况下,es引擎和mysql数据的模糊查询都无法精准的匹配,导致检索结果不理想。
技术实现思路
1、有鉴于此,本申请的目的在于提供一种信息检索方法及装置,其能够提升数据检索匹配时的精确度,提高检索准确度。
2、为了实现上述目的,本申请实施例采用的技术方案如下:
3、第一方面,本申请实施例提供一种信息检索方法,所述方法包括:
4、对词条的标签信息进行编码操作,得到所述标签信息对应的标签码集合;
5、以所述词条作为内容字段,以所述标签码集合作为所述内容字段的标签字段,得到词条信息,并将所述词条信息存储至数据库;
6、当接收到检索语句时,对所述检索语句进行编码操作,得到检索码集合;
>7、从所述数据库中查询出标签字段与所述检索码集合匹配的所有词条信息,得到检索结果。
8、在一种可能的实施方式中,所述标签信息包括多个标签组,每个所述标签组表征一个检索语义;
9、所述对词条的标签信息进行编码操作,得到所述标签信息对应的标签码集合的步骤,包括:
10、将所述词条的每个所述标签组进行切分,得到多个子标签;
11、对每个所述子标签进行特征编码,得到特征码;
12、将同一个所述标签组的所有子标签的特征码相加,得到所述标签组的标签码;
13、将所述词条对应的所有标签码进行组合,得到标签码集合。
14、在一种可能的实施方式中,所述将同一个所述标签组的所有子标签的特征码相加,得到所述标签组的标签码的步骤,包括:
15、将每个所述子标签的特征码转换为十六进制和预设长度的字符串,并将属于同一个特征组的字符串相加,得到该特征组的标签码;其中,所述预设长度大于所述特征码的长度。
16、在一种可能的实施方式中,所述对每个所述子标签进行特征编码,得到特征码的步骤,包括:
17、采用md5算法,对每个所述子标签进行编码,得到特征码。
18、在一种可能的实施方式中,所述对所述检索语句进行编码操作,得到检索码集合的步骤,包括:
19、对所述检索语句进行分词,得到多个单词;
20、基于所述多个单词,进行组合,得到多个分词组合;其中,一个所述分词组合包括至少一个单词;
21、对每个所述单词进行特征编码,得到特征码;
22、将同一个所述分词组合的所有单词的特征码相加,得到所述分词组合的检索码;
23、将所述检索语句对应的所有检索码进行组合,得到检索码集合。
24、在一种可能的实施方式中,所述将同一个所述分词组合的所有单词的特征码相加,得到所述分词组合的检索码的步骤,包括:
25、将每个所述单词的特征码转换为十六进制和预设长度的字符串,并将属于同一个分词组合的字符串相加,得到该分词组合的检索码;其中,所述预设长度大于所述特征码的长度。
26、在一种可能的实施方式中,所述对每个所述单词进行特征编码,得到特征码的步骤,包括:
27、采用md5算法,对每个所述单词进行编码,得到特征码。
28、在一种可能的实施方式中,所述从所述数据库中查询出标签字段与所述检索码集合匹配的所有词条信息,得到检索结果的步骤,包括:
29、将所述检索码集合与所述数据库中的每个词条信息的标签字段进行匹配;
30、当所述检索码集合中的至少一个检索码与标签字段的一个标签码匹配时,将所述标签字段的内容字段作为命中词条。
31、在一种可能的实施方式中,所述将所述词条的每个所述标签组进行切分,得到多个子标签的步骤,包括:
32、采用split函数对所述标签组进行切分,得到所述标签组的多个子标签。
33、第二方面,本申请实施例提供一种信息检索装置,包括第一编码模块、存储模块、第二编码模块和检索模块;
34、所述第一编码模块,用于对词条的标签信息进行编码操作,得到所述标签信息对应的标签码集合;
35、所述存储模块,用于以所述词条作为内容字段,以所述标签码集合作为所述内容字段的标签字段,得到词条信息,并将所述词条信息存储至数据库;
36、所述第二编码模块,用于当接收到检索语句时,对所述检索语句进行编码操作,得到检索码集合;
37、所述检索模块,用于从所述数据库中查询出标签字段与所述检索码集合匹配的所有词条信息,得到检索结果。
38、第三方面,本申请实施例提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现如第一方面中任一种可能的实施方式所述的信息检索方法。
39、第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面中任一种可能的实施方式所述的信息检索方法。
40、本申请实施例提供的信息检索方法及装置,在方法中,对于每个词条,对词条的标签信息进行编码操作,得到标签码集合,从而以词条作为内容字段,标签码集合作为内容字段的标签字段,得到并存储词条信息。当接收到检索语句时,对检索语句进行编码操作得到对应的检索码集合,以检索码集合与数据库中每个词条信息的标签字段匹配,得到匹配的所有词条信息,即检索结果。如此,通过以检索语句的检索码集合与词条的标签码集合进行匹配的方式,进行精准匹配,能够更为精确地响应用户的检索诉求,能够极大地提升检索召回结果的准确性。
41、为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
本文档来自技高网...【技术保护点】
1.一种信息检索方法,其特征在于,所述方法包括:
2.根据权利要求1所述的信息检索方法,其特征在于,所述标签信息包括多个标签组,每个所述标签组表征一个检索语义;
3.根据权利要求2所述的信息检索方法,其特征在于,所述将同一个所述标签组的所有子标签的特征码相加,得到所述标签组的标签码的步骤,包括:
4.根据权利要求2所述的信息检索方法,其特征在于,所述对每个所述子标签进行特征编码,得到特征码的步骤,包括:
5.根据权利要求1至4中任一项所述的信息检索方法,其特征在于,所述对所述检索语句进行编码操作,得到检索码集合的步骤,包括:
6.根据权利要求5所述的信息检索方法,其特征在于,所述将同一个所述分词组合的所有单词的特征码相加,得到所述分词组合的检索码的步骤,包括:
7.根据权利要求5所述的信息检索方法,其特征在于,所述对每个所述单词进行特征编码,得到特征码的步骤,包括:
8.根据权利要求5所述的信息检索方法,其特征在于,所述从所述数据库中查询出标签字段与所述检索码集合匹配的所有词条信息,得到检索结果的
9.根据权利要求2所述的信息检索方法,其特征在于,所述将所述词条的每个所述标签组进行切分,得到多个子标签的步骤,包括:
10.一种信息检索装置,其特征在于,包括第一编码模块、存储模块、第二编码模块和检索模块;
...【技术特征摘要】
1.一种信息检索方法,其特征在于,所述方法包括:
2.根据权利要求1所述的信息检索方法,其特征在于,所述标签信息包括多个标签组,每个所述标签组表征一个检索语义;
3.根据权利要求2所述的信息检索方法,其特征在于,所述将同一个所述标签组的所有子标签的特征码相加,得到所述标签组的标签码的步骤,包括:
4.根据权利要求2所述的信息检索方法,其特征在于,所述对每个所述子标签进行特征编码,得到特征码的步骤,包括:
5.根据权利要求1至4中任一项所述的信息检索方法,其特征在于,所述对所述检索语句进行编码操作,得到检索码集合的步骤,包括:
6.根据权利要求5所述的信息...
【专利技术属性】
技术研发人员:贺卓凡,
申请(专利权)人:喜大上海网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。