System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于ES搜索引擎的索引生成方法、电子设备和存储介质技术_技高网

基于ES搜索引擎的索引生成方法、电子设备和存储介质技术

技术编号:41954107 阅读:7 留言:0更新日期:2024-07-10 16:40
本申请提供基于ES搜索引擎的索引生成方法、电子设备和存储介质。获取目标领域的文本集合,所述文本集合包括多个文本;针对所述文本集合中的各个文本,分别生成对应的文本表示向量;确定所述文本集合的各个文本中,各个关键词的IF‑IDF;根据所述文本集合中的各个文本分别对应的文本表示向量,以及各个关键词的词频和逆文档频率,生成ES搜索引擎的索引数据;利用所述索引数据生成目标索引。由于用于生成索引的索引数据,是根据目标领域的文本集合来生成,因此使得ES搜索引擎基于该索引在该目标领域进行搜索时,搜索结果更加准确。

【技术实现步骤摘要】

本申请涉及互联网,具体而言,涉及基于es搜索引擎的索引生成方法、电子设备和存储介质。


技术介绍

1、es搜索引擎(elasticsearch)是一种基于lucene的搜索引擎,该搜索引擎能够提供分布式、可扩展、实时的搜索与数据分析服务,因此广泛应用于目前大数据检索分析的场景。

2、在实际应用中,es搜索引擎通常能够基于索引来提供搜索服务,而目前的索引更加适用于宽谱搜索,具体来说,基于目前的索引,使得es搜索引擎更加适用于众多不同
的搜索。然而,es搜索引擎基于目前索引的这种宽谱搜索方式,当需要针对某个特定
进行搜索时,往往会出现搜索结果准确度不足的情况。


技术实现思路

1、本申请实施例的目的在于提供基于es搜索引擎的索引生成方法、电子设备和存储介质,用于解决现有技术中的问题。

2、本申请实施例第一方面提供了一种基于es搜索引擎的索引生成方法,所述方法包括:

3、获取目标领域的文本集合,所述文本集合包括多个文本;

4、针对所述文本集合中的各个文本,分别生成对应的文本表示向量;

5、确定所述文本集合的各个文本中,各个关键词的if-idf;

6、根据所述文本集合中的各个文本分别对应的文本表示向量,以及各个关键词的词频和逆文档频率,生成es搜索引擎的索引数据;

7、利用所述索引数据生成目标索引。

8、优选的,在获取目标领域的文本集合之前,所述方法还包括:

9、判断索引库中是否存有所述目标索引;以及,

10、获取目标领域的文本集合,具体包括:

11、在所述索引库中未存有所述目标索引的情况下,获取目标领域的文本集合。

12、优选的,获取目标领域的文本集合,具体包括:

13、获取目标领域的原始文本;

14、对所述原始文本进行数据清洗,以生成所述文本集合。

15、优选的,针对所述文本集合中的各个文本,分别生成对应的文本表示向量,具体包括:

16、将所述文本集合输入至人工智能模型,以通过所述人工智能模型对所述文本集合中各个文本进行处理,分别生成对应的文本表示向量。

17、优选的,针对所述文本集合中的各个文本,分别生成对应的文本表示向量,具体包括:

18、分别针对所述文本集合中的各个文本,获取所述文本中各个关键词的词向量,并通过各个关键词的词向量生成对应的文本向量。

19、优选的,根据所述文本集合中的各个文本分别对应的文本表示向量,以及各个关键词的词频和逆文档频率,生成es搜索引擎的索引数据,具体包括:

20、将各个文本分别对应的文本表示向量,以及各个关键词的if-idf输入至所述es搜索引擎,以利用所述es搜索引擎的倒排索引功能来生成所述索引数据。

21、优选的,根据所述目标领域的搜索热度来确定所述文本集合中文本的数量。

22、优选的,所述方法还包括:通过如下所示的公式来计算所述目标领域的搜索热度:

23、

24、其中,f为所述目标领域的搜索热度;fi为之前的第i个统计周期,所述目标领域的历史搜索热度;n为统计周期的总数量;ti为第i个统计周期与当前时间之间的时间间隔,a为衰退因子,a的取值为0至1之间。

25、本申请实施例第二方面提供了一种电子设备,包括:

26、存储器,用以存储计算机程序;

27、处理器,用以执行本申请方法实施例中任一项所述的方法。

28、本申请实施例第三方面提供了一种存储介质,包括:程序,当其在电子设备上运行时,使得电子设备可执行本申请方法实施例中任一项所述的方法。

29、采用本申请实施例所提供的方法,包括获取目标领域的文本集合,该文本集合包括多个文本,然后针对该文本集合中的各个文本,分别生成对应的文本表示向量,然后确定目标领域的文本集合的各个文本中,关键词的if-idf,然后根据文本集合中的各个文本分别对应的文本表示向量,以及各个关键词的if-idf,生成es搜索引擎的索引数据,然后利用该索引数据生成目标索引。因此,由于用于生成索引的索引数据,是根据目标领域的文本集合来生成,因此使得es搜索引擎基于该索引在该目标领域进行搜索时,搜索结果更加准确。

本文档来自技高网...

【技术保护点】

1.一种基于ES搜索引擎的索引生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在获取目标领域的文本集合之前,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,获取目标领域的文本集合,具体包括:

4.根据权利要求1所述的方法,其特征在于,针对所述文本集合中的各个文本,分别生成对应的文本表示向量,具体包括:

5.根据权利要求1所述的方法,其特征在于,针对所述文本集合中的各个文本,分别生成对应的文本表示向量,具体包括:

6.根据权利要求1所述的方法,其特征在于,根据所述文本集合中的各个文本分别对应的文本表示向量,以及各个关键词的词频和逆文档频率,生成ES搜索引擎的索引数据,具体包括:

7.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据所述目标领域的搜索热度来确定所述文本集合中文本的数量。

8.根据权利要求7所述的方法,其特征在于,所述方法还包括:通过如下所示的公式来计算所述目标领域的搜索热度:

9.一种电子设备,其特征在于,包括:

10.一种存储介质,其特征在于,包括:程序,当其在电子设备上运行时,使得电子设备可执行如权利要求1至8中任一项所述的方法。

...

【技术特征摘要】

1.一种基于es搜索引擎的索引生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在获取目标领域的文本集合之前,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,获取目标领域的文本集合,具体包括:

4.根据权利要求1所述的方法,其特征在于,针对所述文本集合中的各个文本,分别生成对应的文本表示向量,具体包括:

5.根据权利要求1所述的方法,其特征在于,针对所述文本集合中的各个文本,分别生成对应的文本表示向量,具体包括:

6.根据权利要求1所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:管宏伟夏凌莉白美林
申请(专利权)人:深圳新致软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1