System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文件快速检索方法、产品、计算机设备和存储介质技术_技高网

文件快速检索方法、产品、计算机设备和存储介质技术

技术编号:44198026 阅读:0 留言:0更新日期:2025-02-06 18:35
本申请涉及一种文件快速检索方法、产品、计算机设备和存储介质。所述方法包括:将原始文档中的文本内容进行向量化表示生成文档向量;根据所述文档向量之间的相似度对所述原始文档进行聚类分组形成多个文档簇;根据所述文档簇中原始文档的更新频率和/或查询频率设置各文档簇中原始文档的动态优先级;对所述文档向量建立索引结构,并根据所述原始文档的动态优先级调整所述索引结构中的文档向量排序;响应于用户发起查询时,将用户的查询转换为查询向量,通过计算所述查询向量和文档向量排序后的索引结构中文档向量的相似度来获取与所述用户的查询相关的原始文档。可有效提升检索效率,快速查找动态优先级高的文档,减少系统响应延迟或资源消耗。

【技术实现步骤摘要】

本申请涉及服务器,特别是涉及一种文件快速检索方法、产品、计算机设备和存储介质


技术介绍

1、现有的文件检索技术,主要依赖于倒排索引和关键词匹配等传统算法,结合自然语言处理(nlp)技术,通过向量化表示实现文档和查询的匹配。同时,基于用户行为的反馈机制和机器学习技术,现有系统能够通过点击率、访问频率等指标进行文档排序优化。然而,随着数据规模不断增大,现有技术往往需要依赖分布式架构进行海量数据的处理,并且在高并发情况下,资源调度和负载均衡成为关键挑战。


技术实现思路

1、基于此,提供一种文件快速检索方法、装置、计算机设备和存储介质,旨在解决传统的文件检索系统在处理大量文档时,索引构建和检索效率逐渐下降,尤其在高并发或负载较高的情况下,容易出现系统响应延迟或资源耗尽的技术问题。

2、一方面,提供一种文件快速检索方法,所述方法包括:

3、将原始文档中的文本内容进行向量化表示生成文档向量;

4、根据所述文档向量之间的相似度对所述原始文档进行聚类分组形成多个文档簇;

5、根据所述文档簇中原始文档的更新频率和/或查询频率设置各文档簇中原始文档的动态优先级;

6、对所述文档向量建立索引结构,并根据所述原始文档的动态优先级调整所述索引结构中的文档向量排序;

7、响应于用户发起查询时,将用户的查询转换为查询向量,通过计算所述查询向量和文档向量排序后的索引结构中文档向量的相似度来获取与所述用户的查询相关的原始文档。

8、在其中一个实施例中,所述将原始文档中的文本内容进行向量化表示生成文档向量包括:

9、根据目标词在目标文档中的词频、原始文档中的文档总数以及包含目标词的文档数量,获得原始文档中的每个目标词的加权值,所述目标词是原始文档中的一个词,所述目标文档是原始文档中的一个文档;

10、获取所述原始文档中各目标文档中的每个目标词加权值并转化为向量表示,形成目标文档的文档向量。

11、在其中一个实施例中,所述根据所述文档簇中原始文档的更新频率和/或查询频率设置各文档簇中原始文档的动态优先级包括:

12、获取所述原始文档的更新频率和查询频率,通过对所述更新频率和所述查询频率加权求和方式对所述原始文档分配动态优先级。

13、在其中一个实施例中,所述响应于用户发起查询时,将用户的查询转换为查询向量,通过计算所述查询向量和文档向量排序后的索引结构中文档向量的相似度来获取与所述用户的查询相关的原始文档包括:

14、获取用户发起查询,将用户的查询转换为查询向量;

15、获取所述索引结构中文档向量,通过余弦相似度方式计算所述查询向量和文档向量排序后的索引结构中文档向量的相似度来衡量所述用户的查询和原始文档的相关性。

16、在其中一个实施例中,所述文件快速检索方法还包括:

17、获取用户点击反馈后的理想排序,通过最小化文档排名的误差方式实时调整所述索引结构中的文档向量排序。

18、在其中一个实施例中,所述文件快速检索方法还包括:

19、获取执行所述索引结构的总计算资源以及执行每个检索任务需要消耗的计算资源,设置执行检索任务消耗的计算资源之和小于等于执行所述索引结构的总计算资源;

20、获取剩余计算资源;

21、响应于所述剩余计算资源小于等于第一阈值时,根据所述原始文档的动态优先级设置对应检索任务的优先级权重,根据所述检索任务的优先级权重递减顺序分配计算资源;

22、响应于所述剩余计算资源大于第一阈值时,删除优先级权重小于第二阈值的检索任务获取裁剪低优先级任务后剩余的计算资源,以使优先级权重大于等于第二阈值的检索任务分配到裁剪低优先级任务后剩余的计算资源。

23、在其中一个实施例中,所述删除优先级权重小于第二阈值的检索任务获取裁剪低优先级任务后剩余的计算资源包括:

24、获取优先级权重小于第二阈值的检索任务对应的计算资源;

25、通过执行所述索引结构的总计算资源减去所述优先级权重小于第二阈值的检索任务对应的计算资源方式裁剪低优先级任务,获取裁剪低优先级任务后剩余的计算资源。

26、在其中一个实施例中,所述文件快速检索方法还包括:

27、获取检索文档的平均查询时长;

28、获取用户点击文档的概率,其中,表示目标文档的相关性得分,是调节更新频率的权重系数;

29、获取执行所述索引结构的总计算资源r和资源利用率;

30、通过最大化系统性能指标m方式优化所述索引结构,所述最大化系统性能指标m方式为,其中是查询频率权重参数,是调用率权重参数。

31、在其中一个实施例中,所述文件快速检索方法还包括:

32、设置所述索引结构中索引的更新频率与索引对应的原始文档的动态优先级呈正相关;

33、通过文档权重除以当前节点的负载方式获取索引更新的优先级阈值;

34、对动态优先级大于索引更新的优先级阈值的原始文档进行索引更新;

35、所述索引结构中索引的更新约束条件为,其中,为索引更新时间,为总更新时间,n为检索任务的数量,为索引更新的优先级阈值。

36、在其中一个实施例中,所述文件快速检索方法还包括:

37、通过文档被点击的次数除以文档被展示的次数获取文档的点击率;

38、获取索引更新的优先级阈值,当和/或当时,调整所述索引结构中文档的排序;其中是文档总数。

39、在其中一个实施例中,所述文件快速检索方法还包括:

40、设置在分布式文件检索系统中采用多个节点共同执行所述索引结构处理文档检索任务;

41、通过最小化负载方差方式来调节目标节点的负载。

42、在其中一个实施例中,所述文件快速检索方法还包括:

43、监测所述分布式文件检索系统中节点的负载;

44、响应于目标节点的负载大于最大负载阈值时,进行检索任务重新分配,重新分配任务后的目标节点负载。

45、另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:

46、将原始文档中的文本内容进行向量化表示生成文档向量;

47、根据所述文档向量之间的相似度对所述原始文档进行聚类分组形成多个文档簇;

48、根据所述文档簇中原始文档的更新频率和/或查询频率设置各文档簇中原始文档的动态优先级;

49、对所述文档向量建立索引结构,并根据所述原始文档的动态优先级调整所述索引结构中的文档向量排序;

50、响应于用户发起查询时,将用户的查询转换为查询向量,通过计算所述查询向量和文档向量排序后的索引结构中文档向量的相似度来获取与所述用户的查询相关的原始文档。

51、再一方面,提供了一种计算机设备,包括存储器、处理器及存本文档来自技高网...

【技术保护点】

1.一种文件快速检索方法,其特征在于,包括:

2.根据权利要求1所述的文件快速检索方法,其特征在于,所述将原始文档中的文本内容进行向量化表示生成文档向量包括:

3.根据权利要求1所述的文件快速检索方法,其特征在于,所述根据所述文档簇中原始文档的更新频率和/或查询频率设置各文档簇中原始文档的动态优先级包括:

4.根据权利要求1所述的文件快速检索方法,其特征在于,所述响应于用户发起查询时,将用户的查询转换为查询向量,通过计算所述查询向量和文档向量排序后的索引结构中文档向量的相似度来获取与所述用户的查询相关的原始文档包括:

5.根据权利要求1所述的文件快速检索方法,其特征在于,所述文件快速检索方法还包括:

6.根据权利要求1所述的文件快速检索方法,其特征在于,所述文件快速检索方法还包括:

7.根据权利要求6所述的文件快速检索方法,其特征在于,所述删除优先级权重小于第二阈值的检索任务获取裁剪低优先级任务后剩余的计算资源包括:

8.根据权利要求1所述的文件快速检索方法,其特征在于,所述文件快速检索方法还包括

9.根据权利要求1所述的文件快速检索方法,其特征在于,所述文件快速检索方法还包括:

10.根据权利要求1所述的文件快速检索方法,其特征在于,所述文件快速检索方法还包括:

11.根据权利要求1所述的文件快速检索方法,其特征在于,所述文件快速检索方法还包括:

12.根据权利要求11所述的文件快速检索方法,其特征在于,所述文件快速检索方法还包括:

13.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至12中任一所述的方法的步骤。

14.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述方法的步骤。

15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种文件快速检索方法,其特征在于,包括:

2.根据权利要求1所述的文件快速检索方法,其特征在于,所述将原始文档中的文本内容进行向量化表示生成文档向量包括:

3.根据权利要求1所述的文件快速检索方法,其特征在于,所述根据所述文档簇中原始文档的更新频率和/或查询频率设置各文档簇中原始文档的动态优先级包括:

4.根据权利要求1所述的文件快速检索方法,其特征在于,所述响应于用户发起查询时,将用户的查询转换为查询向量,通过计算所述查询向量和文档向量排序后的索引结构中文档向量的相似度来获取与所述用户的查询相关的原始文档包括:

5.根据权利要求1所述的文件快速检索方法,其特征在于,所述文件快速检索方法还包括:

6.根据权利要求1所述的文件快速检索方法,其特征在于,所述文件快速检索方法还包括:

7.根据权利要求6所述的文件快速检索方法,其特征在于,所述删除优先级权重小于第二阈值的检索任务获取裁剪低优先级任务后剩余的计算资源包括:

8.根据权利要求1所...

【专利技术属性】
技术研发人员:韩志
申请(专利权)人:苏州元脑智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1