System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种文档检索方法、装置、电子设备及可读存储介质制造方法及图纸_技高网

一种文档检索方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:44060039 阅读:4 留言:0更新日期:2025-01-17 16:01
本申请公开了一种文档检索方法、装置、电子设备及可读存储介质,属于检索技术领域,包括:获取第一文档的第一摘要;根据第一摘要与多个第二文档分别对应的第二摘要之间的语义相似度,从多个第二文档中筛选第三文档;提取第一文档的内容特征以及内容特征之间的关联关系,基于内容特征以及关联关系,生成第一文档对应的第一图谱;根据第一图谱与第三文档分别对应的第二图谱,确定第一文档与第三文档之间的文档相关度;其中,文档相关度用于从第三文档中确定第一文档的相关文档。能够根据文档内容生成对应的图谱,通过图谱比对进行文档检索,由于文档的图谱能够准确反映文档的内容结构,有助于提升文档检索的准确性和效率。

【技术实现步骤摘要】

本申请属于检索,具体涉及一种文档检索方法、装置、电子设备及可读存储介质


技术介绍

1、很多用户和很多领域都有检索相关文档的需求,例如法律工作者需要检索类案、技术人员需要检索学术论文,申请专利之前需要检索与待申请技术方案相似的专利案件等等。

2、相关技术中,通常会建立文档数据库,用户通过分析和总结待检索文档,撰写检索关键词,通过检索关键词对文档数据库进行检索,文档数据库根据检索关键词在文档数据库中的文档中匹配具有相同关键词的文档,并将匹配到的文档反馈给用户。

3、但是采用上述检索相关或相似文档的方法存在效率较低和准确性较差的问题。


技术实现思路

1、本申请实施例的目的是提供一种文档检索方法、装置、电子设备及可读存储介质,能够解决相关技术中检索相关文档的方法存在效率较低和准确性较差的问题。

2、第一方面,本申请实施例提供了一种文档检索方法,所述方法包括:

3、获取第一文档的第一摘要;

4、根据所述第一摘要与多个第二文档分别对应的第二摘要之间的语义相似度,从所述多个第二文档中筛选第三文档;

5、提取所述第一文档的内容特征以及所述内容特征之间的关联关系,基于所述内容特征以及所述关联关系,生成所述第一文档对应的第一图谱;

6、根据所述第一图谱与所述第三文档分别对应的第二图谱,确定所述第一文档与所述第三文档之间的文档相关度;其中,所述文档相关度用于从所述第三文档中确定所述第一文档的相关文档。

7、可选地,所述获取第一文档的第一摘要,包括:

8、根据所述第一文档的文档类型对应的第一片段提取规则,从所述第一文档中提取第一片段;

9、将所述第一片段和第一提示词输入大语言模型,得到所述大语言模型输出的所述第一摘要。

10、可选地,所述根据所述第一摘要与多个第二文档分别对应的第二摘要之间的语义相似度,从所述多个第二文档中筛选第三文档,包括:

11、根据所述第一摘要对应的第一词频逆文档频率,以及所述第二摘要对应的第二词频逆文档频率,确定所述第一摘要与所述第二摘要之间的语义相似度;

12、基于所述语义相似度从所述第二文档中筛选中间文档;;

13、将所述第一摘要、所述中间文档对应的第三摘要和第二提示词输入大语言模型,得到所述大语言模型输出的所述第一文档与所述中间文档之间的内容相似度;

14、基于所述内容相似度从所述中间文档中筛选所述第三文档。

15、可选地,所述提取所述第一文档的内容特征以及所述内容特征之间的关联关系,包括:

16、根据所述第一文档的文档类型对应的第二片段提取规则,从所述第一文档中提取第二片段;

17、将所述第二片段和第三提示词输入大语言模型,得到所述大语言模型输出的所述内容特征以及所述内容特征之间的关联关系。

18、可选地,所述第一图谱包括第一内容结构图谱和第一内容逻辑图谱,所述第二图谱包括第二内容结构图谱和第二内容逻辑图谱,所述根据所述第一图谱与所述第三文档分别对应的第二图谱,确定所述第一文档与所述第三文档之间的文档相关度,包括:

19、基于所述第一内容结构图谱与所述第二内容结构图谱,,确定第一图谱相似度;

20、基于所述第一内容逻辑图谱与所述第二内容逻辑图谱,,确定第二图谱相似度;

21、根据所述第一图谱相似度和所述第二图谱相似度,确定所述文档相关度。

22、可选地,所述根据所述第一图谱相似度和所述第二图谱相似度,确定所述文档相关度,包括:

23、根据所述第一图谱相似度与第一阈值的差值,确定所述第一图谱相似度对应的第一权重;

24、根据所述第二图谱相似度与第二阈值的差值,确定所述第二图谱相似度对应的第二权重;

25、基于所述第一权重和所述第二权重,对所述第一图谱相似度和所述第二图谱相似度进行加权平均,得到所述文档相关度。

26、可选地,所述方法还包括:

27、在所述第三文档对应的最大文档相关度,与用户从所述第三文档中选取的关联文档对应的文档相关度之间的第一差值不等于0情况下,更新所述第一阈值和所述第二阈值,以使得基于更新后的第一阈值和更新后的第二阈值重新计算的所述第三文档对应的最大文档相关度,与重新计算的所述关联文档对应的文档相关度之间的第二差值小于所述第一差值。

28、可选地,所述内容特征包括文档结构特征和文档内容特征,所述基于所述内容特征以及所述关联关系,生成所述第一文档对应的第一图谱,包括:

29、基于所述文档结构特征与所述文档内容特征之间的关联关系,生成所述第一内容结构图谱;

30、基于所述文档内容特征之间的关联关系,生成所述第一内容逻辑图谱。

31、可选地,所述获取第一文档的第一摘要之前,所述方法还包括:

32、从原始文档中获取与预设类型关键词集合匹配的目标类型关键词;

33、基于所述目标类型关键词确定所述原始文档的文档类型;

34、基于所述原始文档的文档类型对应的第三片段提取规则,从所述原始文档中提取第三片段;

35、将所述第三片段填充至所述文档类型对应的文档标准化模板,得到所述第一文档。

36、第二方面,本申请实施例提供了一种文档检索装置,所述装置包括:

37、摘要模块,用于获取第一文档的第一摘要;

38、文档筛选模块,用于根据所述第一摘要与多个第二文档分别对应的第二摘要之间的语义相似度,从所述多个第二文档中筛选第三文档;

39、图谱模块,用于提取所述第一文档的内容特征以及所述内容特征之间的关联关系,基于所述内容特征以及所述关联关系,生成所述第一文档对应的第一图谱;

40、文档相关度模块,用于根据所述第一图谱与所述第三文档分别对应的第二图谱,确定所述第一文档与所述第三文档之间的文档相关度;其中,所述文档相关度用于从所述第三文档中确定所述第一文档的相关文档。

41、可选地,所述摘要模块,包括:

42、第一片段子模块,用于根据所述第一文档的文档类型对应的第一片段提取规则,从所述第一文档中提取第一片段;

43、第一摘要确定子模块,用于将所述第一片段和第一提示词输入大语言模型,得到所述大语言模型输出的所述第一摘要。

44、可选地,所述文档筛选模块,包括:

45、语义相似度子模块,用于根据所述第一摘要对应的第一词频逆文档频率,以及所述第二摘要对应的第二词频逆文档频率,确定所述第一摘要与所述第二摘要之间的语义相似度;

46、中间文档子模块,用于基于所述语义相似度从所述第二文档中筛选中间文档;

47、内容相似度子模块,用于将所述第一摘要、所述中间文档对应的第三摘要和第二提示词输入大语言模型,得到所述大语言模型输出的所述第一文档与所述中间文档之间的内本文档来自技高网...

【技术保护点】

1.一种文档检索方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取第一文档的第一摘要,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据所述第一摘要与多个第二文档分别对应的第二摘要之间的语义相似度,从所述多个第二文档中筛选第三文档,包括:

4.根据权利要求1所述的方法,其特征在于,所述提取所述第一文档的内容特征以及所述内容特征之间的关联关系,包括:

5.根据权利要求1所述的方法,其特征在于,所述第一图谱包括第一内容结构图谱和第一内容逻辑图谱,所述第二图谱包括第二内容结构图谱和第二内容逻辑图谱,所述根据所述第一图谱与所述第三文档分别对应的第二图谱,确定所述第一文档与所述第三文档之间的文档相关度,包括:

6.根据权利要求5所述的方法,其特征在于,所述根据所述第一图谱相似度和所述第二图谱相似度,确定所述文档相关度,包括:

7.根据权利要求6所述的方法,其特征在于,所述方法还包括:

8.根据权利要求5所述的方法,其特征在于,所述内容特征包括文档结构特征和文档内容特征,所述基于所述内容特征以及所述关联关系,生成所述第一文档对应的第一图谱,包括:

9.根据权利要求1所述的方法,其特征在于,所述获取第一文档的第一摘要之前,所述方法还包括:

10.一种文档检索装置,其特征在于,所述装置包括::

11.一种电子设备,其特征在于,包括权利要求10所述的文档检索装置,用以实现权利要求1至9中任意一项所述的文档检索方法。

12.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现权利要求1至9中任意一项所述的文档检索方法。

...

【技术特征摘要】

1.一种文档检索方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取第一文档的第一摘要,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据所述第一摘要与多个第二文档分别对应的第二摘要之间的语义相似度,从所述多个第二文档中筛选第三文档,包括:

4.根据权利要求1所述的方法,其特征在于,所述提取所述第一文档的内容特征以及所述内容特征之间的关联关系,包括:

5.根据权利要求1所述的方法,其特征在于,所述第一图谱包括第一内容结构图谱和第一内容逻辑图谱,所述第二图谱包括第二内容结构图谱和第二内容逻辑图谱,所述根据所述第一图谱与所述第三文档分别对应的第二图谱,确定所述第一文档与所述第三文档之间的文档相关度,包括:

6.根据权利要求5所述的方法,其特征在于,所述根据所述第一图...

【专利技术属性】
技术研发人员:周奕陈彦宇
申请(专利权)人:珠海格力电器股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1