System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于大语言模型的图召回方法、计算机可读介质及设备技术_技高网

基于大语言模型的图召回方法、计算机可读介质及设备技术

技术编号:44171668 阅读:9 留言:0更新日期:2025-02-06 18:18
本发明专利技术实施例公开了基于大语言模型的图召回方法、计算机可读介质及设备;方法包括步骤:S1.使用基于大语言模型的随机游走算法构建随机游走语义序列;S2.将构建的随机游走语义序列生成序列向量嵌入,存入向量数据库;S3.将用户输入的自然语言转换为检索向量嵌入;S4.输入检索向量嵌入在向量数据库中检索预先存入的语义序列;S5.从图数据中提取检索到的语义序列的节点和边,检索到的节点和边构成子图作为查询结果。直接用自然语言从图中查询对应的信息,基于大语言模型的游走算法所生成的语义序列相比随机游走算法更具有可解释性,可以生成不同的主题的游走序列,基于向量相似度的查询效率更高,用户无需写图查询语句也能够查询到多条数据构成子图。

【技术实现步骤摘要】

本专利技术属于数据处理,具体涉及基于大语言模型的图召回方法、计算机可读介质及设备


技术介绍

1、图是一种存储有节点和边的数据结构,图召回是指从图中检索特定信息的过程。现有的图召回算法包括通过编写图查询语言的召回算法、随机游走算法、基于图嵌入的召回算法、基于内容的召回算法;其中,通过编写图查询语言的召回算法通过编写特定的查询语句,例如cypher、gremlin、ngql、gsql、pgql等,在特定模式下利用特定的图引擎执行图查询语言检索图结构中的信息。随机游走算法是在图中生成随机路径,这些路径可以用于生成节点的嵌入表示,进而用于召回,例如传统的随机游走算法基于随机采样、对已走过的节点和未知节点计算转移概率,最终在图中生成节点的序列;node2vec算法就是通过随机游走来学习图中节点的嵌入表示。基于图嵌入的召回算法通过把图节点的文本信息转为向量嵌入,学习图中节点的嵌入表示来进行召回,这些嵌入表示可以捕捉节点的局部和全局邻域信息,查询时基于向量相似度召回图中节点;例如,deepwalk和node2vec是两种流行的基于随机游走的图嵌入算法。基于内容的召回算法通过分析节点的内容特征或属性来计算与查询语句中描述信息的相似性,然后基于这些相似性分析找到节点。上述图召回算法可以单独使用,也可以进行组合使用。

2、但是,现有的图召回算法存在下述问题:

3、编写图查询语言的方法需要提前了解图数据结构,如已知节点的类型、属性信息,边的类型、属性信息等等,并且构建相应图查询语言;

4、随机游走算法忽视了节点属性和边,单纯记录了节点之间的连接关系,所生成的序列整体上来看很大可能没有实际语义含义;

5、基于图嵌入的召回算法,当图中的数据更新后,例如加入了新的节点或边后,需要重新训练模型,才能得到新的图嵌入;

6、基于内容的召回算方法只能召回到文本相似度高的节点,忽视了边的关系。


技术实现思路

1、有鉴于此,一方面,一些实施例公开了基于大语言模型的图召回方法,包括步骤:

2、s1.使用基于大语言模型的随机游走算法构建随机游走语义序列;

3、s2.将构建的随机游走语义序列生成序列向量嵌入,存入向量数据库;

4、s3.将用户输入的自然语言转换为检索向量嵌入;

5、s4.输入检索向量嵌入在向量数据库中检索预先存入的语义序列;

6、s5.从图数据中提取检索到的语义序列的节点和边,检索到的节点和边构成子图作为查询结果。

7、进一步,一些实施例公开了基于大语言模型的图召回方法,其特征在于,步骤s1包括:

8、基于图模型的若干主题和图数据结构信息,使用大语言模型的prompt方式在图中游走,生成提示性描述语句;

9、提示性描述语句输入大语言模型,生成候选游走路径;

10、利用生成的候选游走路径,从图数据中进行数据采样,得到随机游走语义序列。

11、一些实施例公开的基于大语言模型的图召回方法,步骤s2包括:

12、训练图向量嵌入模型;

13、将随机游走语义序列的图节点数据按序列顺序传入图向量嵌入模型,转换为向量嵌入后存入向量数据库,以该向量嵌入作为图数据的嵌入向量。

14、进一步,一些实施例公开的基于大语言模型的图召回方法,步骤s3中,利用与步骤s2中相同的图向量嵌入模型,将用户输入的自然语言转换为检索向量嵌入。

15、一些实施例公开的基于大语言模型的图召回方法,步骤s2包括:

16、训练文本向量嵌入模型;

17、将随机游走语义序列的图节点数据按序列顺序组织为合适的提示性描述语句,将提示性描述语句传入大语言模型生成针对随机游走语义序列的总结性描述文本;

18、将总结性描述文本传入文本向量嵌入模型转换为向量嵌入,并存入向量数据库,以该向量嵌入作为图数据的嵌入向量。

19、进一步,一些实施例公开了基于大语言模型的图召回方法,步骤s3中,利用与步骤s2中相同的文本向量嵌入模型,将用户输入的自然语言转换为检索向量嵌入。

20、一些实施例公开的基于大语言模型的图召回方法,步骤s4中,利用相似度计算方法进行检索。

21、一些实施例公开的基于大语言模型的图召回方法,生成的候选游走路径经过人工审核后作为游走路径使用。

22、另一方面,一些实施例公开了计算机可读介质,计算机可读介质存储有计算机程序,计算机程序被执行时,实现基于大语言模型的图召回方法。

23、再一方面,一些实施例公开了设备,包括存储器和信息处理器,存储器储存有计算机程序,信息处理器读取计算机程序时,执行基于大语言模型的图召回方法。

24、本专利技术实施例公开的基于大语言模型的图召回方法,结合大语言模型的随机游走算法,能够更好地理解图中节点的语义信息,在图召回中实现更准确的节点相似度计算和链接预测;实现了多条信息检索,通过实体链接、同义词扩展等方法扩展搜索范围,提高了召回的多样性和深度;能够根据用户的具体要求生成相关的节点路径,实现个性化的图搜索;增强算法的全局或局部寻优能力,提高了算法的收敛速度和解的质量;生成文本时通常具有较好的可解释性,提高了图召回过程中的决策透明度。

25、本专利技术实施例公开的基于大语言模型的图召回方法能够直接用自然语言从图中查询对应的信息,基于大语言模型的游走算法所生成的语义序列相比随机游走算法更具有可解释性,基于大模型的游走算法可以生成不同的主题的游走序列,基于向量相似度的查询效率更高,用户无需写图查询语句也能够查询到多条数据构成子图。

本文档来自技高网...

【技术保护点】

1.基于大语言模型的图召回方法,其特征在于,包括步骤:

2.根据权利要求1所述的基于大语言模型的图召回方法,其特征在于,步骤S1包括:

3.根据权利要求1所述的基于大语言模型的图召回方法,其特征在于,步骤S2包括:

4.根据权利要求3所述的基于大语言模型的图召回方法,其特征在于,步骤S3中,利用与步骤S2中相同的图向量嵌入模型,将用户输入的自然语言转换为检索向量嵌入。

5.根据权利要求1所述的基于大语言模型的图召回方法,其特征在于,步骤S2包括:

6.根据权利要求5所述的基于大语言模型的图召回方法,其特征在于,步骤S3中,利用与步骤S2中相同的文本向量嵌入模型,将用户输入的自然语言转换为检索向量嵌入。

7.根据权利要求1所述的基于大语言模型的图召回方法,其特征在于,步骤S4中,利用相似度计算方法进行检索。

8.根据权利要求2所述的基于大语言模型的图召回方法,其特征在于,生成的候选游走路径经过人工审核后作为游走路径使用。

9.计算机可读介质,其特征在于,所述计算机可读介质存储有计算机程序,所述计算机程序被执行时,实现权利要求1~8任一项所述的方法。

10.设备,包括存储器和信息处理器,其特征在于,所述存储器储存有计算机程序,所述信息处理器读取所述计算机程序时,执行权利要求1~8任一项所述的方法。

...

【技术特征摘要】

1.基于大语言模型的图召回方法,其特征在于,包括步骤:

2.根据权利要求1所述的基于大语言模型的图召回方法,其特征在于,步骤s1包括:

3.根据权利要求1所述的基于大语言模型的图召回方法,其特征在于,步骤s2包括:

4.根据权利要求3所述的基于大语言模型的图召回方法,其特征在于,步骤s3中,利用与步骤s2中相同的图向量嵌入模型,将用户输入的自然语言转换为检索向量嵌入。

5.根据权利要求1所述的基于大语言模型的图召回方法,其特征在于,步骤s2包括:

6.根据权利要求5所述的基于大语言模型的图召回方法,其特征在于,步骤s3中,利用与步骤s2中相同的...

【专利技术属性】
技术研发人员:姚逵赵洋朱杰
申请(专利权)人:中化信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1