System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种提高检索增强生成文本相关性的数据处理方法技术_技高网

一种提高检索增强生成文本相关性的数据处理方法技术

技术编号:44728181 阅读:0 留言:0更新日期:2025-03-21 17:53
本申请设计了一种提高检索增强生成文本相关性的数据处理方法,包括:将输入问题文本输入向量模型中得到问题文本向量数据;按照输入问题文本进行知识库检索,获取知识库文本;将知识库文本进行句子切分,获得检索参考句子,并将其输入向量模型中,获得句子文本向量数据;构建关联性评估模型并进行训练;将句子文本向量数据、问题文本向量数据输入至关联性评估模型中,进行关联性数值计算,保留关联性数值大于0.5的检索参考句子,清除其余的检索参考句子,筛选出精简知识库文本;将筛选出的精简知识库文本和输入问题文本进行整合,并输入至大语言模型中。本申请能够使用关联评分模型清除不必要的知识库文本信息,有效的提升问题回答的准确率。

【技术实现步骤摘要】

本专利技术属于数据处理领域,具体涉及一种提高检索增强生成文本相关性的数据处理方法


技术介绍

1、检索增强生成(retrieval-augmented generation,rag)是一种结合信息检索和生成模型的技术,旨在提高生成式模型的性能和准确性。检索增强生成技术通过在生成文本之前检索相关信息来增强生成过程,特别适用于需要结合外部知识的任务,如问答系统、对话生成和内容创作。然而,目前检索增强生成在使用的时候任然存在着检索数据相关性差的缺点。例如,检索文本的质量会直接影响生成结果的准确性和相关性。如果检索系统未能找到足够相关或准确的信息,生成模型可能会产生不理想的输出。因此,构建一个高效且准确的检索系统是关键。另外,检索得到的文本内容与问题的相关性也存在冗余,部分检索得到的文本对于具体问题的回答不具备关联,检索到的信息缺乏与问题相关联的有效清洗方法,有的甚至会误导大语言模型生成错误的回答。如何有效地对检索到的信息进行数据层面的精简便显得十分重要。目前,行业内缺乏有效的参考文本数据清洗策略,在不同的问题领域通常采用人工清洗标注的方式,导致效率低下。


技术实现思路

1、为了解决上述问题,本申请设计了一种提高检索增强生成文本相关性的数据处理方法,通过将检索得到的文本进行句子层级的分解,使用关联评分模型对每个句子进行关联度评估,清除不必要的信息,精简后的参考文本内容可以有效的提升问题回答的准确率。

2、一种提高检索增强生成文本相关性的数据处理方法,包括以下步骤:

3、步骤s1、将输入问题文本输入向量模型中得到问题文本向量数据;

4、步骤s2、按照输入问题文本进行知识库检索,获取知识库文本;

5、步骤s3、将知识库文本进行句子切分,获得检索参考句子,并将检索参考句子输入向量模型中,获得句子文本向量数据;

6、步骤s4、构建关联性评估模型并进行训练;

7、步骤s5、将句子文本向量数据、问题文本向量数据输入至关联性评估模型中,进行关联性数值计算,保留关联性数值大于0.5的检索参考句子,清除其余的检索参考句子,筛选出精简知识库文本;

8、步骤s6、将步骤s5筛选出的精简知识库文本和输入问题文本进行整合,并输入至大语言模型中。

9、优选地,所述关联性评估模型的构建方法包括:

10、步骤s401、对训练问题文本进行知识库检索,获取训练知识库文本;

11、步骤s402、将训练知识库文本进行句子切分,获得训练检索参考句子,并将训练检索参考句子输入向量模型中,获得训练句子文本向量数据;

12、步骤s403、将训练问题文本输入向量模型中得到训练问题文本向量数据;

13、步骤s404、将训练问题文本向量数据、训练句子文本向量数据输入至交叉注意力网络模型中进行融合,获取融合后的特征向量;

14、步骤s405、将融合后的特征向量输入至前馈神经网络中,获取关联性数值。

15、优选地,所述关联性评估模型的训练方法包括:

16、步骤s411、过人工筛选的方式构建训练数据集,所述训练数据集包括训练问题以及对应的应答检索参考文本即对应的应答知识库文本;

17、步骤s412、将应答检索参考文本分解为多个语句;

18、步骤s413、将单个训练问题与多个语句进行一一组合,分别一起作为提示词文本输入到大语言模型中;通过人工审核的方式记录筛选出的语句是否能为输出答案提供有效的支持,如果有则将对应的句子标记为1,如果没有则标记为-1;

19、步骤s414、以此类推,将每个训练问题的组合均做相似的处理,然后使用批次训练的方法,将训练问题文本与对应的语句文本一起传入关联性评估模型中,最终得到的每个语句的关联性分值q,所述关联性分值q与人工标注的关联性分值q’一起构成均方误差损失函数,

20、l(q,q′)=e[(q-q′)2],

21、其中,e表示数据集的期望;

22、步骤s415、最后通过adamw优化器进行迭代优化更新关联性评估模型参数。

23、优选地,所述前馈神经网络包含两个线性层。

24、优选地,所述交叉注意力网络模型的定义为:

25、

26、其中,q=wq*i,k=wk*p,v=wv*p;

27、wq为查询参数矩阵,wk为键参数矩阵,wv为值参数矩阵,d为特征向量维度的大小,q为查询向量,k为键向量,v为值向量。

28、本申请的优点和效果如下:

29、本申请设计了一种提高检索增强生成文本相关性的数据处理方法,包括:将输入问题文本输入向量模型中得到问题文本向量数据;按照输入问题文本进行知识库检索,获取知识库文本;将知识库文本进行句子切分,获得检索参考句子,并将其输入向量模型中,获得句子文本向量数据;构建关联性评估模型并进行训练;将句子文本向量数据、问题文本向量数据输入至关联性评估模型中,进行关联性数值计算,保留关联性数值大于0.5的检索参考句子,清除其余的检索参考句子,筛选出精简知识库文本;将筛选出的精简知识库文本和输入问题文本进行整合,并输入至大语言模型中。本申请能够使用关联评分模型清除不必要的知识库文本信息,有效的提升问题回答的准确率。

30、上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,从而可依照说明书的内容予以实施,并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂,以下以本申请的较佳实施例并配合附图详细说明如后。

31、根据下文结合附图对本申请具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述及其他目的、优点和特征。

本文档来自技高网...

【技术保护点】

1.一种提高检索增强生成文本相关性的数据处理方法,其特征在于,包括以下步骤:

2.根据权利要求1中的一种提高检索增强生成文本相关性的数据处理方法,其特征在于,所述关联性评估模型的构建方法包括:

3.根据权利要求2中的一种提高检索增强生成文本相关性的数据处理方法,其特征在于,所述关联性评估模型的训练方法包括:

4.根据权利要求2中的一种提高检索增强生成文本相关性的数据处理方法,其特征在于,所述前馈神经网络包含两个线性层。

5.根据权利要求2中的一种提高检索增强生成文本相关性的数据处理方法,其特征在于,所述交叉注意力网络模型的定义为:

【技术特征摘要】

1.一种提高检索增强生成文本相关性的数据处理方法,其特征在于,包括以下步骤:

2.根据权利要求1中的一种提高检索增强生成文本相关性的数据处理方法,其特征在于,所述关联性评估模型的构建方法包括:

3.根据权利要求2中的一种提高检索增强生成文本相关性的数据处理方法,其特征...

【专利技术属性】
技术研发人员:张艺浩刘岩鑫徐修信张雪泽
申请(专利权)人:生花智能科技苏州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1