本申请实施例提供一种检索增强生成应用的评估方法、装置、设备以及介质,涉及人工智能领域,包括:将输入问题信息输入检索增强生成应用,生成输出答案信息;将输出答案信息以及输入问题信息输入评估模型,生成评估得分;评估模型按照如下方式进行训练:基于目标领域知识库,构建正确训练数据以及缺陷训练数据;基于正确训练数据以及缺陷训练数据,生成偏好训练数据;对第一大语言模型进行预训练、监督微调和偏好训练,得到评估模型。本申请基于训练数据训练评估模型,在训练阶段融入了目标领域知识,通过监督微调和偏好训练使评估模型与人类偏好保持一致,可以更好的对检索增强生成应用生成的答案进行评估。
【技术实现步骤摘要】
本申请实施例涉及人工智能领域,具体而言,涉及一种检索增强生成应用的评估方法、装置、设备以及介质。
技术介绍
1、对于自然语言处理模型中生成类任务的评估,一直是一大难题,但用于评估的指标(例如rouge、bleu等指标)都无法很好的对检索增强生成(retrieval augmentedgeneration,简称rag)应用进行评估,一方面是因为有些指标是选择题式的,这其实是用于评估模型理解能力的;另一方面,这些指标常常与人工的评估结果相差较大,并不能准确地反映模型性能。
2、现有的针对检索增强生成应用的专门评估方式通常会从忠实度、回答相关性以及上下文相关性三个维度进行评估,然而,其中的忠实度和上下文相关性都依赖上下文,而获取准确、全面的上下文本身就是待评估的一项内容,这会导致对检索增强生成应用的评估效果较差。因此,如何更好地对基于检索增强生成应用生成的答案进行评估,成为本领域当前亟待解决的问题。
技术实现思路
1、本申请实施例在于提供一种检索增强生成应用的评估方法、装置、设备以及介质,旨在解决如何更好地对基于检索增强生成应用生成的答案进行评估。
2、本申请实施例第一方面提供一种检索增强生成应用的评估方法,所述方法包括:
3、将输入问题信息输入检索增强生成应用,生成输出答案信息;
4、将所述输出答案信息以及所述输入问题信息输入评估模型,生成所述输出答案信息对应的评估得分;
5、其中,所述评估模型按照如下方式进行训练:
<
p>6、基于目标领域知识库,构建正确训练数据以及缺陷训练数据;7、基于所述正确训练数据以及所述缺陷训练数据,生成偏好训练数据;
8、基于所述目标领域知识库对第一大语言模型进行预训练,得到第一目标模型;
9、基于所述正确训练数据以及通用训练数据,对所述第一目标模型进行监督微调,得到第二目标模型;
10、基于所述偏好训练数据,对所述第二目标模型进行训练,得到所述评估模型。
11、在一种可选的实施方式中,所述基于目标领域知识库,构建正确训练数据,包括:
12、对所述目标领域知识库中的文本信息按照文本格式进行切分,得到多个文本信息;
13、将所述文本信息输入所述第一大语言模型,基于提示词对所述文本信息进行处理,生成所述文本信息对应的第一问题信息和第一答案信息;
14、将每个文本信息以及与所述每个文本信息对应的第一问题信息和第一答案信息组合为初始训练数据;
15、对所述初始训练数据进行去重处理,得到所述正确训练数据。
16、在一种可选的实施方式中,所述基于目标领域知识库,构建缺陷训练数据,包括:
17、基于所述正确训练数据中的文本信息,构建第一缺陷训练数据,所述第一缺陷训练数据用于表征因切分不合理产生的错误训练数据;
18、基于所述目标领域知识库中的文本信息,构建第二缺陷训练数据,所述第二缺陷训练数据用于表征因欠召回产生的错误训练数据;
19、基于所述正确训练数据中的问题信息以及所述目标领域知识库中的文本信息,构建第三缺陷训练数据,所述第三缺陷训练数据用于表征因所述文本信息与所述问题信息不对应产生的错误训练数据;
20、将所述第一缺陷训练数据、所述第二缺陷训练数据以及所述第三缺陷训练数据组合为所述缺陷训练数据。
21、在一种可选的实施方式中,所述基于所述正确训练数据中的文本信息,构建第一缺陷训练数据,包括:
22、对所述正确训练数据中的文本信息进行随机分割,得到多个第一文本信息;
23、将所述第一文本信息输入第二大语言模型,基于提示词对所述第一文本信息进行处理,生成所述第一文本信息对应的第二问题信息和第二答案信息;
24、将每个第一文本信息以及与所述每个第一文本信息对应的第二问题信息和第二答案信息组合为所述第一缺陷训练数据。
25、在一种可选的实施方式中,所述基于所述目标领域知识库中的文本信息,构建第二缺陷训练数据,包括:
26、对所述目标领域知识库中的文本信息按照文本格式进行切分,以及,对所述目标领域知识库中的文本信息进行随机切割,得到多个第二文本信息;
27、将所述第二文本信息输入向量模型,基于所述正确训练数据中的问题信息进行检索,得到第三文本信息;
28、将所述正确训练数据中的问题信息以及所述第三文本信息输入第二大语言模型,得到第三答案信息;
29、将所述正确训练数据中的问题信息、所述第三文本信息以及所述第三答案信息组合为所述第二缺陷训练数据。
30、在一种可选的实施方式中,所述基于所述正确训练数据中的问题信息以及所述目标领域知识库中的文本信息,构建第三缺陷训练数据,包括:
31、将所述正确训练数据中的问题信息输入第二大语言模型,生成第四答案信息;将所述正确训练数据中的问题信息和所述第四答案信息组合为第一子数据;
32、将第三问题信息以及与第四文本信息输入第二大语言模型,生成第五答案信息,将所述第三问题信息、第四文本信息以及所述第五答案信息组合为第二子数据,其中,所述第三问题信息为任意一个所述正确训练数据中的问题信息,所述第四文本信息为与所述第三问题信息不对应的其他任意正确训练数据中的文本信息;
33、基于目标关键词分别对所述第一子数据和所述第二子数据进行筛选,将筛选后的所述第一子数据和所述第二子数据组合为所述第三缺陷训练数据。
34、在一种可选的实施方式中,所述基于所述正确训练数据以及所述缺陷训练数据,生成偏好训练数据,包括:
35、以所述正确训练数据为基准,对所述缺陷训练数据进行去重处理,以使所述缺陷训练数据的问题信息与所述正确训练数据的问题信息不同,和/或,所述缺陷训练数据的问题信息与所述正确训练数据的答案信息不同;
36、将目标问题信息在所有正确训练数据中对应的不同答案信息,组合为正确答案信息集,以及,将所述目标问题信息在所有错误训练数据中对应的不同答案信息,组合为错误答案信息集,所述目标问题信息为任意正确训练数据中的问题信息;
37、将所述目标问题信息、所述正确答案信息集、所述错误答案信息集组合为所述偏好训练数据。
38、本申请实施例第二方面提供一种检索增强生成应用的评估装置,所述装置包括:
39、检索增强生成模块,用于将输入问题信息输入检索增强生成应用,生成输出答案信息;
40、评估模块,用于将所述输出答案信息以及所述输入问题信息输入评估模型,生成所述输出答案信息对应的评估得分;
41、评估模型训练模块,用于训练得到所述评估模型,其中,所述评估模型按照如下方式进行训练:
42、基于目标领域知识库,构建正确训练数据以及缺陷训练数据;
43、基于所述正确训练数据以及所述缺陷训练数据,生成偏好本文档来自技高网
...
【技术保护点】
1.一种检索增强生成应用的评估方法,其特征在于,所述方法包括:
2.根据权利要求1所述的检索增强生成应用的评估方法,其特征在于,所述基于目标领域知识库,构建正确训练数据,包括:
3.根据权利要求1所述的检索增强生成应用的评估方法,其特征在于,所述基于目标领域知识库,构建缺陷训练数据,包括:
4.根据权利要求3所述的检索增强生成应用的评估方法,其特征在于,所述基于所述正确训练数据中的文本信息,构建第一缺陷训练数据,包括:
5.根据权利要求3所述的检索增强生成应用的评估方法,其特征在于,所述基于所述目标领域知识库中的文本信息,构建第二缺陷训练数据,包括:
6.根据权利要求3所述的检索增强生成应用的评估方法,其特征在于,所述基于所述正确训练数据中的问题信息以及所述目标领域知识库中的文本信息,构建第三缺陷训练数据,包括:
7.根据权利要求1所述的检索增强生成应用的评估方法,其特征在于,所述基于所述正确训练数据以及所述缺陷训练数据,生成偏好训练数据,包括:
8.一种检索增强生成应用的评估装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现权利要求1-7中任意一项所述的检索增强生成应用的评估方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-7中任意一项所述的检索增强生成应用的评估方法中的步骤。
...
【技术特征摘要】
1.一种检索增强生成应用的评估方法,其特征在于,所述方法包括:
2.根据权利要求1所述的检索增强生成应用的评估方法,其特征在于,所述基于目标领域知识库,构建正确训练数据,包括:
3.根据权利要求1所述的检索增强生成应用的评估方法,其特征在于,所述基于目标领域知识库,构建缺陷训练数据,包括:
4.根据权利要求3所述的检索增强生成应用的评估方法,其特征在于,所述基于所述正确训练数据中的文本信息,构建第一缺陷训练数据,包括:
5.根据权利要求3所述的检索增强生成应用的评估方法,其特征在于,所述基于所述目标领域知识库中的文本信息,构建第二缺陷训练数据,包括:
6.根据权利要求3所述的检索增强生成应用的评估方法,其特征在于,所述基于所...
【专利技术属性】
技术研发人员:罗刚,
申请(专利权)人:天翼云科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。