一种检索增强生成应用的评估方法、装置、设备以及介质制造方法及图纸

技术编号：44825714 阅读：3 留言：0更新日期：2025-03-28 20:16

本申请实施例提供一种检索增强生成应用的评估方法、装置、设备以及介质，涉及人工智能领域，包括：将输入问题信息输入检索增强生成应用，生成输出答案信息；将输出答案信息以及输入问题信息输入评估模型，生成评估得分；评估模型按照如下方式进行训练：基于目标领域知识库，构建正确训练数据以及缺陷训练数据；基于正确训练数据以及缺陷训练数据，生成偏好训练数据；对第一大语言模型进行预训练、监督微调和偏好训练，得到评估模型。本申请基于训练数据训练评估模型，在训练阶段融入了目标领域知识，通过监督微调和偏好训练使评估模型与人类偏好保持一致，可以更好的对检索增强生成应用生成的答案进行评估。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及人工智能领域，具体而言，涉及一种检索增强生成应用的评估方法、装置、设备以及介质。

技术介绍

1、对于自然语言处理模型中生成类任务的评估，一直是一大难题，但用于评估的指标(例如rouge、bleu等指标)都无法很好的对检索增强生成(retrieval augmentedgeneration，简称rag)应用进行评估，一方面是因为有些指标是选择题式的，这其实是用于评估模型理解能力的；另一方面，这些指标常常与人工的评估结果相差较大，并不能准确地反映模型性能。

2、现有的针对检索增强生成应用的专门评估方式通常会从忠实度、回答相关性以及上下文相关性三个维度进行评估，然而，其中的忠实度和上下文相关性都依赖上下文，而获取准确、全面的上下文本身就是待评估的一项内容，这会导致对检索增强生成应用的评估效果较差。因此，如何更好地对基于检索增强生成应用生成的答案进行评估，成为本领域当前亟待解决的问题。

技术实现思路

1、本申请实施例在于提供一种检索增强生成应用的评估方法、装置、设备以及介质，旨在解决如何更好地对基于检索增强生成应用生成的答案进行评估。

2、本申请实施例第一方面提供一种检索增强生成应用的评估方法，所述方法包括：

3、将输入问题信息输入检索增强生成应用，生成输出答案信息；

4、将所述输出答案信息以及所述输入问题信息输入评估模型，生成所述输出答案信息对应的评估得分；

5、其中，所述评估模型按照如下方式进行训练：

<...

【技术特征摘要】

1.一种检索增强生成应用的评估方法，其特征在于，所述方法包括：

2.根据权利要求1所述的检索增强生成应用的评估方法，其特征在于，所述基于目标领域知识库，构建正确训练数据，包括：

3.根据权利要求1所述的检索增强生成应用的评估方法，其特征在于，所述基于目标领域知识库，构建缺陷训练数据，包括：

4.根据权利要求3所述的检索增强生成应用的评估方法，其特征在于，所述基于所述正确训练数据中的文本信息，构建第一缺陷训练数据，包括：

5.根据权利要求3所述的检索增强生成应用的评估方法，其特征在于，所述基于所述目标领域知识库中的文本信息，构建第二缺陷训练数据，包括：

6.根据权利要求3所述的检索增强生成应用的评估方法，其特征在于，所述基于所...

【专利技术属性】
技术研发人员：罗刚，
申请(专利权)人：天翼云科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人