System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 对已投入生产的RAG系统进行RAG指标测评的方法技术方案_技高网

对已投入生产的RAG系统进行RAG指标测评的方法技术方案

技术编号:44652502 阅读:3 留言:0更新日期:2025-03-17 18:43
一种对已投入生产的RAG系统进行RAG指标测评的方法,预先准备测试集,测试集内容为<原问题,正确答案>二元组列表;进行RAG指标测评的方法具体通过如下步骤进行:步骤1.使用测试集中的原问题调用生产环境的RAG模块接口,获取“模型回复”与“引用文本列表”;步骤2.把“原问题”、“模型回复”、“引用文本列表”和“正确答案”按照测评框架的输入参数格式组成测评数据;步骤3.使用步骤2中得到的测评数据调用测评框架的测评数据接口,由测评框架生成测评结果。本发明专利技术能够在不提供生产环境使用的模型以及数据库接口的情况下,进行RAG测评。

【技术实现步骤摘要】

本专利技术涉及检索增强生成测评,特别是涉及一种对已投入生产的rag系统进行rag指标测评的方法。


技术介绍

1、投入生产的rag系统是指包含rag模块或功能的系统,如知识库问答应用系统。rag是检索增强生成的简称,是通过检索得到一定的文本片段,并提供给大模型(也成为大语言模型,大规模语言模型,英文:large language model,缩写llm)作为生成回答的补充信息,从而降低大模型生成时产生幻觉的概率。

2、使用rag测评框架的目的是通过数据化来判断当前rag性能情况,一般包含指标有回复的正确性、回复的完整性、检索上下文中相关片段的比例、生成器有效使用上下文中相关信息的程度等。测评后可根据不同指标分数针对性地优化查询、排序、过滤、生成等模块。

3、rag测评通常通过对问题、正确答案、模型回答、召回文本(通过检索得到的文本片段)提取实体和关键字,结合不同数学模型、统计方法等得出每一例测试数据的不同指标分值。

4、目前有多种开源的rag测评框架,各rag测评框架是为了解决对rag功能进行测评时难以人工评价和打分。它们共同点是要求用户提供自己的大语言模型、嵌入模型、重排模型以及向量数据库等接口以及提供测试集在框架内产生测评数据集,后续再根据测评接口进行测评。这种方法的缺点是适用于开发时技术调研,但对于已经把rag集成到系统的环境不友好,并且把生产环境内部调用的接口开放出来也有安全隐患。

5、因此,针对现有技术不足,提供一种对已投入生产的rag系统进行rag指标测评的方法以克服现有技术不足甚为必要。


技术实现思路

1、本专利技术的目的在于避免现有技术的不足之处而提供一种对已投入生产的rag系统进行rag指标测评的方法,能够在不提供生产环境使用的模型以及数据库接口的情况下,进行rag测评。

2、本专利技术的目的通过以下技术措施实现。

3、提供一种对已投入生产的rag系统进行rag指标测评的方法,预先准备测试集,测试集内容为<原问题,正确答案>二元组列表;

4、进行rag指标测评的方法具体通过如下步骤进行:

5、步骤1.使用测试集中的原问题调用生产环境的rag模块接口,获取“模型回复”与“引用文本列表”;

6、步骤2.把“原问题”、“模型回复”、“引用文本列表”和“正确答案”按照测评框架的输入参数格式组成测评数据;

7、步骤3.使用步骤2中得到的测评数据调用测评框架的测评数据接口,由测评框架生成测评结果。

8、优选的,上述的对已投入生产的rag系统进行rag指标测评的方法,重复步骤1,使用测试集中的全部或者部分原问题调用生产环境的rag模块接口并获取对应的“模型回复”与“引用文本列表”;

9、步骤2.把获得的每一项“原问题”、“模型回复”、“引用文本列表”和“正确答案”按照测评框架的输入参数格式组成每一项对应的测评数据,由每项测评数据汇总组成测评数据汇总表;

10、步骤3.使用步骤2中得到的测评数据汇总表中的测评数据调用测评框架的测评数据接口,由测评框架生成测评结果。

11、另一优选的,上述的对已投入生产的rag系统进行rag指标测评的方法,每次使用测试集中的一项原问题,依次分别执行步骤1和步骤2,每次分别得到每一项原问题对应的测评数据,多次执行步骤1和步骤2后对应得到全部或者部分原问题对应的测评数据,由每项测评数据汇总组成测评数据汇总表;

12、步骤3.使用步骤2中得到的测评数据汇总表中的测评数据调用测评框架的测评数据接口,由测评框架生成测评结果。

13、优选的,上述的对已投入生产的rag系统进行rag指标测评的方法,还包括步骤4.将测评结果保存为文件或数据库形式。

14、优选的,上述的对已投入生产的rag系统进行rag指标测评的方法,生产环境的输出中包含模型回复和引用文本列表或者为再通过一次查询来获取引用的文本内容的信息。

15、优选的,上述的对已投入生产的rag系统进行rag指标测评的方法,所使用的rag评测框架输入参数是由原问题、正确答案、模型回复和引用文本列表组成。

16、优选的,上述的对已投入生产的rag系统进行rag指标测评的方法,所用rag测评框架的测评数据接口可单独调用。

17、本专利技术对已投入生产的rag系统进行rag指标测评的方法,在不提供生产环境使用的模型以及数据库接口的情况下,通过开源的rag测评框架或者需求方指定的框架进行rag测评。仅需要生产环境的系统能返回进行rag时所引用的知识文本。本专利技术的方案,不需要提供生产环境使用的模型以及数据库接口,减少内部接口暴露的安全风险。本专利技术的方案对rag测评框架要求较为宽松,目前网上的开源框架如ragas、ragchecker等都可以使用。本专利技术的方案对生产环境效果进行测评比在开发环境进行测评更能反映出系统的实际效果。通过本专利技术的方案执行rag操作的模型与测评作为裁判的模型可以不一样,避免同一模型对语义理解的程度影响测评结果。

本文档来自技高网...

【技术保护点】

1.一种对已投入生产的RAG系统进行RAG指标测评的方法,其特征在于,

2.根据权利要求1所述的对已投入生产的RAG系统进行RAG指标测评的方法,其特征在于,重复步骤1,使用测试集中的全部或者部分“原问题”调用生产环境的RAG模块接口并获取对应的“模型回复”与“引用文本列表”;

3.根据权利要求1所述的对已投入生产的RAG系统进行RAG指标测评的方法,其特征在于,每次使用测试集中的一项“原问题”,依次分别执行步骤1和步骤2,每次分别得到每一项原问题对应的测评数据,多次执行步骤1和步骤2后对应得到全部或者部分原问题对应的测评数据,由每项测评数据汇总组成测评数据汇总表;

4.根据权利要求1或2或3所述的对已投入生产的RAG系统进行RAG指标测评的方法,其特征在于,还包括步骤4.将测评结果保存为文件或数据库形式。

5.根据权利要求1或2或3所述的对已投入生产的RAG系统进行RAG指标测评的方法,其特征在于,生产环境的输出中包含模型回复和引用文本列表或者为再通过一次查询来获取引用的文本内容的信息。

6.根据权利要求5所述的对已投入生产的RAG系统进行RAG指标测评的方法,其特征在于,所使用的RAG评测框架输入参数是由原问题、正确答案、模型回复和引用文本列表组成。

7.根据权利要求6所述的对已投入生产的RAG系统进行RAG指标测评的方法,其特征在于,所用RAG测评框架的测评数据接口可单独调用。

...

【技术特征摘要】

1.一种对已投入生产的rag系统进行rag指标测评的方法,其特征在于,

2.根据权利要求1所述的对已投入生产的rag系统进行rag指标测评的方法,其特征在于,重复步骤1,使用测试集中的全部或者部分“原问题”调用生产环境的rag模块接口并获取对应的“模型回复”与“引用文本列表”;

3.根据权利要求1所述的对已投入生产的rag系统进行rag指标测评的方法,其特征在于,每次使用测试集中的一项“原问题”,依次分别执行步骤1和步骤2,每次分别得到每一项原问题对应的测评数据,多次执行步骤1和步骤2后对应得到全部或者部分原问题对应的测评数据,由每项测评数据汇总组成测评数据汇总表;

4.根据权利要求1或2或3所...

【专利技术属性】
技术研发人员:卢志良李静沈贤义
申请(专利权)人:广州华微明天软件技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1