System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及大语言模型评测,尤其涉及一种大语言模型评估方法、系统、设备、介质及程序产品。
技术介绍
1、大语言模型(large language models,llms)是一种人工智能模型,它通过在海量文本数据集上进行训练而被设计为理解和生成人类语言,已在广泛的应用中展示出其潜力。所以对大语言模型的能力进行评估至关重要,因为它不仅有助于对模型进行排名,还能帮助区分有价值的工作和有效的模型改进策略。
2、大语言模型基准测试是一组经过精心设计的测试任务、问题和数据集,它们按照标准化的流程来评估语言模型的性能。然而,当前的大语言模型在各种基准测试中表现越来越好,但它们在实际应用中的表现并不总是与基准测试结果相符,这是因为大语言模型在基准测试中所使用的数据被有意或无意的污染所致。因此,潜在的数据污染对大语言模型评估的影响促使研究人员建立新的基准,以更准确地评估模型性能,但是创建新的基准测试既耗时又昂贵,且无论何种基准测试,一旦公开,就存在被泄露的风险。
技术实现思路
1、本专利技术所要解决的技术问题是,提供一种大语言模型评估方法、系统、设备、介质及程序产品,可以减少基准测试数据集的污染程度,从而提升大语言模型的评估准确性。
2、为解决以上技术问题,本专利技术实施例提供了一种大语言模型评估方法,包括:
3、获取基准测试数据集;
4、通过数据检测方法对所述基准测试数据集进行污染检测,得到第一疑似污染数据;
5、根据所述基准测试数据集
6、通过数据检测方法对所述第二疑似污染数据重新进行数据检测,直至满足预设的停止条件,得到去污染后的基准测试数据集;
7、基于所述去污染后的基准测试数据集,对大语言模型进行评估。
8、优选地,所述基准测试数据集至少包括数学推理类基准测试数据集和知识与语言理解类基准测试数据集中的一种。
9、作为上述方案的改进,所述根据所述基准测试数据集的类型,对所述第一疑似污染数据进行数据重写,得到第二疑似污染数据,包括:
10、若所述基准测试数据集为数学推理类基准测试数据集,则基于原数学推理问题的计算逻辑和答案结构对所述第一疑似污染数据重新设计问题情境,得到第二疑似污染数据;
11、若所述基准测试数据集为知识与语言理解类基准测试数据集,则在不改变核心专有名词和任何数字的基础上,对所述第一疑似污染数据的原知识与语言理解问题和选项进行同义重写,得到第二疑似污染数据。
12、作为上述方案的改进,所述通过数据检测方法对所述基准测试数据集进行污染检测,得到第一疑似污染数据,包括:
13、计算所述基准测试数据集中文本的不常见词的平均概率;
14、根据所述平均概率判断所述基准测试数据集的污染情况,得到第一疑似污染数据。
15、为解决以上技术问题,本专利技术实施例还提供了一种大语言模型评估系统,包括:
16、基准测试数据集获取模块,用于获取基准测试数据集;
17、第一数据污染检测模块,用于通过数据检测方法对所述基准测试数据集进行污染检测,得到第一疑似污染数据;
18、数据重写模块,用于根据所述基准测试数据集的类型,对所述第一疑似污染数据进行数据重写,得到第二疑似污染数据;其中,所述数据重写不改变所述疑似污染数据的难度;
19、第二数据污染检测模块,用于通过数据检测方法对所述第二疑似污染数据重新进行数据检测,直至满足预设的停止条件,得到去污染后的基准测试数据集;
20、模型评估模块,用于基于所述去污染后的基准测试数据集,对大语言模型进行评估。
21、作为上述方案的改进,所述数据重写模块,具体用于:
22、若所述基准测试数据集为数学推理类基准测试数据集,则基于原数学推理问题的计算逻辑和答案结构对所述第一疑似污染数据重新设计问题情境,得到第二疑似污染数据;
23、若所述基准测试数据集为知识与语言理解类基准测试数据集,则在不改变核心专有名词和任何数字的基础上,对所述第一疑似污染数据的原知识与语言理解问题和选项进行同义重写,得到第二疑似污染数据。
24、作为上述方案的改进,所述第一数据污染检测模块,具体用于:
25、计算所述基准测试数据集中文本的不常见词的平均概率;
26、根据所述平均概率判断所述基准测试数据集的污染情况,得到第一疑似污染数据。
27、为解决以上技术问题,本专利技术实施例还提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上任意一项所述的大语言模型评估方法。
28、为解决以上技术问题,本专利技术实施例又提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上任意一项所述的大语言模型评估方法。
29、为解决以上技术问题,本专利技术实施例又提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现如上任意一项所述的大语言模型评估方法。
30、与现有技术相比,本专利技术实施例提供的一种大语言模型评估方法、系统、设备、介质及程序产品,该方法首先通过数据检测方法对获取的基准测试数据集进行污染检测,得到第一疑似污染数据,然后再根据所述基准测试数据集的类型,对所述第一疑似污染数据进行数据重写,得到第二疑似污染数据,并通过数据检测方法对所述第二疑似污染数据重新进行数据检测,直至满足预设的停止条件,得到去污染后的基准测试数据集,最后基于所述去污染后的基准测试数据集,对大语言模型进行评估。本专利技术通过基准测试数据集进行污染检测,并重写,去除了基准测试数据集的高污染部分,降低了基准测试的潜在污染,有效减轻因记住泄露的基准测试而导致大语言模型的性能膨胀,使得大语言模型的评估结果更具可信性,更能体现模型的真实能力;同时本专利技术避免了重新构建数据集的高开销问题,使得测试人员无须再创建新的基准测试,即可通过现有的基准测试数据集对大语言模型进行评估,提高了大语言模型评估的效率。
本文档来自技高网...【技术保护点】
1.一种大语言模型评估方法,其特征在于,包括:
2.如权利要求1所述的大语言模型评估方法,其特征在于,所述基准测试数据集至少包括数学推理类基准测试数据集和知识与语言理解类基准测试数据集中的一种。
3.如权利要求1所述的大语言模型评估方法,其特征在于,所述根据所述基准测试数据集的类型,对所述第一疑似污染数据进行数据重写,得到第二疑似污染数据,包括:
4.如权利要求1所述的大语言模型评估方法,其特征在于,所述通过数据检测方法对所述基准测试数据集进行污染检测,得到第一疑似污染数据,包括:
5.一种大语言模型评估系统,其特征在于,包括:
6.如权利要求5所述的大语言模型评估系统,其特征在于,所述数据重写模块,具体用于:
7.如权利要求5所述的大语言模型评估系统,其特征在于,所述第一数据污染检测模块,具体用于:
8.一种终端设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至4中任意一项所述的大语言模型评估方法。
>9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至4中任意一项所述的大语言模型评估方法。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现如权利要求1至4中任意一项所述的大语言模型评估方法。
...【技术特征摘要】
1.一种大语言模型评估方法,其特征在于,包括:
2.如权利要求1所述的大语言模型评估方法,其特征在于,所述基准测试数据集至少包括数学推理类基准测试数据集和知识与语言理解类基准测试数据集中的一种。
3.如权利要求1所述的大语言模型评估方法,其特征在于,所述根据所述基准测试数据集的类型,对所述第一疑似污染数据进行数据重写,得到第二疑似污染数据,包括:
4.如权利要求1所述的大语言模型评估方法,其特征在于,所述通过数据检测方法对所述基准测试数据集进行污染检测,得到第一疑似污染数据,包括:
5.一种大语言模型评估系统,其特征在于,包括:
6.如权利要求5所述的大语言模型评估系统,其特征在于,所述数据重写模块,具体用于:
【专利技术属性】
技术研发人员:吴石松,董召杰,李轩昂,梁寿愚,卢志良,陈柔伊,郑桦,冯勤宇,任正国,余煜塬,赵翔宇,王鹏凯,林全郴,李晋伟,陈骞,
申请(专利权)人:南方电网人工智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。