System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 测评模型的方法及装置制造方法及图纸_技高网

测评模型的方法及装置制造方法及图纸

技术编号:44657712 阅读:5 留言:0更新日期:2025-03-17 18:50
本申请适用于人工智能技术领域,提供了一种测评模型的方法及装置,包括:获取用户输入的配置信息,所述配置信息包括待测评模型所需的测试环境信息和/或测试需求信息;根据所述配置信息生成所述待测评模型的测试接口;使用所述测试接口对所述待测评模型进行m轮测试,得到所述待测评模型对应的m轮测试的平均测试结果,m为大于1的正整数;根据所述平均测试结果确定所述待测评模型的测评结果。本申请实施例中的方法,可以提高模型测评的便捷性,从而可以提升用户体验。

【技术实现步骤摘要】

本申请属于人工智能,尤其涉及一种测评模型的方法及装置


技术介绍

1、随着人工智能技术的快速发展,各种人工智能模型的性能不断提高,人工智能模型的测评也得到了越来越多的关注。但是,现有的模型测评方法不太便捷,用户体验不理想。


技术实现思路

1、本申请实施例提供了一种测评模型的方法及装置,旨在解决现有技术中的模型测评不便捷的问题。

2、第一方面,本申请实施例提供了一种测评模型的方法,包括:

3、获取用户输入的配置信息,所述配置信息包括待测评模型所需的测试环境信息和/或测试需求信息;根据所述配置信息生成所述待测评模型的测试接口;使用所述测试接口对所述待测评模型进行m轮测试,得到所述待测评模型对应的m轮测试的平均测试结果,m为大于1的正整数;根据所述平均测试结果确定所述待测评模型的测评结果。

4、本申请实施例中,配置信息包括待测评模型所需的测试环境信息和/或测试需求信息,根据配置信息生成待测评模型的测试接口,而无需用户编写测试接口,可以提高模型测评的便捷性,从而可以提升用户体验。

5、同时,对待测评模型进行多轮测试,并基于多轮测试的平均测试结果确定待测评模型的测评结果,可以通过统计的方式更加客观的反映待测评模型的性能,从而可以提高测评结果的准确率。

6、在一些实现方式中,所述配置信息用于指示以下至少一项:所述待测评模型需要进行模型测试、所述待测评模型需要进行接口测试、所述待测评模型需要测试的数据集、所述待测评模型是否需要拆分出多个测试任务、所述多个测试任务是否支持并行测试、所述待测评模型是否指定显卡、及所述待测评模型指定的显卡。

7、在一些实现方式中,所述根据所述配置信息生成所述待测评模型的测试接口,包括:根据所述配置信息和测试数据集确定所述待测评模型的n个测试任务,n为大于1的正整数;根据所述配置信息生成所述n个测试任务对应的n个测试接口;以及,所述使用所述测试接口对所述待测评模型进行m轮测试,得到所述待测评模型对应的m轮测试的平均测试结果,包括:使用所述n个测试接口分别对所述n个测试任务进行m轮测试,得到所述n个测试任务中的每个测试任务对应的m轮测试的平均测试结果。

8、本申请实施例中,根据配置信息和测试数据集确定待测评模型的多个测试任务,根据配置信息生成多个测试任务对应的多个测试接口,这样,可以将数据量较大的模型(如大模型)拆分为多个测试任务后分别进行测试,从而便于实现数据量较大的模型的测评。

9、在一些实现方式中,在所述根据所述配置信息生成所述待测评模型的测试接口之前,所述方法还包括:根据所述配置信息确定对所述待测评模型进行模型测试或接口测试;以及,所述使用所述测试接口对所述待测评模型进行m轮测试,包括:使用所述测试接口对所述待测评模型进行m轮模型测试或接口测试。

10、本申请实施例中,根据配置信息确定对待测评模型进行模型测试或接口测试,可以实现用户通过配置信息自主定制测试方式,从而可以提升用户体验。

11、在一些实现方式中,在所述根据所述配置信息生成所述待测评模型的测试接口之前,所述方法还包括:根据所述配置信息确定对所述n个测试任务进行并行测试或顺序测试;以及,所述使用所述n个测试接口分别对所述n个测试任务进行m轮测试,包括:使用所述n个测试接口并行地对所述n个测试任务进行m轮测试,或者,使用所述n个测试接口顺序地对所述n个测试任务进行m轮测试。

12、本申请实施例中,根据配置信息确定对多个测试任务进行并行测试或顺序测试,可以实现用户通过配置信息自主定制测试方式,从而可以提升用户体验。而且,对多个测试任务进行并行测试还可以缩短测试时间,从而能够提高测试效率。

13、在一些实现方式中,所述平均测试结果包括所述n个测试任务中的每个测试任务对应的m轮测试的平均精度和标准差,所述平均精度为所述m轮测试的精度的平均值,所述标准差为所述m轮测试的精度的标准差。

14、在一些实现方式中,所述方法还包括:根据所述测评结果确定所述待测评模型当前的损失缩放值。

15、在一些实现方式中,所述损失缩放值是根据所述待测评模型当前的测评结果与所述待测评模型之前的测评结果确定的。

16、第二方面,本申请实施例提供了一种测评模型的装置,包括:

17、获取单元,用于获取用户输入的配置信息,所述配置信息包括待测评模型所需的测试环境信息和/或测试需求信息;

18、生成单元,用于根据所述配置信息生成所述待测评模型的测试接口;

19、测试单元,使用所述测试接口对所述待测评模型进行m轮测试,得到所述待测评模型对应的m轮测试的平均测试结果,m为正整数;

20、确定单元,用于根据所述平均测试结果确定所述待测评模型的测评结果。

21、第三方面,本申请实施例提供了一种测评模型的装置,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的方法的步骤。

22、第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。

23、第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在测评设备上运行时,使得测评设备执行上述第一方面中任一项所述的方法。

24、可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。

25、本申请实施例与现有技术相比存在的有益效果是:

26、本申请实施例中,配置信息包括待测评模型所需的测试环境信息和/或测试需求信息,根据配置信息生成待测评模型的测试接口,而无需用户编写测试接口,可以提高模型测评的便捷性,从而可以提升用户体验。

27、同时,对待测评模型进行多轮测试,并基于多轮测试的平均测试结果确定待测评模型的测评结果,可以通过统计的方式更加客观的反映待测评模型的性能,从而可以提高测评结果的准确率。

本文档来自技高网...

【技术保护点】

1.一种测评模型的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述配置信息用于指示以下至少一项:

3.根据权利要求1或2所述的方法,其特征在于,所述根据所述配置信息生成所述待测评模型的测试接口,包括:

4.根据权利要求1或2所述的方法,其特征在于,在所述根据所述配置信息生成所述待测评模型的测试接口之前,所述方法还包括:

5.根据权利要求3所述的方法,其特征在于,在所述根据所述配置信息生成所述待测评模型的测试接口之前,所述方法还包括:

6.根据权利要求3所述的方法,其特征在于,所述平均测试结果包括所述n个测试任务中的每个测试任务对应的m轮测试的平均精度和标准差,所述平均精度为所述m轮测试的精度的平均值,所述标准差为所述m轮测试的精度的标准差。

7.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:

8.根据权利要求7所述的方法,其特征在于,所述损失缩放值是根据所述待测评模型当前的测评结果与所述待测评模型之前的测评结果确定的。

9.一种测评模型的装置,其特征在于,包括:

10.一种测评模型的装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的方法。

...

【技术特征摘要】

1.一种测评模型的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述配置信息用于指示以下至少一项:

3.根据权利要求1或2所述的方法,其特征在于,所述根据所述配置信息生成所述待测评模型的测试接口,包括:

4.根据权利要求1或2所述的方法,其特征在于,在所述根据所述配置信息生成所述待测评模型的测试接口之前,所述方法还包括:

5.根据权利要求3所述的方法,其特征在于,在所述根据所述配置信息生成所述待测评模型的测试接口之前,所述方法还包括:

6.根据权利要求3所述的方法,其特征在于,所述平均测试结果包括所述n个测试任务中...

【专利技术属性】
技术研发人员:常鑫杨东泉余晓填肖嵘
申请(专利权)人:深圳云天励飞技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1