System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及人工智能,尤其涉及一种模型测评方法、设备、存储介质及程序产品。
技术介绍
1、随着人工智能(artificial intelligence,ai)技术的迅速发展,ai技术越来越多地被应用于各种复杂的决策任务中。例如,在教育、考试测评、公共事务以及法律等多个行业中,可基于ai技术对大量题目和答案进行学习,训练得到能够对指定题目进行回答的ai模型,例如问答模型、专家模型、客服模型等。
2、为提升ai模型在题目回答任务上的性能,通常采用测评模型对该ai模型进行测评。一种常用的测评方法是,获取ai模型在大量测评题目上输出的答复结果,并将测评题目和答复结果组装成提示词,以对话问答的形式调用测评模型。测评模型可根据提示词执行测评任务,并输出测评结果。通常,测评模型是具有较多参数的高性能模型,在大量测评题目上调用测评模型时,往往耗费较多的资源。因此,有待提出一种新的解决方案。
技术实现思路
1、本申请的多个方面提供一种模型测评方法、设备、存储介质及程序产品,用以降低对ai模型进行测试所需的资源成本。
2、本申请实施例提供一种模型测评方法,包括:响应模型测评操作,获取目标模型针对目标题目输出的答复结果;获取所述目标题目对应的题目类型;调用多个测评模型中与所述题目类型适配的目标测评模型,对所述答复结果进行测评,得到所述目标模型在所述目标题目上的测评结果;所述多个测评模型中,不同测评模型对应不同的题目类型,不同测评模型的参数量不同。
3、可选地,调用多个测
4、可选地,调用第一测评模型对所述目标题目对应的答复结果进行测评,得到所述目标模型在所述目标题目上的测评结果,包括:调用所述第一测评模型,根据客观题对应的规则引擎,对所述目标题目对应的答复结果进行测评,得到所述目标模型在所述目标题目上的测评结果;所述规则引擎用于将所述答复结果和所述目标题目的参考答案进行匹配,并根据匹配结果和预定义的打分规则,计算所述答复结果的分数。
5、可选地,调用与所述目标题目的类型适配的目标测评模型,对所述答复结果进行测评,包括:若所述题目类型是主观题,则调用第二测评模型对所述目标题目对应的答复结果进行测评,所述第二测评模型是参数量大于设定的第二阈值的大语言模型。
6、可选地,调用第二测评模型对所述目标题目对应的答复结果进行测评,包括:根据所述题目类型、所述目标题目以及对应的答复结果,生成与所述题目类型适配的提示词;不同题目类型对应的提示词的结构和/或内容不同;调用所述第二测评模型,根据所述提示词对所述目标题目对应的答复结果进行测评。
7、可选地,根据所述题目类型、所述目标题目以及对应的答复结果,生成与所述题目类型适配的提示词,包括:若所述题目类型为知识问答类的主观题,则根据所述目标题目、所述答复结果、所述题目的参考答案以及评分规则,生成与所述知识问答类的主观题适配的提示词;若所述题目类型为内容创作类的主观题,则根据创作题目、所述目标模型针对所述创作题目输出的创作结果、创作要求以及打分规则,生成与所述内容创作类的主观题的提示词。
8、可选地,获取所述目标题目对应的题目类型,包括:根据所述目标题目的题型设置信息,获取所述目标题目对应的题目类型;或者,调用题型分类器,识别所述目标题目对应的题目类型,所述题型分类器是采用机器学习算法在题型训练集上训练得到的。
9、可选地,调用多个测评模型中与所述题目类型适配的目标测评模型,对所述答复结果进行测评之前,还包括:获取所述目标题目对应的答复结果与所述目标题目的匹配度;若所述匹配度大于设定的匹配度阈值,则调用所述多个测评模型中与所述题目类型适配的目标测评模型,对所述答复结果进行测评。
10、本申请实施例还提供一种电子设备,包括:存储器和处理器;所述存储器用于存储一条或多条计算机指令;所述处理器用于执行所述一条或多条计算机指令以用于:执行本申请实施例提供的方法中的步骤。
11、本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被处理器执行时能够实现本申请实施例提供的方法中的步骤。
12、本申请实施例还提供一种计算机程序产品,包括:计算机程序/指令,所述计算机程序/指令被处理器执行时能够实现本申请实施例提供的方法中的步骤。
13、本申请实施例中,在对目标模型进行测评的过程中,获取目标模型针对目标题目输出的答复结果后,可获取目标题目对应的题目类型,并调用多个测评模型中与该题目类型适配的目标测评模型对答复结果进行测评。在这种实施方式中,多个测评模型中,不同测评模型对应不同的题目类型,不同测评模型的参数量不同。基于此,实现了一种基于参数量不同的测评模型,对目标模型针对不同类型的题目输出的答复结果进行协同测评的方案,便于采用参数量级较低的测评模型对部分复杂度较低的题目的答复结果进行测评,有效降低资源消耗,并便于采用参数量较高的测评模型对部分复杂度较高的题目的答复结果进行测评,提升测评准确性,从而在一定程度上实现了准确率、成本以及时间效率的平衡。
本文档来自技高网...【技术保护点】
1.一种模型测评方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,调用多个测评模型中与所述题目类型适配的目标测评模型,对所述答复结果进行测评,包括:
3.根据权利要求2所述的方法,其特征在于,调用第一测评模型对所述目标题目对应的答复结果进行测评,得到所述目标模型在所述目标题目上的测评结果,包括:
4.根据权利要求1所述的方法,其特征在于,调用与所述目标题目的类型适配的目标测评模型,对所述答复结果进行测评,包括:
5.根据权利要求4所述的方法,其特征在于,调用第二测评模型对所述目标题目对应的答复结果进行测评,包括:
6.根据权利要求5所述的方法,其特征在于,根据所述题目类型、所述目标题目以及对应的答复结果,生成与所述题目类型适配的提示词,包括:
7.根据权利要求1-6任一项所述的方法,其特征在于,获取所述目标题目对应的题目类型,包括:
8.根据权利要求1-6任一项所述的方法,其特征在于,调用多个测评模型中与所述题目类型适配的目标测评模型,对所述答复结果进行测评之前,还包括:
...【技术特征摘要】
1.一种模型测评方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,调用多个测评模型中与所述题目类型适配的目标测评模型,对所述答复结果进行测评,包括:
3.根据权利要求2所述的方法,其特征在于,调用第一测评模型对所述目标题目对应的答复结果进行测评,得到所述目标模型在所述目标题目上的测评结果,包括:
4.根据权利要求1所述的方法,其特征在于,调用与所述目标题目的类型适配的目标测评模型,对所述答复结果进行测评,包括:
5.根据权利要求4所述的方法,其特征在于,调用第二测评模型对所述目标题目对应的答复结果进行测评,包括:
6.根据权利要求5所述的方法,其特征在于,根据所述题目类型、所述目标题目以及对应...
【专利技术属性】
技术研发人员:张黎,
申请(专利权)人:阿里云飞天杭州云计算技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。