System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 语言模型检测方法、装置、计算机设备、可读存储介质和程序产品制造方法及图纸_技高网

语言模型检测方法、装置、计算机设备、可读存储介质和程序产品制造方法及图纸

技术编号:42665558 阅读:1 留言:0更新日期:2024-09-10 12:21
本申请涉及一种语言模型检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,涉及人工智能技术领域,能够提升金融业务场景下语言模型检测结果准确性和可靠性。所述方法包括:获取与目标金融业务场景相关的多种题型的测试题;将测试题输入待检测的语言模型,得到语言模型针对测试题输出的答题信息;获取每种题型的综合检测策略和综合检测策略涉及的各个检测指标;针对每种题型的所述测试题,根据测试题的答题信息确定各个检测指标的第一检测结果,并根据各个第一检测结果和题型的综合检测策略,确定语言模型在处理题型的测试题时的第二检测结果;根据多种题型对应的第二检测结果,获取语言模型在目标金融业务场景下的模型检测结果。

【技术实现步骤摘要】

本申请涉及人工智能,特别是涉及一种语言模型检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。


技术介绍

1、随着计算机技术的发展,人工智能模型已得到广泛应用。语言模型在完成训练后,往往需要对模型训练效果进行检测,进而根据检测结果来进一步优化。

2、在相关技术中,主要是使用向公众开放的评测集对语言模型进行测试。具体而言,评测集中以选择题为主,检测时只需要完成简单的匹配工作,即可知道语言模型输出的答案是否准确,得到检测结果。

3、然而,专利技术人在实践过程中发现,当需要检测语言模型面对不同金融业务场景的训练效果时,上述方法难以获取到准确的检测结果。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种能够提升金融业务场景下语言模型检测结果准确性和可靠性的语言模型检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面,本申请提供了一种语言模型检测方法,包括:

3、获取与目标金融业务场景相关的多种题型的测试题;

4、将所述测试题输入待检测的语言模型,得到所述语言模型针对所述测试题输出的答题信息;

5、获取每种所述题型的综合检测策略和所述综合检测策略涉及的各个检测指标;

6、针对每种所述题型的所述测试题,根据所述测试题的所述答题信息确定各个所述检测指标的第一检测结果,并根据各个所述第一检测结果和所述题型的所述综合检测策略,确定所述语言模型在处理所述题型的所述测试题时的第二检测结果;

7、根据多种所述题型对应的所述第二检测结果,获取所述语言模型在所述目标金融业务场景下的模型检测结果。

8、在其中一个实施例中,所述针对每种所述题型的所述测试题,根据所述测试题的所述答题信息确定各个所述检测指标的第一检测结果,并根据各个所述第一检测结果和所述题型的所述综合检测策略,确定所述语言模型在处理所述题型的所述测试题时的第二检测结果,包括:

9、若所述题型为第一类型,则根据所述测试题的所述答题信息确定各个所述检测指标中的匹配度检测指标的所述第一检测结果,并在所述第一检测结果满足阈值条件时,根据所述第一类型的所述综合检测策略确定所述语言模型在处理所述第一类型的所述测试题时的第二检测结果;

10、若所述题型为第二类型,则根据包含有效答题内容的所述答题信息确定各个所述检测指标中的多能力维度检测指标的所述第一检测结果,根据多能力维度检测指标的所述第一检测结果和所述第二类型的所述综合检测策略,确定所述语言模型在处理所述第二类型的所述测试题时的第二检测结果;所述多能力维度检测指标包括模型基础能力维度的检测指标、金融领域知识理解能力维度的检测指标、目标金融业务场景的场景任务处理能力维度的检测指标中的至少两个。

11、在其中一个实施例中,在所述根据包含有效答题内容的所述答题信息确定各个所述检测指标中的多能力维度检测指标的所述第一检测结果的步骤之前,还包括:

12、将所述测试题的所述答题信息输入到经训练的语义理解模型,得到所述语义理解模型输出的语义理解结果;

13、若所述语义理解结果与所述测试题的标准答题信息的匹配度达到匹配度阈值,则确定所述测试题的所述答题信息包含所述有效答题内容。

14、在其中一个实施例中,所述根据多能力维度检测指标的所述第一检测结果和所述第二类型的所述综合检测策略,确定所述语言模型在处理所述第二类型的所述测试题时的第二检测结果,包括:

15、根据所述第二类型的所述综合检测策略,确定所述多能力维度检测指标的达标阈值;

16、针对所述多能力维度检测指标中的每个能力维度的检测指标,将所述第一检测结果与所述达标阈值进行比较,得到每个所述能力维度的检测指标的比较结果;

17、根据每个所述能力维度的检测指标的所述比较结果,确定所述语言模型在处理所述第二类型的所述测试题时的所述第二检测结果。

18、在其中一个实施例中,所述获取与目标金融业务场景相关的多种题型的测试题,包括:

19、获取与所述目标金融业务场景相关的金融业务数据;

20、确定每种所述题型对应的测试题构建模板,确定用于引导生成所述题型的所述测试题内容的引导信息;

21、将所述金融业务数据,以及多种所述题型的所述引导信息和所述测试题构建模板输入到测试题生成模型,得到所述测试题生成模型输出的多种所述题型的所述测试题。

22、在其中一个实施例中,获取所述综合检测策略涉及的各个检测指标,包括:

23、确定表征所述答题信息与标准答题信息匹配度的匹配度检测指标,确定模型基础能力维度的检测指标、金融领域知识理解能力维度的检测指标和目标金融业务场景的场景任务处理能力维度的检测指标;

24、根据所述匹配度检测指标、所述模型基础能力维度的检测指标、所述金融领域知识理解能力维度的检测指标以及所述目标金融业务场景的场景任务处理能力维度的检测指标,得到所述综合检测策略涉及的各个所述检测指标。

25、在其中一个实施例中,所述根据多种所述题型对应的所述第二检测结果,获取所述语言模型在所述目标金融业务场景下的模型检测结果,包括:

26、根据各个所述检测指标中的多个目标检测指标的所述第一检测结果,获取针对各个所述目标检测指标的报告项的报告信息;

27、根据多种所述题型对应的所述第二检测结果和所述报告信息,得到所述语言模型在所述目标金融业务场景下的模型检测结果。

28、第二方面,本申请还提供了一种语言模型检测装置,包括:

29、测试题获取模块,用于获取与目标金融业务场景相关的多种题型的测试题;

30、答题模块,用于将所述测试题输入待检测的语言模型,得到所述语言模型针对所述测试题输出的答题信息;

31、策略获取模块,用于获取每种所述题型的综合检测策略和所述综合检测策略涉及的各个检测指标;

32、指标处理模块,用于针对每种所述题型的所述测试题,根据所述测试题的所述答题信息确定各个所述检测指标的第一检测结果,并根据各个所述第一检测结果和所述题型的所述综合检测策略,确定所述语言模型在处理所述题型的所述测试题时的第二检测结果;

33、检测结果获取模块,用于根据多种所述题型对应的所述第二检测结果,获取所述语言模型在所述目标金融业务场景下的模型检测结果。

34、第三方面,本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

35、获取与目标金融业务场景相关的多种题型的测试题;

36、将所述测试题输入待检测的语言模型,得到所述语言模型针对所述测试题输出的答题信息;

37、获取每种所述题型的综合检测策略和所述综合检测策略涉及的各个检测指标;

38、针对每种所述题型的所述测本文档来自技高网...

【技术保护点】

1.一种语言模型检测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述针对每种所述题型的所述测试题,根据所述测试题的所述答题信息确定各个所述检测指标的第一检测结果,并根据各个所述第一检测结果和所述题型的所述综合检测策略,确定所述语言模型在处理所述题型的所述测试题时的第二检测结果,包括:

3.根据权利要求2所述的方法,其特征在于,在所述根据包含有效答题内容的所述答题信息确定各个所述检测指标中的多能力维度检测指标的所述第一检测结果的步骤之前,还包括:

4.根据权利要求2所述的方法,其特征在于,所述根据多能力维度检测指标的所述第一检测结果和所述第二类型的所述综合检测策略,确定所述语言模型在处理所述第二类型的所述测试题时的第二检测结果,包括:

5.根据权利要求1所述的方法,其特征在于,所述获取与目标金融业务场景相关的多种题型的测试题,包括:

6.根据权利要求1至5中任一项所述的方法,其特征在于,获取所述综合检测策略涉及的各个检测指标,包括:

7.根据权利要求1至5中任一项所述的方法,其特征在于,所述根据多种所述题型对应的所述第二检测结果,获取所述语言模型在所述目标金融业务场景下的模型检测结果,包括:

8.一种语言模型检测装置,其特征在于,所述装置包括:

9.根据权利要求8所述的装置,其特征在于,所述指标处理模块,用于:

10.根据权利要求9所述的装置,其特征在于,所述指标处理模块,还用于:

11.根据权利要求9所述的装置,其特征在于,所述指标处理模块,用于:

12.根据权利要求8所述的装置,其特征在于,所述测试题获取模块,用于:

13.根据权利要求8至12中任一项所述的装置,其特征在于,所述策略获取模块,用于:

14.根据权利要求8至12中任一项所述的装置,其特征在于,所述检测结果获取模块,用于:

15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

17.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种语言模型检测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述针对每种所述题型的所述测试题,根据所述测试题的所述答题信息确定各个所述检测指标的第一检测结果,并根据各个所述第一检测结果和所述题型的所述综合检测策略,确定所述语言模型在处理所述题型的所述测试题时的第二检测结果,包括:

3.根据权利要求2所述的方法,其特征在于,在所述根据包含有效答题内容的所述答题信息确定各个所述检测指标中的多能力维度检测指标的所述第一检测结果的步骤之前,还包括:

4.根据权利要求2所述的方法,其特征在于,所述根据多能力维度检测指标的所述第一检测结果和所述第二类型的所述综合检测策略,确定所述语言模型在处理所述第二类型的所述测试题时的第二检测结果,包括:

5.根据权利要求1所述的方法,其特征在于,所述获取与目标金融业务场景相关的多种题型的测试题,包括:

6.根据权利要求1至5中任一项所述的方法,其特征在于,获取所述综合检测策略涉及的各个检测指标,包括:

7.根据权利要求1至5中任一项所述的方法,其特征在于,所述根据多种所述题型对应的所述第二检测结果,获取所述语言模型在所述目标金融业务...

【专利技术属性】
技术研发人员:钟伊妮林廷懋
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1