System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 模型验证方法、装置、计算机设备以及存储介质制造方法及图纸_技高网

模型验证方法、装置、计算机设备以及存储介质制造方法及图纸

技术编号:42670076 阅读:3 留言:0更新日期:2024-09-10 12:24
本发明专利技术涉及计算机技术领域,公开了模型验证方法、装置、计算机设备以及存储介质,其中,模型验证方法包括:获取待验证的语言模型的验证模型,其中,验证模型用于演示语言模型中目标层级的运算结果;基于验证模型,对目标层级中的目标权重进行拆分操作,并根据拆分结果对输入数据进行运算,得到待验证运算结果;获取预期运算结果,并基于预期运算结果验证待验证运算结果,得到语言模型的验证结果,其中,预期计算结果为语言模型中目标层级对输入数据进行运算的运算结果。本发明专利技术无需对完整的语言模型进行验证,以提高针对大语言模型的验证效率,同时提高了本发明专利技术的适用范围。

【技术实现步骤摘要】

本专利技术涉及计算机,具体涉及模型验证方法、装置、计算机设备以及存储介质


技术介绍

1、随着深度学习(deep learning,dl)模型的发展,模型权重不断增大,单个节点面临的挑战也越来越大,对于一些大语言模型出现了模型大小超过单节点可用内存的问题。为了解决这个问题,多种分布式策略应运而生,例如,通过张量拆分的方式对模型中的权重进行拆分,拆分后的权重张量可以在多个节点上并行计算。

2、在采用张量拆分的方式进行计算时,需要对权重张量并行计算结果的正确性进行验证。然而,在相关的语言模型的权重张量拆分后的计算结果验证方案中,通常直接对张量并行计算结果正确性进行验证,这对于成熟的底层实现可完全满足需求,但对于开发中的底层实现往往难以直接验证,也无法在定位计算结果的问题所在。


技术实现思路

1、有鉴于此,本专利技术提供了模型验证方法、装置、计算机设备以及存储介质,以解决对于开发中的底层实现难以直接对张量并行计算结果正确性进行验证的问题。

2、第一方面,本专利技术提供了一种模型验证方法,该方法包括:

3、获取待验证的语言模型的验证模型,其中,验证模型用于演示语言模型中目标层级的运算结果;

4、基于验证模型,对目标层级中的目标权重进行拆分操作,并根据拆分结果对输入数据进行运算,得到待验证运算结果;

5、获取预期运算结果,并基于预期运算结果验证待验证运算结果,得到语言模型的验证结果,其中,预期计算结果为语言模型中目标层级对输入数据进行运算的运算结果。

6、在一种可选的实施方式中,预期运算结果包括第一结果向量,待验证运算结果包括第二结果向量;

7、基于预期运算结果验证待验证运算结果,得到语言模型的验证结果,包括:

8、计算第一结果向量与第二结果向量的差值;

9、基于差值的平方与第一结果的比值,确定语言模型对应的测试精度;

10、获取精度阈值,并确定测试精度是否超出精度阈值;

11、若否,则确定验证结果为拆分结果满足对语言模型的精度需求,以对语言模型中的目标层级进行拆分操作;

12、若是,则确定验证结果为拆分结果不满足对语言模型的精度需求,以调整拆分操作,并基于调整后的拆分操作拆分验证模型中的目标权重,直至验证模型对应的测试精度不超出精度阈值。

13、在本专利技术实施例中,可以基于验证结果对应的测试精度与预设的精度阈值的对比结果确定针对目标权重的拆分操作事发后满足对语言模型的精度需求,以提高针对大语言模型中权重拆分结果的正确性验证效率,同时为大语言模型中采用分布式策略对目标权重进行拆分提供了坚实的基础,可以有效提高针对大语言模型的开发效率。

14、在一种可选的实施方式中,获取预期运算结果,包括:

15、基于预设语言,搭建语言模型的深度学习dl框架;

16、将输入数据输入至dl框架,以获取dl框架的输出结果;

17、根据输出结果确定预期运算结果。

18、在本专利技术实施例中,可以搭建语言模型的dl框架,并根据该dl框架的输出结果确定预期运算结果,其中,该预期运算结果即未对语言模型进行权重拆分的输出结果,从而为基于该预期运算结果验证上述待验证运算结果提供了技术基础。

19、在一种可选的实施方式中,目标权重包括:第一权重与第二权重,其中,第一权重为目标层级种各个通道对应的权重,第二权重为用于对各个通道的输出进行加权计算时的权重;

20、基于验证模型,对目标层级中的目标权重进行拆分操作,包括:

21、基于验证模型,按照第一预设方向,对第一权重进行拆分,得到第一子权重;

22、基于验证模型,按照第二预设方向,对第二权重进行拆分,得到第二子权重,其中,第一预设方向与第二预设方向对应的拆分方向不同。

23、在本专利技术实施例中,考虑到语言模型计算以及结构层面的特点,在验证模型中可以设置分别按照不同的预设拆分方向对第一权重与第二权重进行拆分,从而保证验证模型最终输出的运算结果的准确性。

24、在一种可选的实施方式中,第一权重包括查询向量权重、键向量权重与值向量权重,其中,查询向量权重用于指示获取到的查询关键词的向量,键向量权重用于指示与查询关键词对应的匹配标签的向量,值向量权重用于指示匹配标签对应的查询结果的向量。

25、在本专利技术实施例中,考虑到语言模型计算以及结构层面的特点,在验证模型中可以设置分别按照不同的预设拆分方向对第一权重与第二权重进行拆分,从而保证验证模型最终输出的运算结果的准确性。

26、在一种可选的实施方式中,拆分结果包括第一子权重与第二子权重;

27、根据拆分结果对输入数据进行运算,得到待验证运算结果,包括:

28、将第一子权重分别分配至各自通道对应的第一运算节点,以并行运算输入数据与第一子权重的待加权运算结果;

29、基于第二子权重并行运算待加权运算结果,得到待验证运算结果。

30、在本专利技术实施例中,可以采用分布式策略对目标权重进行拆分,具体的,可以为目标层级分配多个计算节点,在对其中的目标权重进行拆分得到子权重后,可以将各个子权重分配到对应的节点上进行并行运算,从而提高模型目标层级的运算速度,进而提高语言模型的整体运算速度。

31、在一种可选的实施方式中,上述方法还包括:

32、将待加权运算结果与待验证运算结果保存为预设格式文件;

33、在基于验证结果确定出拆分结果不满足对语言模型的精度需求时,分析预设格式文件,得到分析报告,以基于分析报告调整拆分操作。

34、在本专利技术实施例中,在通过上述验证模型输出待验证运算结果的过程中,可以将任意环节的输入输出结果保存为bin文件,从而便于打印出权要拆分后的分布计算结果,对于后端计算执行阶段的计算结果正确性的验证可以提供参考结果。

35、第二方面,本专利技术提供了一种模型验证装置,该装置包括:

36、获取模块,用于获取待验证的语言模型的验证模型,其中,验证模型用于演示语言模型中目标层级的运算结果;

37、运算模块,用于基于验证模型,对目标层级中的目标权重进行拆分操作,并根据拆分结果对输入数据进行运算,得到待验证运算结果;

38、验证模块,用于获取预期运算结果,并基于预期运算结果验证待验证运算结果,得到语言模型的验证结果,其中,预期计算结果为语言模型中目标层级对输入数据进行运算的运算结果。

39、第三方面,本专利技术提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的模型验证方法。

40、第四方面,本专利技术提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一本文档来自技高网...

【技术保护点】

1.一种模型验证方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述预期运算结果包括第一结果向量,所述待验证运算结果包括第二结果向量;

3.根据权利要求1所述的方法,其特征在于,所述获取预期运算结果,包括:

4.根据权利要求1所述的方法,其特征在于,所述目标权重包括:第一权重与第二权重,其中,所述第一权重为所述目标层级种各个通道对应的权重,所述第二权重为用于对所述各个通道的输出进行加权计算时的权重;

5.根据权利要求4所述的方法,其特征在于,所述第一权重包括查询向量权重、键向量权重与值向量权重,其中,所述查询向量权重用于指示获取到的查询关键词的向量,所述键向量权重用于指示与所述查询关键词对应的匹配标签的向量,所述值向量权重用于指示所述匹配标签对应的查询结果的向量。

6.根据权利要求4所述的方法,其特征在于,所述拆分结果包括所述第一子权重与所述第二子权重;

7.根据权利要求6所述的方法,其特征在于,所述方法还包括:

8.一种模型验证装置,其特征在于,所述装置包括:

9.一种计算机设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至7中任一项所述的模型验证方法。

...

【技术特征摘要】

1.一种模型验证方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述预期运算结果包括第一结果向量,所述待验证运算结果包括第二结果向量;

3.根据权利要求1所述的方法,其特征在于,所述获取预期运算结果,包括:

4.根据权利要求1所述的方法,其特征在于,所述目标权重包括:第一权重与第二权重,其中,所述第一权重为所述目标层级种各个通道对应的权重,所述第二权重为用于对所述各个通道的输出进行加权计算时的权重;

5.根据权利要求4所述的方法,其特征在于,所述第一权重包括查询向量权重、键向量权重与值向量权重,其中,所述查询向量权重用于指...

【专利技术属性】
技术研发人员:段艳云
申请(专利权)人:苏州元脑智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1