System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于在线结构剪枝的文本推理方法以及相关设备技术_技高网
当前位置: 首页 > 专利查询>鹏城实验室专利>正文

基于在线结构剪枝的文本推理方法以及相关设备技术

技术编号:44668037 阅读:1 留言:0更新日期:2025-03-19 20:24
本申请提供了一种基于在线结构剪枝的文本推理方法以及相关设备,方法包括:在接收到文本推理任务时,获取未进行剪枝的文本推理模型,以及获取文本推理模型中多个解码层基于目标结构化剪枝算法进行剪枝时生成的掩模信息和算法参数信息;针对文本推理模型中的每个解码层,分别根据对应的掩模信息对解码层进行权重掩模处理,以及根据对应的算法参数信息对解码层进行输出补偿处理,得到目标剪枝模型;通过目标剪枝模型执行文本推理任务,得到文本推理结果,其中,本申请可以在推理时基于掩模信息和算法参数信息在线生成结构化剪枝的目标剪枝模型,无需保存结构化剪枝后的模型,能够有效降低文本推理方法的存储开销。

【技术实现步骤摘要】

本申请实施例涉及模型剪枝,尤其是一种基于在线结构剪枝的文本推理方法以及相关设备


技术介绍

1、当前,在基于大语言模型进行文本推理的过程中,可以通过剪枝算法将大语言模型中部分不重要的参数剪去,以减少模型的参数量,从而达到加速推理过程,节省能耗的目的。

2、剪枝算法可以划分为非结构化剪枝算法和结构化剪枝算法,其中,在应用非结构化剪枝算法时,可以先对大语言模型进行剪枝,得到并保存剪枝后的模型,并在接收到文本推理任务时再载入剪枝后的模型进行推理;但是在应用结构化剪枝算法时,由于结构化剪枝算法并不能保证大语言模型中不同的解码层采用相同的剪枝模式,故在结构化剪枝后,大语言模型中不同解码层的剪枝配置会存在不同,导致无法通过保存统一配置来载入结构化剪枝后的模型,而保存结构化剪枝后的模型会占用大量的存储空间,提高了文本推理方法的存储开销。


技术实现思路

1、本申请实施例提供一种基于在线结构剪枝的文本推理方法以及相关设备,可以在推理时基于掩模信息和算法参数信息在线生成结构化剪枝的目标剪枝模型,并使用目标剪枝模型得到文本推理结果,无需保存结构化剪枝后的模型,能够有效降低文本推理方法的存储开销。

2、为实现上述目的,本申请实施例的第一方面提供了一种基于在线结构剪枝的文本推理方法,包括:在接收到文本推理任务时,获取未进行剪枝的文本推理模型,以及获取所述文本推理模型中多个解码层基于目标结构化剪枝算法进行剪枝时生成的掩模信息和算法参数信息;针对所述文本推理模型中的每个所述解码层,分别根据对应的所述掩模信息对所述解码层进行权重掩模处理,以及根据对应的所述算法参数信息对所述解码层进行输出补偿处理,得到目标剪枝模型;通过所述目标剪枝模型执行所述文本推理任务,得到文本推理结果。

3、在一些实施例中,在接收到所述文本推理任务之前,所述方法还包括:获取预设的文本推理模型,以及获取预设的目标结构化剪枝算法;基于所述目标结构化剪枝算法,对所述文本推理模型中的每个解码层进行剪枝处理,以在所述剪枝处理的过程中得到并保存每个所述解码层生成的掩模信息和算法参数信息。

4、在一些实施例中,所述目标结构化剪枝算法为基于波动的自适应剪枝算法,所述解码层均包括注意力模块和多层感知机模块,所述掩模信息包括所述注意力模块的第一掩模矩阵和所述多层感知机模块的第二掩模矩阵,所述算法参数信息包括所述注意力模块的第一输入均值和所述多层感知机模块的第二输入均值。

5、在一些实施例中,所述分别根据对应的所述掩模信息对所述解码层进行权重掩模处理,以及根据对应的所述算法参数信息对所述解码层进行输出补偿处理,得到目标剪枝模型,包括:分别根据对应的所述掩模信息对所述解码层进行权重掩模处理,以及根据对应的所述算法参数信息对所述解码层进行输出补偿处理,得到剪枝后的解码层;根据多个所述剪枝后的解码层,得到目标剪枝模型。

6、在一些实施例中,所述分别根据对应的所述掩模信息对所述解码层进行权重掩模处理,以及根据对应的所述算法参数信息对所述解码层进行输出补偿处理,得到剪枝后的解码层,包括:根据所述第一掩模矩阵对所述注意力模块进行第一权重掩模处理,以及根据所述第一输入均值对所述注意力模块进行第一输出补偿处理,得到剪枝后的注意力模块;根据所述第二掩模矩阵对所述多层感知机模块进行第二权重掩模处理,以及根据所述第二输入均值对所述多层感知机模块进行第二输出补偿处理,得到剪枝后的多层感知机模块;根据所述剪枝后的注意力模块和所述剪枝后的多层感知机模块得到剪枝后的解码层。

7、在一些实施例中,所述根据所述第一掩模矩阵对所述注意力模块进行第一权重掩模处理,以及根据所述第一输入均值对所述注意力模块进行第一输出补偿处理,得到剪枝后的注意力模块,包括:将所述第一掩模矩阵与所述注意力模块中的注意力权重矩阵逐元素相乘,得到第一权重掩模矩阵;基于所述第一输入均值和所述第一权重掩模矩阵计算第一输出补偿值;根据所述第一输出补偿值和所述注意力权重矩阵对所述注意力模块进行注意力参数调整,得到剪枝后的注意力模块。

8、在一些实施例中,所述根据所述第二掩模矩阵对所述多层感知机模块进行第二权重掩模处理,以及根据所述第二输入均值对所述多层感知机模块进行第二输出补偿处理,得到剪枝后的多层感知机模块,包括:将所述第二掩模矩阵与所述多层感知机模块中的感知机权重矩阵逐元素相乘,得到第二权重掩模矩阵;基于所述第二输入均值和所述第二权重掩模矩阵计算第二输出补偿值;根据所述第二输出补偿值和所述感知机权重矩阵对所述多层感知机模块进行感知参数调整,得到剪枝后的多层感知机模块。

9、在一些实施例中,所述得到剪枝后的解码层之后,所述方法还包括:确定所述剪枝后的解码层在所述权重掩模处理以及所述输出补偿处理的过程中生成的缓存数据,并对所述缓存数据进行数据清除处理。

10、在一些实施例中,所述通过所述目标剪枝模型执行所述文本推理任务,得到文本推理结果,包括:获取所述文本推理任务对应的提示文本;将所述提示文本输入至所述目标剪枝模型,以使所述目标剪枝模型基于所述提示文本执行所述文本推理任务,得到对应的文本推理结果。

11、为实现上述目的,本申请实施例的第二方面提供了一种基于在线结构剪枝的文本推理装置,包括:信息获取模块,用于在接收到文本推理任务时,获取未进行剪枝的文本推理模型,以及获取所述文本推理模型中多个解码层基于目标结构化剪枝算法进行剪枝时生成的掩模信息和算法参数信息;在线剪枝模块,用于针对所述文本推理模型中的每个所述解码层,分别根据对应的所述掩模信息对所述解码层进行权重掩模处理,以及根据对应的所述算法参数信息对所述解码层进行输出补偿处理,得到目标剪枝模型;模型推理模块,用于通过所述目标剪枝模型执行所述文本推理任务,得到文本推理结果。

12、为实现上述目的,本申请实施例的第三方面提供了一种电子设备,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当至少一个所述程序被至少一个所述处理器执行时实现如第一方面中任意一项所述的基于在线结构剪枝的文本推理方法。

13、为实现上述目的,本申请实施例的第四方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如第一方面中任意一项所述的基于在线结构剪枝的文本推理方法。

14、本申请提出的一种基于在线结构剪枝的文本推理方法以及相关设备,能够在推理时基于掩模信息和算法参数信息在线生成结构化剪枝的目标剪枝模型,并使用该模型进行推理,该方法无需对结构化剪枝后的模型进行保存,从而有效降低了文本推理方法的存储开销;具体的,传统的结构化剪枝方法在剪枝后,由于不同解码层可能有不同的剪枝配置,不同的剪枝配置即不同的掩模矩阵,这导致每个解码层都需要单独保存其剪枝后的状态,故需要保存剪枝后的整个模型,占用了大量的存储空间;而在本申请中,通过在接收到文本推理任务时,首先获取未进行剪枝的原始文本推理模型,并获取该模型中多个解码层基于目标结构化剪枝算法进行剪枝时本文档来自技高网...

【技术保护点】

1.一种基于在线结构剪枝的文本推理方法,其特征在于,包括:

2.根据权利要求1所述的基于在线结构剪枝的文本推理方法,其特征在于,在接收到所述文本推理任务之前,所述方法还包括:

3.根据权利要求1或者2所述的基于在线结构剪枝的文本推理方法,其特征在于,所述目标结构化剪枝算法为基于波动的自适应剪枝算法,所述解码层均包括注意力模块和多层感知机模块,所述掩模信息包括所述注意力模块的第一掩模矩阵和所述多层感知机模块的第二掩模矩阵,所述算法参数信息包括所述注意力模块的第一输入均值和所述多层感知机模块的第二输入均值。

4.根据权利要求3所述的基于在线结构剪枝的文本推理方法,其特征在于,所述分别根据对应的所述掩模信息对所述解码层进行权重掩模处理,以及根据对应的所述算法参数信息对所述解码层进行输出补偿处理,得到目标剪枝模型,包括:

5.根据权利要求4所述的基于在线结构剪枝的文本推理方法,其特征在于,所述分别根据对应的所述掩模信息对所述解码层进行权重掩模处理,以及根据对应的所述算法参数信息对所述解码层进行输出补偿处理,得到剪枝后的解码层,包括:

6.根据权利要求5所述的基于在线结构剪枝的文本推理方法,其特征在于,所述根据所述第一掩模矩阵对所述注意力模块进行第一权重掩模处理,以及根据所述第一输入均值对所述注意力模块进行第一输出补偿处理,得到剪枝后的注意力模块,包括:

7.根据权利要求5所述的基于在线结构剪枝的文本推理方法,其特征在于,所述根据所述第二掩模矩阵对所述多层感知机模块进行第二权重掩模处理,以及根据所述第二输入均值对所述多层感知机模块进行第二输出补偿处理,得到剪枝后的多层感知机模块,包括:

8.根据权利要求4所述的基于在线结构剪枝的文本推理方法,其特征在于,所述得到剪枝后的解码层之后,所述方法还包括:

9.根据权利要求1所述的基于在线结构剪枝的文本推理方法,其特征在于,所述通过所述目标剪枝模型执行所述文本推理任务,得到文本推理结果,包括:

10.一种基于在线结构剪枝的文本推理装置,其特征在于,包括:

11.一种电子设备,其特征在于,包括:

12.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令用于执行如权利要求1至9任意一项所述的基于在线结构剪枝的文本推理方法。

...

【技术特征摘要】

1.一种基于在线结构剪枝的文本推理方法,其特征在于,包括:

2.根据权利要求1所述的基于在线结构剪枝的文本推理方法,其特征在于,在接收到所述文本推理任务之前,所述方法还包括:

3.根据权利要求1或者2所述的基于在线结构剪枝的文本推理方法,其特征在于,所述目标结构化剪枝算法为基于波动的自适应剪枝算法,所述解码层均包括注意力模块和多层感知机模块,所述掩模信息包括所述注意力模块的第一掩模矩阵和所述多层感知机模块的第二掩模矩阵,所述算法参数信息包括所述注意力模块的第一输入均值和所述多层感知机模块的第二输入均值。

4.根据权利要求3所述的基于在线结构剪枝的文本推理方法,其特征在于,所述分别根据对应的所述掩模信息对所述解码层进行权重掩模处理,以及根据对应的所述算法参数信息对所述解码层进行输出补偿处理,得到目标剪枝模型,包括:

5.根据权利要求4所述的基于在线结构剪枝的文本推理方法,其特征在于,所述分别根据对应的所述掩模信息对所述解码层进行权重掩模处理,以及根据对应的所述算法参数信息对所述解码层进行输出补偿处理,得到剪枝后的解码层,包括:

6.根据权利要求5所述...

【专利技术属性】
技术研发人员:吴泽斌田永鸿
申请(专利权)人:鹏城实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1