System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术实施例涉及人工智能,尤其涉及一种混合专家模型的优化方法、装置、电子设备、存储介质及程序。
技术介绍
1、随着llms(large language model,大型语言模型,简称大模型)的不断发展,模型参数的规模和计算需求都有了显著的增长。目前新衍生的大模型的模型参数高达4000亿,与早期模型1.1亿参数相比,有了大幅增加。这种快速发展对于在现有的人工智能基础设施内部署这些llms提出了重大挑战,特别是考虑到硬件进步速度所施加的限制。
2、对于基于混合专家计算层(mixture-of-experts,moe)构建出来的全新的llm模型来说,由于其增强泛化能力和有效管理多模态任务的能力,已被广泛集成到新兴的大型语言模型中。这种架构创新对存储、带宽和计算资源提出了独特的需求。解决大型语言模型规模的增长和新型架构的问题对于它们在当代人工智能加速器上的有效部署至关重要。
3、专利技术人在实现本专利技术的过程中,发现针对上述提到的全新计算负载的挑战,目前前沿的工作主要基于非结构化稀疏计算技术进行性能优化与加速,但是非结构化稀疏计算技术在人工智能加速设备,例如gpu(graphics processing unit,图形处理器)上,缺乏硬件级指令支持,比如缺乏专用的稀疏数字算术单元(sparse alu)支持,因此并不能带来太大的性能提升。而目前硬件级的稀疏数字算术单元功能主要支持了均匀比例的结构化稀疏技术,对于双稀疏模式数据(也即,算子的左右操作数均为稀疏数据)的矩阵乘法算子没有实现,因此,直接使用现有的
技术实现思路
1、本专利技术实施例提供一种混合专家模型的优化方法、装置、电子设备、存储介质及程序,能够实现对混合专家模型的结构化稀疏优化,以充分发挥混合专家模型的稀疏计算硬件在计算稀疏矩阵乘法时的加速性能,进而大大优化稀疏矩阵乘法运算过程中的计算、带宽以及存储资源的开销。
2、根据本专利技术的一方面,提供了一种混合专家模型的优化方法,包括:
3、对目标混合专家模型的各项稀疏化的数据结构进行稀疏转换,得到结构化稀疏数据结构;
4、对所述结构化稀疏数据结构进行数据排布优化;
5、结合计算芯片的稀疏计算单元对所述目标混合专家模型的算子进行优化,得到稀疏算子;
6、根据所述稀疏算子对所述目标混合专家模型的原始算子进行更新,得到结构化稀疏的混合专家模型。
7、根据本专利技术的另一方面,提供了一种混合专家模型的优化装置,包括:
8、数据结构稀疏转换模块,用于对目标混合专家模型的各项稀疏化的数据结构进行稀疏转换,得到结构化稀疏数据结构;
9、结构化稀疏数据结构优化模块,用于对所述结构化稀疏数据结构进行数据排布优化;
10、稀疏算子优化模块,用于结合计算芯片的稀疏计算单元对所述目标混合专家模型的算子进行优化,得到稀疏算子;
11、稀疏算子更新模块,用于根据所述稀疏算子对所述目标混合专家模型的原始算子进行更新,得到结构化稀疏的混合专家模型。
12、根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括:
13、至少一个处理器;以及
14、与所述至少一个处理器通信连接的存储器;其中,
15、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的混合专家模型的优化方法。
16、根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的混合专家模型的优化方法。
17、根据本专利技术的另一方面,还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本专利技术任一实施例所述的混合专家模型的优化方法。
18、本专利技术实施例通过对目标混合专家模型的各项稀疏化的数据结构进行稀疏转换,得到结构化稀疏数据结构,并对结构化稀疏数据结构进行数据排布优化。进一步的,结合计算芯片的稀疏计算单元对目标混合专家模型的算子进行优化,得到稀疏算子,进而根据稀疏算子对目标混合专家模型的原始算子进行更新,得到结构化稀疏的混合专家模型。上述技术方案可以解决现有混合专家模型基于非结构化稀疏计算技术进行性能优化与加速时存在的性能难以有效提升的问题,能够实现对混合专家模型的结构化稀疏优化,以充分发挥混合专家模型的稀疏计算硬件在计算稀疏矩阵乘法时的加速性能,进而大大优化稀疏矩阵乘法运算过程中的计算、带宽以及存储资源的开销。
19、应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
本文档来自技高网...【技术保护点】
1.一种混合专家模型的优化方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述对目标混合专家模型的各项稀疏化的数据结构进行稀疏转换,得到结构化稀疏数据结构,包括:
3.根据权利要求2所述的方法,其特征在于,所述稀疏化的模型权重矩阵中具体包含多个M*V尺寸的压缩单元;
4.根据权利要求3所述的方法,其特征在于,所述生成与每个所述模型权重矩阵分别对应的压缩矩阵集合,包括:
5.根据权利要求4所述的方法,其特征在于,所述根据各压缩单元在所述当前模型权重矩阵中的位置,和各有效行在所属压缩单元中位置,对所述第二矩阵进行填充处理,得到与所述当前模型权重矩阵对应的索引矩阵,包括:
6.根据权利要求4所述的方法,其特征在于,所述根据各所述结构化稀疏计算存储单元在所述当前模型权重矩阵中的位置,和各非0数据在所属结构化稀疏计算存储单元中的位置,对所述第三矩阵进行填充处理,得到与所述当前模型权重矩阵对应的元数据矩阵,包括:
7.根据权利要求2-6任一所述的方法,其特征在于,在所述将所述目标混合专家模型中各项稀疏
8.根据权利要求7所述的方法,其特征在于,在所述将所述目标混合专家模型中各项稀疏化的模型权重矩阵,分别存储为匹配的压缩矩阵集合之后,还包括:
9.根据权利要求8所述的方法,其特征在于,在调用所述计算芯片上的各所述稀疏算子,基于存储优化后的目标混合专家模型实施匹配的稀疏计算之前,还包括:
10.根据权利要求1所述的方法,其特征在于,所述对所述结构化稀疏数据结构进行数据排布优化,包括:
11.根据权利要求3所述的方法,其特征在于,所述稀疏算子包括第一稀疏算子,所述结合计算芯片的稀疏计算单元对所述目标混合专家模型的算子进行优化,得到稀疏算子,包括:
12.根据权利要求3所述的方法,其特征在于,所述稀疏算子包括第二稀疏算子,所述结合计算芯片的稀疏计算单元对所述目标混合专家模型的算子进行优化,得到稀疏算子,包括:
13.根据权利要求3所述的方法,其特征在于,所述稀疏算子包括第三稀疏算子,所述结合计算芯片的稀疏计算单元对所述目标混合专家模型的算子进行优化,得到稀疏算子,包括:
14.根据权利要求11-13任一所述的方法,其特征在于,所述第一稀疏矩阵为所述目标混合专家模型中稀疏化的模型权重矩阵,所述第二稀疏矩阵为输入至所述目标混合专家模型中混合模型层的中间激活值稀疏矩阵,所述第二稀疏矩阵对应的稠密矩阵为输入至所述目标混合专家模型中混合模型层的中间激活值的稠密矩阵。
15.根据权利要求14所述的方法,其特征在于,将所述压缩矩阵集合,以数据分块的形式从全局内存中逐级搬运至所述计算芯片的硬件寄存器中,包括:
16.根据权利要求15所述的方法,其特征在于,在计算芯片的全局内存中定位与第一稀疏矩阵匹配的压缩矩阵集合和第二关联矩阵的同时,还包括:
17.根据权利要求16所述的方法,其特征在于,在将各压缩数据矩阵分块、各索引矩阵分块以及各元数据矩阵分块,从所述全局内存逐次加载至共享内存中之后,还包括:
18.根据权利要求16所述的方法,其特征在于,根据与稀疏计算单元匹配的寄存器映射关系,将各压缩数据矩阵二次分块、各索引矩阵二次分块以及各元数据矩阵二次分块中的至少一项,从所述共享内存中逐次搬运至所述硬件寄存器中,包括:
19.根据权利要求16所述的方法,其特征在于,通过所述计算芯片的稀疏计算单元,根据硬件寄存器中分次加载的数据,逐步计算出所述第一稀疏矩阵和所述第二关联矩阵的乘法结果,包括:
20.根据权利要求19所述的方法,其特征在于,通过所述稀疏计算单元,根据所述一次稀疏分块矩阵以及所述当前第二关联矩阵二次分块,执行乘法计算,具体包括:
21.根据权利要求20所述的方法,其特征在于,若所述第二关联矩阵包括第二稀疏矩阵,则在通过所述稀疏计算单元,根据所述一次稀疏分块矩阵以及所述当前第二关联矩阵二次分块,执行乘法计算之后,还包括:
22.根据权利要求14所述的方法,其特征在于,在每次进行数据分块的过程中,V为列切分方向上切分尺寸的整数倍;以及
23.一种混合专家模型的优化装置,其特征在于,包括:
24.一种电子设备,其特征在于,所述电子设备包括:
25.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-22中任一所述的混合专家模型的...
【技术特征摘要】
1.一种混合专家模型的优化方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述对目标混合专家模型的各项稀疏化的数据结构进行稀疏转换,得到结构化稀疏数据结构,包括:
3.根据权利要求2所述的方法,其特征在于,所述稀疏化的模型权重矩阵中具体包含多个m*v尺寸的压缩单元;
4.根据权利要求3所述的方法,其特征在于,所述生成与每个所述模型权重矩阵分别对应的压缩矩阵集合,包括:
5.根据权利要求4所述的方法,其特征在于,所述根据各压缩单元在所述当前模型权重矩阵中的位置,和各有效行在所属压缩单元中位置,对所述第二矩阵进行填充处理,得到与所述当前模型权重矩阵对应的索引矩阵,包括:
6.根据权利要求4所述的方法,其特征在于,所述根据各所述结构化稀疏计算存储单元在所述当前模型权重矩阵中的位置,和各非0数据在所属结构化稀疏计算存储单元中的位置,对所述第三矩阵进行填充处理,得到与所述当前模型权重矩阵对应的元数据矩阵,包括:
7.根据权利要求2-6任一所述的方法,其特征在于,在所述将所述目标混合专家模型中各项稀疏化的模型权重矩阵,分别存储为匹配的压缩矩阵集合之后,还包括:
8.根据权利要求7所述的方法,其特征在于,在所述将所述目标混合专家模型中各项稀疏化的模型权重矩阵,分别存储为匹配的压缩矩阵集合之后,还包括:
9.根据权利要求8所述的方法,其特征在于,在调用所述计算芯片上的各所述稀疏算子,基于存储优化后的目标混合专家模型实施匹配的稀疏计算之前,还包括:
10.根据权利要求1所述的方法,其特征在于,所述对所述结构化稀疏数据结构进行数据排布优化,包括:
11.根据权利要求3所述的方法,其特征在于,所述稀疏算子包括第一稀疏算子,所述结合计算芯片的稀疏计算单元对所述目标混合专家模型的算子进行优化,得到稀疏算子,包括:
12.根据权利要求3所述的方法,其特征在于,所述稀疏算子包括第二稀疏算子,所述结合计算芯片的稀疏计算单元对所述目标混合专家模型的算子进行优化,得到稀疏算子,包括:
13.根据权利要求3所述的方法,其特征在于,所述稀疏算子包括第三稀疏算子,所述结合计算芯片的稀疏计算单元对所述目标混合专家模型的算子进行优化,得到稀疏算子,包括:
14.根据权利要求11-13任一所述的方法,其特征在于,所述第一...
【专利技术属性】
技术研发人员:姚建国,吴晨鹏,顾琦琪,石恒,张亚林,
申请(专利权)人:上海燧原科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。