System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 大模型处理的方法和装置制造方法及图纸_技高网

大模型处理的方法和装置制造方法及图纸

技术编号:40837703 阅读:15 留言:0更新日期:2024-04-01 15:03
本说明书实施例提供了一种大模型处理的方法和装置。该方法的一具体实施方式包括:确定第一大模型中各层的量化用参数,其中至少部分层的量化用参数根据该层涉及的目标数据的取值范围确定,所述量化用参数包括定点数的总位数和小数部分的位数;根据所述量化用参数对所述第一大模型进行模型量化,以及对所述第一大模型中的至少部分非线性函数进行多项式近似,得到第二大模型;以所述第一大模型为教师模型,所述第二大模型为学生模型,进行模型蒸馏,得到第三大模型;所述第三大模型用于部署到多方,以多方安全计算的方式进行隐私保护的模型预测。

【技术实现步骤摘要】

本说明书一个或多个实施例涉及计算机,尤其涉及一种大模型处理的方法和装置


技术介绍

1、现阶段,不同的数据持有方所持有的数据可能包含用户的隐私信息,数据持有方之间的数据共享可能会侵犯用户的隐私,进而违反相关法律。为了能够打通多方之间的数据流通,避免数据孤岛现象,可以利用安全多方计算支持多方之间的联合计算,挖掘出数据的价值,同时确保多方交互时不会泄露出各方隐私数据的明文信息。多方在进行联合计算时会使用到神经网络模型,由于神经网络模型计算复杂度高、模型参数量大,因此神经网络模型的应用需要大量的计算开销和通信开销,导致联合计算的效率较低。


技术实现思路

1、本说明书的实施例描述了一种大模型处理的方法和装置,能够减少大模型预测时的计算量和通信开销。

2、根据第一方面,提供了一种大模型处理的方法,包括:确定第一大模型中各层的量化用参数,其中至少部分层的量化用参数根据该层涉及的目标数据的取值范围确定,上述量化用参数包括定点数的总位数和小数部分的位数;根据上述量化用参数对上述第一大模型进行模型量化,以及对上述第一大模型中的至少部分非线性函数进行多项式近似,得到第二大模型;以上述第一大模型为教师模型,上述第二大模型为学生模型,进行模型蒸馏,得到第三大模型;上述第三大模型用于部署到多方,以多方安全计算的方式进行隐私保护的模型预测。

3、根据第二方面,提供了一种大模型处理的装置,包括:确定单元,配置为,确定第一大模型中各层的量化用参数,其中至少部分层的量化用参数根据该层涉及的目标数据的取值范围确定,上述量化用参数包括定点数的总位数和小数部分的位数;量化单元,配置为,根据上述量化用参数对上述第一大模型进行模型量化,以及对上述第一大模型中的至少部分非线性函数进行多项式近似,得到第二大模型;蒸馏单元,配置为,以上述第一大模型为教师模型,上述第二大模型为学生模型,进行模型蒸馏,得到第三大模型;上述第三大模型用于部署到多方,以多方安全计算的方式进行隐私保护的模型预测。

4、根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当上述计算机程序在计算机中执行时,令计算机执行如第一方面中任一实现方式描述的方法。

5、根据第四方面,提供了一种计算设备,包括存储器和处理器,其特征在于,上述存储器中存储有可执行代码,上述处理器执行上述可执行代码时,实现如第一方面中任一实现方式描述的方法。

6、根据本说明书实施例提供的大模型处理的方法和装置,可以根据第一大模型中各层的量化用参数对第一大模型进行模型量化,并对第一大模型中的至少部分非线性函数进行多项式近似,得到第二大模型。而后,以第一大模型为教师模型,第二大模型为学生模型,进行模型蒸馏,得到第三大模型。该第三大模型可以用于部署到多方,以多方安全计算的方式进行隐私保护的模型预测。由此,通过模型量化和非线性函数多项式近似,可以减少大模型预测时的计算量和通信开销,而使用模型蒸馏可以避免由于模型量化和非线性函数多项式近似带来的误差导致的模型精度下降。进而能够在保证模型最终精度的前提下,提高模型预测的效率。

本文档来自技高网...

【技术保护点】

1.一种大模型处理的方法,包括:

2.根据权利要求1所述的方法,其中,在确定第一大模型中各层的量化用参数之前,所述方法还包括:

3.根据权利要求1所述的方法,其中,所述第一大模型和所述第二大模型的层数相同;以及,所述以所述第一大模型为教师模型,所述第二大模型为学生模型,进行模型蒸馏,包括:

4.根据权利要求1所述的方法,其中,所述确定第一大模型中各层的量化用参数,包括:

5.根据权利要求4所述的方法,其中,所述第一大模型包括归一化层;以及

6.根据权利要求1所述的方法,其中,所述目标数据包括以下中的至少一项:权重、输入、输出。

7.根据权利要求1所述的方法,其中,在确定第一大模型中各层的量化用参数之前,所述方法还包括:

8.根据权利要求1所述的方法,其中,所述第一大模型处理的数据为密文数据。

9.根据权利要求1所述的方法,其中,所述非线性函数包括以下中的至少一项:GeLU函数、Softmax函数。

10.一种大模型处理的装置,包括:

11.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-9中任一项所述的方法。

12.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-9中任一项所述的方法。

...

【技术特征摘要】

1.一种大模型处理的方法,包括:

2.根据权利要求1所述的方法,其中,在确定第一大模型中各层的量化用参数之前,所述方法还包括:

3.根据权利要求1所述的方法,其中,所述第一大模型和所述第二大模型的层数相同;以及,所述以所述第一大模型为教师模型,所述第二大模型为学生模型,进行模型蒸馏,包括:

4.根据权利要求1所述的方法,其中,所述确定第一大模型中各层的量化用参数,包括:

5.根据权利要求4所述的方法,其中,所述第一大模型包括归一化层;以及

6.根据权利要求1所述的方法,其中,所述目标数据包括以下中的至少一项:权重、输入、输出。

7.根据权利要求1所述的方...

【专利技术属性】
技术研发人员:吴豪奇方文静王磊
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1