System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 模型参数的融合方法及装置制造方法及图纸_技高网

模型参数的融合方法及装置制造方法及图纸

技术编号:44821100 阅读:1 留言:0更新日期:2025-03-28 20:10
本发明专利技术涉及人工智能技术领域,提供一种模型参数的融合方法及装置,方法包括:获取待融合模型中各参数位置的模型参数,待融合模型基于深度神经网络构建得到;基于待融合模型的模型参数,分别对待融合模型中各模型参数进行评估,得到各模型参数的局部级兼容性评分;构建待融合模型的模型参数对应的直方图分布,基于直方图分布量化待融合模型的全局级兼容性评分;基于各模型参数的局部级兼容性评分和各模型参数对应的全局级兼容性评分,对各参数位置的模型参数进行拼接,得到融合模型中各参数位置的融合参数。本发明专利技术提供的方法,实现精确、智能的参数拼接策略,最大程度地保留信息,大大提升融合模型的模型性能和鲁棒性。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其涉及一种模型参数的融合方法及装置


技术介绍

1、深度神经网络在图像识别、自然语言处理、推荐系统等多个领域取得了显著成就。在复杂任务的实际应用中,为了节省训练成本以及提升训练效率,一般通过现有的基于深度神经网络构建的在各领域表现较好的初始模型,进行多任务学习、迁移学习以及模型集成,得到最终可以胜任复杂任务的融合模型。

2、但在多任务学习、迁移学习以及模型集成等应用场景中,常常会遇到模型参数不兼容的问题。不同模型在训练过程中由于数据分布、网络结构和优化策略的差异,其学习到的参数往往存在不兼容性,这种不兼容性不仅会影响融合模型的性能,还可能导致融合模型的输出不稳定。


技术实现思路

1、本专利技术提供一种模型参数的融合方法及装置,用以解决现有技术中待融合的模型参数往往存在不兼容性,这种不兼容性不仅会影响融合模型的性能,还可能导致融合模型的输出不稳定的这一缺陷。

2、本专利技术提供一种模型参数的融合方法,包括:

3、获取待融合模型中各参数位置的模型参数,所述待融合模型基于深度神经网络构建得到;

4、基于所述待融合模型的模型参数,分别对所述待融合模型中各模型参数进行评估,得到所述各模型参数的局部级兼容性评分;

5、构建所述待融合模型的模型参数对应的直方图分布,基于所述直方图分布,量化所述待融合模型的全局级兼容性评分;

6、基于所述各模型参数的局部级兼容性评分和所述各模型参数对应的全局级兼容性评分,对所述各参数位置的模型参数进行拼接,得到融合模型中各参数位置对应的融合参数。

7、根据本专利技术提供的一种模型参数的融合方法,所述基于所述各模型参数的局部级兼容性评分和所述各模型参数对应的全局级兼容性评分,对所述各参数位置的模型参数进行拼接,得到融合模型中各参数位置对应的融合参数,包括:

8、基于所述各模型参数的局部级兼容性评分和所述各模型参数对应的全局级兼容性评分进行评分融合,得到所述各模型参数的双重兼容性评分;

9、基于所述各模型参数的双重兼容性评分,对所述各参数位置的模型参数进行拼接,得到所述融合模型的各融合参数。

10、根据本专利技术提供的一种模型参数的融合方法,所述基于所述各模型参数的双重兼容性评分,对所述各参数位置的模型参数进行拼接,得到所述融合模型的各融合参数,包括:

11、确定各网络层的任务复杂性评分;

12、在所述任务复杂性评分大于预设评分阈值的情况下,基于所述各网络层下的模型参数的双重兼容性评分,对所述各网络层下各参数位置的模型参数进行加权拼接,得到所述各融合参数。

13、根据本专利技术提供的一种模型参数的融合方法,所述确定各网络层的任务复杂性评分,之后还包括:

14、在所述任务复杂性评分不大于预设评分阈值的情况下,比较所述待融合模型中任一网络层下的模型参数对应的双重兼容性评分,将比较结果为较大值的双重兼容性评分对应的模型参数,作为所述各融合参数。

15、根据本专利技术提供的一种模型参数的融合方法,所述确定各网络层的任务复杂性评分,包括:

16、基于所述各模型参数对应的参数位置所属的网络层数、网络层类型中的至少一种,确定所述任务复杂性评分;

17、所述网络层类型包括卷积层、全连接层、池化层中的至少一种。

18、根据本专利技术提供的一种模型参数的融合方法,所述基于所述待融合模型的模型参数,分别对所述待融合模型中各模型参数进行评估,得到所述各模型参数的局部级兼容性评分,包括:

19、提取所述待融合模型的模型参数的参数矩阵;

20、基于不确定性评估网络和所述待融合模型的参数矩阵,分别对所述各模型参数进行评估,得到所述各模型参数的局部级兼容性评分。

21、根据本专利技术提供的一种模型参数的融合方法,所述基于所述各模型参数的局部级兼容性评分和所述各模型参数对应的全局级兼容性评分,对所述各参数位置的模型参数进行拼接,得到融合模型中各参数位置对应的融合参数,之后包括:

22、获取所述融合模型的微调样本数据;

23、对比所述微调样本数据和所述待融合模型的初始样本数据,得到样本分布对比结果;

24、在所述样本分布对比结果为存在差异的情况下,基于所述各模型参数的双重兼容性评分和所述样本分布对比结果,计算得到与各模型参数属于同一参数位置的融合参数的优化权重;

25、基于所述各融合参数的优化权重和上一迭代轮次中所述各融合参数的上一学习率,确定当前迭代轮次的所述各融合参数的学习率;

26、基于所述各融合参数的优化权重和学习率,对所述各融合参数进行当前迭代轮次的更新,得到更新融合参数。

27、根据本专利技术提供的一种模型参数的融合方法,所述基于所述各融合参数的优化权重和上一迭代轮次中所述各融合参数的上一学习率,确定当前迭代轮次的所述各融合参数的学习率,表示为:

28、;

29、其中,表示所述当前迭代轮次的所述各融合参数的学习率;表示所述上一迭代轮次中所述各融合参数的上一学习率;表示动态调整系数;表示所述各融合参数的优化权重;表示融合参数对应的参数矩阵的行数;表示融合参数对应的参数矩阵的列数。

30、本专利技术还提供一种模型参数的融合装置,包括:

31、获取单元,获取待融合模型中各参数位置的模型参数,所述待融合模型基于深度神经网络构建得到;

32、局部级评估单元,基于所述待融合模型的模型参数,分别对所述待融合模型中各模型参数进行评估,得到所述各模型参数的局部级兼容性评分;

33、全局级评估单元,构建所述待融合模型的模型参数对应的直方图分布,基于所述直方图分布,量化所述待融合模型的全局级兼容性评分;

34、融合单元,基于所述各模型参数的局部级兼容性评分和所述各模型参数对应的全局级兼容性评分,对所述各参数位置的模型参数进行拼接,得到融合模型中各参数位置对应的融合参数。

35、本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述模型参数的融合方法。

36、本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述模型参数的融合方法。

37、本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述模型参数的融合方法。

38、本专利技术提供的模型参数的融合方法及装置,通过量化待融合模型的各模型参数的局部级兼容性评分,以及待融合模型的全局级兼容性评分,通过各模型参数的局部级兼容性评分和各模型参数对应的全局级兼容性评分,对各参数位置的模型参数进行拼接,得到融合模型中各参数位置对应的融合参数,实现精确、智能的参数拼接策略,最大程度地保留信息,大大提升融本文档来自技高网...

【技术保护点】

1.一种模型参数的融合方法,其特征在于,包括:

2.根据权利要求1所述的模型参数的融合方法,其特征在于,所述基于所述各模型参数的局部级兼容性评分和所述各模型参数对应的全局级兼容性评分,对所述各参数位置的模型参数进行拼接,得到融合模型中各参数位置对应的融合参数,包括:

3.根据权利要求2所述的模型参数的融合方法,其特征在于,所述基于所述各模型参数的双重兼容性评分,对所述各参数位置的模型参数进行拼接,得到所述融合模型的各融合参数,包括:

4.根据权利要求3所述的模型参数的融合方法,其特征在于,所述确定各网络层的任务复杂性评分,之后还包括:

5.根据权利要求3所述的模型参数的融合方法,其特征在于,所述确定各网络层的任务复杂性评分,包括:

6.根据权利要求1至5中任一项所述的模型参数的融合方法,其特征在于,所述基于所述待融合模型的模型参数,分别对所述待融合模型中各模型参数进行评估,得到所述各模型参数的局部级兼容性评分,包括:

7.根据权利要求2至5中任一项所述的模型参数的融合方法,其特征在于,所述基于所述各模型参数的局部级兼容性评分和所述各模型参数对应的全局级兼容性评分,对所述各参数位置的模型参数进行拼接,得到融合模型中各参数位置对应的融合参数,之后包括:

8.根据权利要求7所述的模型参数的融合方法,其特征在于,所述基于所述各融合参数的优化权重和上一迭代轮次中所述各融合参数的上一学习率,确定当前迭代轮次的所述各融合参数的学习率,表示为:

9.一种模型参数的融合装置,其特征在于,包括:

10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述模型参数的融合方法。

...

【技术特征摘要】

1.一种模型参数的融合方法,其特征在于,包括:

2.根据权利要求1所述的模型参数的融合方法,其特征在于,所述基于所述各模型参数的局部级兼容性评分和所述各模型参数对应的全局级兼容性评分,对所述各参数位置的模型参数进行拼接,得到融合模型中各参数位置对应的融合参数,包括:

3.根据权利要求2所述的模型参数的融合方法,其特征在于,所述基于所述各模型参数的双重兼容性评分,对所述各参数位置的模型参数进行拼接,得到所述融合模型的各融合参数,包括:

4.根据权利要求3所述的模型参数的融合方法,其特征在于,所述确定各网络层的任务复杂性评分,之后还包括:

5.根据权利要求3所述的模型参数的融合方法,其特征在于,所述确定各网络层的任务复杂性评分,包括:

6.根据权利要求1至5中任一项所述的模型参数的融合方法,其特征在于,所述基于所述待融合模型的模型...

【专利技术属性】
技术研发人员:杨彤李雪段强姜凯
申请(专利权)人:山东浪潮科学研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1