System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种电力垂直领域的多模态大模型训练优化方法及装置制造方法及图纸_技高网

一种电力垂直领域的多模态大模型训练优化方法及装置制造方法及图纸

技术编号:42753741 阅读:5 留言:0更新日期:2024-09-18 13:43
本发明专利技术公开了一种电力垂直领域的多模态大模型训练优化方法及装置,涉及电力行业垂域大模型训练技术领域。本发明专利技术将剪枝方法注入多模态大模型完成电力垂直领域业务场景的训练,解决大模型训练时权重参数量大、显存要求高、训练时间长和计算资源要求高等问题,通过低秩微调方法对剪枝后的多模态大模型进行微调训练,对剪枝导致的模型精度损失进行补偿,既可以压缩模型大小,使其更适合训练和部署,又能保持大模型强大的泛化能力,得到易于部署的电力领域多模态大模型。

【技术实现步骤摘要】

本专利技术涉及电力行业垂域大模型训练,尤其涉及一种电力垂直领域的多模态大模型训练优化方法及装置


技术介绍

1、近年来,随着我国电力需求的不断增长,电力系统已经成为人们生产和生活中最不可或缺的基础设施之一。而电力场景下有丰富的算法需求,比如:山火烟雾对输电线路的危害、人员操作规范性判断、电力系统状态估计、系统潜在风险评估和分析等场景,都需要使用算法进行分析和诊断,提升安全性、可用性,降低成本等。在电力设备的缺陷识别上(设备表计表盘模糊破损、绝缘子破裂、金属件锈蚀等),缺陷设备给设备运行造成巨大隐患,以往靠人力往往无法及时发现和预警,维护成本高昂,结合多模态大模型人工智能算法,能有效降低了人力物力投入,做到快速响应、精准报警和全天24h监测。

2、随着大语言模型技术的兴起,多模态大模型因其强大的跨模态表征和泛化能力,具有巨大的应用潜力。多模态大模型技术是人工智能领域的一个前沿方向,旨在通过结合不同类型的数据(如文本、图像、音频和视频)来提升模型的理解、推理和生成能力。模型通过整合多种模态的信息,能够更全面地理解复杂的查询和任务,实现跨模态的知识融合和应用。将其应用到电力系统的丰富场景下,能显著提升效能。

3、模型落地面临低延迟、高吞吐、高效率挑战。模型剪枝压缩算法能将参数量大、结构复杂的预训练模型精简为较小的模型,从而降低对硬件的存储、带宽和计算需求,达到加速模型推理和落地的目的。

4、但是由于多模态大模型的模型参数量巨大,对训练数据规模、训练时的算力资源要求高,同时推理延时高、部署困难,模型落地面临低延迟、高吞吐、高效率挑战。且对于垂直领域场景,大模型的参数量和表征能力较冗余,这对硬件存储、带宽和计算资源而言是一种浪费,如何加速电力垂直领域的多模态大模型落地部署是亟待解决的问题。


技术实现思路

1、本专利技术提供一种电力垂直领域的多模态大模型训练优化方法及装置,以解决多模态大模型训练时权重参数量大、显存要求高、训练时间长和部署时计算资源要求高,在电力垂直领域面临落地难的问题。

2、本专利技术通过下述技术方案实现:

3、本专利技术的第一方面,提供了一种用于电力设备缺陷识别的多模态大模型训练优化方法,包括:

4、获取电力垂直业务场景的多模态数据,组成图片和文本数据对,作为训练样本;

5、根据训练样本资源和计算资源确定适用于电力垂直业务场景的预训练大语言模型和预训练视觉模型,融合所述预训练大语言模型和所述预训练视觉模型,得到多模态大模型;

6、确定剪枝准则和剪枝方法,根据所述剪枝准则和剪枝方法对所述多模态大模型进行剪枝处理;

7、通过所述训练样本对剪枝后的所述多模态大模型进行低秩微调训练,得到电力垂直领域的多模态大模型。

8、本专利技术将剪枝方法注入多模态大模型完成电力垂直领域业务场景的训练,解决大模型训练时权重参数量大、显存要求高、训练时间长和计算资源要求高等问题,通过低秩微调方法对剪枝后的多模态大模型进行微调训练,对剪枝导致的模型精度损失进行补偿,既可以压缩模型大小,使其更适合训练和部署,又能保持大模型强大的泛化能力,得到易于部署的电力领域多模态大模型。

9、在一种实施方式中,所述剪枝方法采用深度结构化剪枝方法;所述根据所述剪枝准则和剪枝方法对所述多模态大模型进行剪枝处理,包括:

10、采用深度结构化剪枝方法,以transformer block作为剪枝单元;

11、根据剪枝准则评估transformer block的重要性得分;

12、基于transformer block的重要性得分进行一步剪枝或多步迭代剪枝。

13、在一种实施方式中,所述剪枝准则采用taylor 准则,taylor 准则表达式为:

14、;

15、式中, k表示模型网络中的计算单元的序号, n表示 各个transformer block的序号, d为评估数据集;表示在评估数据集 d上的损失,表示对第 k个计算单元中第n个transformer block的第 i个神经元和第 j个神经元连接的权重进行剪枝前的权重矩阵,计算结果表示第 n个transformer block的taylor准则重要性得分。

16、在一种实施方式中,所述剪枝准则为困惑度准则,困惑度准则表达式为:

17、;

18、式中, s表示句子序列;表示token长度;表示当前模型结构去除第个transformer block后的剩下部分,表示去除第个transformer block后预测下一个token的损失,表示句子序列 s中的第个token,表示句子序列 s中第1到的所有token,计算结果表示第 n个transformer block的困惑度准则重要性得分。

19、在一种实施方式中,所述基于transformer block的重要性得分进行一步剪枝,包括:

20、根据重要性得分对transformer block进行排序,一次性剪除排序靠后的n个transformer block,其中n为于1的整数,且n小于transformer block的总个数。

21、在一种实施方式中,剪除的transformer block单元数n根据训练样本资源、计算资源、图片分辨率和文本长度确定。

22、在一种实施方式中,所述通过所述训练样本对剪枝后的所述多模态大模型进行低秩微调训练,包括:

23、对剪枝后的预训练大语言模型和预训练视觉模型分别注入lora微调模块;

24、训练时冻结预训练权重参数,不更新梯度,通过所述训练样本对多模态大模型进行全量微调训练。

25、在一种实施方式中,所述对剪枝后的预训练大语言模型和预训练视觉模型分别注入lora微调模块,包括:

26、对剪枝后的预训练大语言模型所有transformer blocks中注意力机制模块的query layer和value layer注入lora模块;

27、对剪枝后的预训练视觉模型所有transformer blocks中注意力机制模块的querylayer、value layer和key layer注入lora模块。

28、在一种实施方式中,所述融合所述预训练大语言模型和所述预训练视觉模型,得到多模态大模型,包括:

29、通过bert的交叉注意力机制融合所述预训练大语言模型和所本文档来自技高网...

【技术保护点】

1.一种电力垂直领域的多模态大模型训练优化方法,其特征在于,包括:

2.根据权利要求1所述的电力垂直领域的多模态大模型训练优化方法,其特征在于,所述剪枝方法采用深度结构化剪枝方法;

3.根据权利要求2所述的电力垂直领域的多模态大模型训练优化方法,其特征在于,所述剪枝准则采用Taylor 准则,Taylor 准则表达式为:

4.根据权利要求2所述的电力垂直领域的多模态大模型训练优化方法,其特征在于,所述剪枝准则为困惑度准则,困惑度准则表达式为:

5.根据权利要求2所述的电力垂直领域的多模态大模型训练优化方法,其特征在于,所述基于transformer block的重要性得分进行一步剪枝,包括:

6.根据权利要求1所述的电力垂直领域的多模态大模型训练优化方法,其特征在于,所述通过所述训练样本对剪枝后的所述多模态大模型进行低秩微调训练,包括:

7.根据权利要求6所述的电力垂直领域的多模态大模型训练优化方法,其特征在于,所述对剪枝后的预训练大语言模型和预训练视觉模型分别注入LoRA微调模块,包括:

8.根据权利要求1所述的电力垂直领域的多模态大模型训练优化方法,其特征在于,所述融合所述预训练大语言模型和所述预训练视觉模型,得到多模态大模型,包括:

9.根据权利要求1所述的电力垂直领域的多模态大模型训练优化方法,其特征在于,所述预训练大语言模型选择LLaMA-7B,所述预训练视觉模型选择ViT-G/14。

10.一种电力垂直领域的多模态大模型训练优化装置,其特征在于,包括:

...

【技术特征摘要】

1.一种电力垂直领域的多模态大模型训练优化方法,其特征在于,包括:

2.根据权利要求1所述的电力垂直领域的多模态大模型训练优化方法,其特征在于,所述剪枝方法采用深度结构化剪枝方法;

3.根据权利要求2所述的电力垂直领域的多模态大模型训练优化方法,其特征在于,所述剪枝准则采用taylor 准则,taylor 准则表达式为:

4.根据权利要求2所述的电力垂直领域的多模态大模型训练优化方法,其特征在于,所述剪枝准则为困惑度准则,困惑度准则表达式为:

5.根据权利要求2所述的电力垂直领域的多模态大模型训练优化方法,其特征在于,所述基于transformer block的重要性得分进行一步剪枝,包括:

6.根据权利要求1所述的电力垂直领域...

【专利技术属性】
技术研发人员:张凌浩邝俊威向思屿李盛杰滕予非常政威邓创李亚强庞博刘昶王慧斌汪洋文祥温崇
申请(专利权)人:国网四川省电力公司电力科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1