System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及电力系统时序预测技术,具体涉及一种基于大语言模型权重微调的电力系统时序预测模型训练方法、系统、装置及存储介质。
技术介绍
1、电力系统中新能源出力受天气因素影响较大,具有很强的随机性和波动性。源荷预测根据使用场景的不同,预测的时空差异较大,同时用于源荷预测的计算模型面临输入数据的海量化和特征高维化、强耦合等问题。传统预测方法需针对特定场景建立专用的模型,耗时费力,模型泛化能力差,后期的运营与维护成本高,技术复杂。因此亟需建立一种泛化能力强、预测精度高,且能使用于多种预测场景的预测模型。
2、大语言基础模型技术的飞速发展已经推动了计算机视觉、自然语言处理等领域的技术迭代更新。有研究成果证明庞大参数规模的大语言基础模型权重在跨领域任务中呈现出强大的学习推理与模式识别能力,在零样本、小样本等极端场景下均优于传统的预测方案。
3、但是大语言模型面向自然语言任务训练生成,在训练和推理过程中,其输入与输出内容均为文本与字符形式。若需要将大语言模型应用于时间序列预测任务中,其关键技术难题在于,如何让大语言模型骨干网络的权重适应时间序列预测的具体任务。在时序预测中,输入与输出均为连续的数据点,而非文本和字符,原始模型建立起的编码表(即由文本字符至向量空间的映射关系)不再适用,大语言模型内部的权重需进行针对性调整以适应电力系统内源荷预测任务。
4、为了让大语言模型骨干网络的权重适应时间序列预测的具体任务,现有的研究做出了一些尝试,例如公开号为cn117634740a的专利申请公开了一种基于大语言模
5、1,时间序列是离散的数据点,与文本形式差异明显,无法做到无损转化,会不可避免的带来信息丢失,引起预测效果下降;
6、2,模型结构上,并未针对时序预测任务做出适应性设计与改进,依旧沿用文本输入-文本输出的结构;
7、3,梯度更新中,通过有监督微调对模型参数进行更新,并未深入挖掘时序与文本输入的具体场景不同而对大语言模型权重进行针对性的优化,而是进行模型全体参数的更新。时序预测微调中对ffn和多头自注意力机制结构的参数更新反而可能会破坏大语言模型在预训练中学习到的知识图谱,引起模型性能退化。
技术实现思路
1、本专利技术要解决的技术问题:针对现有技术的上述问题,提供一种基于大语言模型权重微调的电力系统时序预测模型训练方法、系统、装置及存储介质,让大语言模型骨干网络的权重适应时间序列预测的具体任务的同时,能够提高预测效果。
2、为了解决上述技术问题,本专利技术采用的技术方案为:
3、第一方面,本专利技术提供一种基于大语言模型权重微调的电力系统时序预测模型训练方法,包括以下步骤:
4、获取不同领域的时间序列数据并进行数据清洗后得到数据集;
5、对大语言模型各层解码器和编码器中的前馈神经网络、多头注意力进行权重冻结,并使用所述数据集对大语言模型进行第一阶段训练,以调整大语言模型位置编码器、层归一化网络、输入嵌入层的权重参数;
6、重构所述大语言模型的输入层,使得重构的输入层根据时间序列数据生成对应的自然语言指令并输入大语言模型;
7、冻结所述大语言模型的权重参数,并使用电力系统源荷数据对大语言模型进行第二阶段训练,以调整重构的输入层的参数,得到时序预测预训练模型。;
8、进一步的,得到时序预测预训练模型之后,还包括:将电力系统时间序列数据和任务指令输入训练好的时序预测预训练模型,得到对应的预测结果。
9、进一步的,所述大语言模型各层解码器和编码器均包括至少一个基本网络单元,所述基本网络单元对时间序列数据的计算过程包括:
10、对输入时间序列进行可逆归一化处理后划分为多个片段,将每个片段输入到输入嵌入层,得到对应的嵌入向量,将嵌入向量叠加位置编码器输出的编码信息,得到编码后的向量;
11、将编码后的向量输入多头注意力机制计算得到对应的注意力输出结果;
12、将注意力输出结果输入归一化层得到归一化后的结果,然后将归一化后的结果输入前馈神经网络,最后将前馈神经网络的输出结果再次经过归一化层处理,得到当前基本网络单元的最终输出结果。
13、进一步的,重构的输入层根据时间序列数据生成对应的自然语言指令时,包括:
14、将时间序列数据输入经过片段化处理和归一化处理后,由时序输入嵌入层提取时序特征信息形成时间序列的向量表示;
15、将包含指令提示词的预设自然语言输入经过文本输入嵌入层后形成自然语言的向量表示;
16、将时间序列的向量表示和自然语言的向量表示拼接,得到自然语言指令并作为大语言模型的输入。
17、进一步的,将包含指令提示词的预设自然语言输入经过文本输入嵌入层后形成自然语言的向量表示时,具体包括:
18、将预设自然语言输入的文本依据字符表进行分词化,形成对应结果,其中表示第个分词token,是分词token的数量,随后通过文本输入嵌入层的线性映射网络参数将各分词token映射到高维空间,形成文本嵌入向量并作为自然语言的向量表示,为大语言模型的骨干维度。
19、进一步的,将输入序列的向量表示和自然语言的向量表示拼接时,具体是将时间序列的向量表示和自然语言的向量表示沿大语言模型的骨干维度拼接。
20、进一步的,对大语言模型各层解码器和编码器中的前馈神经网络、多头注意力进行权重冻结,并使用所述数据集对大语言模型进行第一阶段训练,以及冻结所述大语言模型的权重参数,并使用电力系统源荷数据对大语言模型进行第二阶段训练时,均包括:
21、将未被冻结的模型参数加入参数集合,将被冻结的模型参数加入参数集合;
22、以数据集或电力系统源荷数据中的历史时间序列数据作为输入,根据大语言模型输出的预测结果和对应真实值计算当前预测的损失函数;
23、计算损失函数关于参数集合的梯度,并以此更新一阶矩估计和二阶矩估计;
24、根据一阶矩估计和二阶矩估计的计算结果执行偏差矫正,得到矫正后的一阶矩估计和矫正后的二阶矩估计;
25、使用矫正后的一阶矩估计和矫正后的二阶矩估计更新参数集合中的模型参数。
26、进一步的,对大语言模型各层解码器和编码器中的前馈神经网络、多头注意力进行权重冻结,并使用所述数据集对大语言模型进行第一阶段训练时,将未被冻结的模型参数加入参数集合具体是将位置编码参数,嵌入层参数以及各归一化层参数加入参数集合,将被冻结的模型参数加入参数集合具体是将前馈神经网络模型参数和多头注意力机制模型参数加入参数集合。
27、进一步的,冻结所述大语言模型的权重参数,并使用电力系统源荷数据对大语言模型进行第二阶段训练时,将未被冻结的模型参本文档来自技高网...
【技术保护点】
1.一种基于大语言模型权重微调的电力系统时序预测模型训练方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于大语言模型权重微调的电力系统时序预测模型训练方法,其特征在于,得到时序预测预训练模型之后还包括:将电力系统时间序列数据输入训练好的时序预测预训练模型,得到对应的预测结果。
3.根据权利要求1所述的基于大语言模型权重微调的电力系统时序预测模型训练方法,其特征在于,所述大语言模型各层解码器和编码器均包括至少一个基本网络单元,所述基本网络单元对时间序列数据的计算过程包括:
4.根据权利要求1所述的基于大语言模型权重微调的电力系统时序预测模型训练方法,其特征在于,重构的输入层根据时间序列数据生成对应的自然语言指令时,包括:
5.根据权利要求4所述的基于大语言模型权重微调的电力系统时序预测模型训练方法,其特征在于,将包含指令提示词的预设自然语言输入经过文本输入嵌入层后形成自然语言的向量表示时,具体包括:
6.根据权利要求4所述的基于大语言模型权重微调的电力系统时序预测模型训练方法,其特征在于,将输入序列的向量表示和
7.根据权利要求1所述的基于大语言模型权重微调的电力系统时序预测模型训练方法,其特征在于,对大语言模型各层解码器和编码器中的前馈神经网络、多头注意力进行权重冻结,并使用所述数据集对大语言模型进行第一阶段训练,以及冻结所述大语言模型的权重参数,并使用电力系统源荷数据对大语言模型进行第二阶段训练时,均包括:
8.根据权利要求7所述的基于大语言模型权重微调的电力系统时序预测模型训练方法,其特征在于,对大语言模型各层解码器和编码器中的前馈神经网络、多头注意力进行权重冻结,并使用所述数据集对大语言模型进行第一阶段训练时,将未被冻结的模型参数加入参数集合具体是将位置编码参数,嵌入层参数以及各归一化层参数加入参数集合,将被冻结的模型参数加入参数集合具体是将前馈神经网络模型参数和多头注意力机制模型参数加入参数集合。
9.根据权利要求7所述的基于大语言模型权重微调的电力系统时序预测模型训练方法,其特征在于,冻结所述大语言模型的权重参数,并使用电力系统源荷数据对大语言模型进行第二阶段训练时,将未被冻结的模型参数加入参数集合具体是将重构的输入层中的时序输入嵌入层的网络参数与文本输入嵌入层的网络参数加入参数集合,将被冻结的模型参数加入参数集合具体是将位置编码参数,嵌入层参数、各归一化层参数、前馈神经网络模型参数和多头注意力机制模型参数加入参数集合。
10.一种基于大语言模型权重微调的电力系统时序预测模型训练系统,其特征在于,包括:
11.根据权利要求10所述的基于大语言模型权重微调的电力系统时序预测模型训练系统,其特征在于,还包括:结果预测单元,用于将电力系统时间序列数据和任务指令输入训练好的时序预测预训练模型,得到对应的预测结果。
12.根据权利要求10所述的基于大语言模型权重微调的电力系统时序预测模型训练系统,其特征在于,所述大语言模型各层解码器和编码器均包括至少一个基本网络单元,所述基本网络单元对时间序列数据的计算过程包括:
13.根据权利要求10所述的基于大语言模型权重微调的电力系统时序预测模型训练系统,其特征在于,重构的输入层根据时间序列数据生成对应的自然语言指令时,包括:
14.根据权利要求13所述的基于大语言模型权重微调的电力系统时序预测模型训练系统,其特征在于,将包含指令提示词的预设自然语言输入经过文本输入嵌入层后形成自然语言的向量表示时,具体包括:
15.根据权利要求13所述的基于大语言模型权重微调的电力系统时序预测模型训练系统,其特征在于,将输入序列的向量表示和自然语言的向量表示拼接时,具体是将时间序列的向量表示和自然语言的向量表示沿大语言模型的骨干维度拼接。
16.根据权利要求10所述的基于大语言模型权重微调的电力系统时序预测模型训练系统,其特征在于,第一阶段训练单元对大语言模型各层解码器和编码器中的前馈神经网络、多头注意力进行权重冻结,并使用所述数据集对大语言模型进行第一阶段训练,以及第二阶段训练单元冻结所述大语言模型的权重参数,并使用电力系统源荷数据对大语言模型进行第二阶段训练时,均包括:
17.根据权利要求16所述的基于大语言模型权重微调的电力系统时序预测模型训练系统,其特征在于,第一阶段训练单元对大语言模型各层解码器和编码器中的前馈神经网络、多头注意力进行权重冻结,并使用所述数据集对大语言模型进行第一阶段训练时...
【技术特征摘要】
1.一种基于大语言模型权重微调的电力系统时序预测模型训练方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于大语言模型权重微调的电力系统时序预测模型训练方法,其特征在于,得到时序预测预训练模型之后还包括:将电力系统时间序列数据输入训练好的时序预测预训练模型,得到对应的预测结果。
3.根据权利要求1所述的基于大语言模型权重微调的电力系统时序预测模型训练方法,其特征在于,所述大语言模型各层解码器和编码器均包括至少一个基本网络单元,所述基本网络单元对时间序列数据的计算过程包括:
4.根据权利要求1所述的基于大语言模型权重微调的电力系统时序预测模型训练方法,其特征在于,重构的输入层根据时间序列数据生成对应的自然语言指令时,包括:
5.根据权利要求4所述的基于大语言模型权重微调的电力系统时序预测模型训练方法,其特征在于,将包含指令提示词的预设自然语言输入经过文本输入嵌入层后形成自然语言的向量表示时,具体包括:
6.根据权利要求4所述的基于大语言模型权重微调的电力系统时序预测模型训练方法,其特征在于,将输入序列的向量表示和自然语言的向量表示拼接时,具体是将时间序列的向量表示和自然语言的向量表示沿大语言模型的骨干维度拼接。
7.根据权利要求1所述的基于大语言模型权重微调的电力系统时序预测模型训练方法,其特征在于,对大语言模型各层解码器和编码器中的前馈神经网络、多头注意力进行权重冻结,并使用所述数据集对大语言模型进行第一阶段训练,以及冻结所述大语言模型的权重参数,并使用电力系统源荷数据对大语言模型进行第二阶段训练时,均包括:
8.根据权利要求7所述的基于大语言模型权重微调的电力系统时序预测模型训练方法,其特征在于,对大语言模型各层解码器和编码器中的前馈神经网络、多头注意力进行权重冻结,并使用所述数据集对大语言模型进行第一阶段训练时,将未被冻结的模型参数加入参数集合具体是将位置编码参数,嵌入层参数以及各归一化层参数加入参数集合,将被冻结的模型参数加入参数集合具体是将前馈神经网络模型参数和多头注意力机制模型参数加入参数集合。
9.根据权利要求7所述的基于大语言模型权重微调的电力系统时序预测模型训练方法,其特征在于,冻结所述大语言模型的权重参数,并使用电力系统源荷数据对大语言模型进行第二阶段训练时,将未被冻结的模型参数加入参数集合具体是将重构的输入层中的时序输入嵌入层的网络参数与文本输入嵌入层的网络参数加入参数集合,将被冻结的模型参数加入参数集合具体是将位置编码参数,嵌入层参数、各归一化层参数、前馈神经网络模型参数和多头注意力机制模型参数加入参数集合。
10.一种基于大语言模型权重微调的电力系统时序预测模型训练系统,其特征在于,包括:
11.根据权利要求10所述的基于大语言模型权重微调的电力系统时序预测模型训练系统,其特征在于,还包括:结果预测单元,用于将电力系统时间序列数据和任务指令输入训练好的时序预...
【专利技术属性】
技术研发人员:肖剑,张可人,彭双剑,刘帅,张文静,单楚栋,徐先勇,吴晟,黄志鸿,左沅君,孙云龙,陈卓,龙彦伯,彭国政,
申请(专利权)人:国网湖南省电力有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。