System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及电力知识文本理解,具体是涉及一种基于知识迁移的电力领域文本理解模型的训练方法。
技术介绍
1、电力领域文本有以下3个特点,一是专业性强,通常包含大量的专业术语和概念;二是结构化与非结构化数据并存,不仅包括结构化的表格数据,还包括非结构化的文本报告、故障描述、操作日志等;三是多源数据融合,数据来自不同的来源,如设备监测数据、维护记录、事故报告等,这些数据类型多样,需要综合分析。
2、通用大型语言模型(llms)直接使用于电力领域文本理解存在以下问题:
3、1.参数多、内存占用大、训练时间长和预测速度慢;
4、2.直接使用通用大型语言模型训练实际电力生产数据存在敏感数据上传云端被泄露的风险;
5、3.通用大型语言模型缺乏电力领域特定的知识,效果不佳;
6、4.通用大型语言模型需要的计算资源大,成本高。
7、因此,需要提供一种基于知识迁移的电力领域文本理解模型的训练方法,旨在解决上述问题。
技术实现思路
1、针对现有技术存在的不足,本专利技术实施例的目的在于提供一种基于知识迁移的电力领域文本理解模型的训练方法,以解决上述
技术介绍
中的问题。
2、为实现上述目的,本专利技术提供如下技术方案:
3、一种基于知识迁移的电力领域文本理解模型的训练方法,包括以下步骤:
4、步骤s1、获取电力领域相关文本数据,构建数据集d1和数据集d2,根据数据集d1对第一模型进行微调,得到经d1
5、步骤s2、使用经d2微调的第二模型初始化知识迁移模型ktm;
6、步骤s3、将数据集d1中的训练样本分别输入到知识迁移模型ktm和经d1微调的第一模型中进行训练,输出样本的预测值、软标签和真实标签;
7、步骤s4、根据样本的预测值、软标签和样本的真实标签,计算损失值,然后让梯度反向传播回知识迁移模型ktm。
8、作为本专利技术进一步的方案,所述步骤s1中数据集d1为遍历多数据集并随机划分数据及合并数据,所述数据集d2为电力领域专业数据集。
9、作为本专利技术进一步的方案,所述步骤s3中的训练包括:给定一个样本形式为(x,y)的m分类数据集,通过最小化交叉熵损失函数来训练分类器,p=softmax(z),
10、
11、其中,ce为经d1微调的第一模型,p为类别概率分布,为模型的logits,y为真实标签,k表示训练批次。
12、作为本专利技术进一步的方案,所述步骤s3中样本的预测值包括软预测值u和硬预测值q,所述软预测值u的计算公式为:
13、u=softmax(zs;t=τ),
14、所述硬预测值q的计算公式为:
15、q=softmax(zt;t=τ),
16、其中,所述zt和zs分别为经d1微调的第一模型和经d2微调的第二模型的logits,τ为超参数。
17、作为本专利技术进一步的方案,所述经d2微调的第二模型学习经d1微调的第一模型输出时的损失函数定义为:
18、
19、其中,所述kd为经d2微调的第二模型,qk为训练第k批次的硬预测值,uk为训练第k批次的软预测值。
20、作为本专利技术进一步的方案,所述知识迁移模型ktm的损失函数为:
21、
22、其中,θ为ktm的参数总和,|·|表示集合元素个数,kd为经d2微调的第二模型,q为硬预测值,u为软预测值,d1为所需要训练的数据集,k为知识文本起始位置,l为知识文本的终止位置,j表示知识文本中第j个单词,l为文本长度,n为类别数,a为类别数组n的下标,t为类别数组n的某个取值,即t=n[a]。
23、作为本专利技术进一步的方案,所述知识迁移模型ktm的优化目标为与加权求和:
24、
25、其中,λ、γ为权重。
26、综上所述,本专利技术实施例与现有技术相比具有以下有益效果:
27、本专利技术提出了一种适用于电力领域文本理解、规模较小的预训练模型,规避大模型固有的参数多、内存占用大、训练时间长和预测速度慢等问题的方法,避免了直接使用通用大型语言模型训练实际电力生产数据存在敏感数据上传云端被泄露的风险,本申请通过综合运用知识蒸馏、同类数据集共同学习和相近任务微调的方式使得小模型性能媲美或超越大模型,实现资源消耗和性能的双赢。
28、为更清楚地阐述本专利技术的结构特征和功效,下面结合附图与具体实施例来对本专利技术进行详细说明。
本文档来自技高网...【技术保护点】
1.一种基于知识迁移的电力领域文本理解模型的训练方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于知识迁移的电力领域文本理解模型的训练方法,其特征在于,所述步骤S1中数据集D1为遍历多数据集并随机划分数据及合并数据,所述数据集D2为电力领域专业数据集。
3.根据权利要求1所述的基于知识迁移的电力领域文本理解模型的训练方法,其特征在于,所述步骤S3中的训练包括:给定一个样本形式为(X,Y)的m分类数据集,通过最小化交叉熵损失函数来训练分类器,
4.根据权利要求3所述的基于知识迁移的电力领域文本理解模型的训练方法,其特征在于,所述步骤S3中样本的预测值包括软预测值u和硬预测值q,所述软预测值u的计算公式为:
5.根据权利要求4所述的基于知识迁移的电力领域文本理解模型的训练方法,其特征在于,所述经D2微调的第二模型学习经D1微调的第一模型输出时的损失函数定义为:
6.根据权利要求5所述的基于知识迁移的电力领域文本理解模型的训练方法,其特征在于,所述知识迁移模型KTM的损失函数为:
7.根据权利要求6所述
...【技术特征摘要】
1.一种基于知识迁移的电力领域文本理解模型的训练方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于知识迁移的电力领域文本理解模型的训练方法,其特征在于,所述步骤s1中数据集d1为遍历多数据集并随机划分数据及合并数据,所述数据集d2为电力领域专业数据集。
3.根据权利要求1所述的基于知识迁移的电力领域文本理解模型的训练方法,其特征在于,所述步骤s3中的训练包括:给定一个样本形式为(x,y)的m分类数据集,通过最小化交叉熵损失函数来训练分类器,
4.根据权利要求3所述的基于知识迁移的电力领域文本理解模...
【专利技术属性】
技术研发人员:黄欣,于仕,金紫嫣,李盛盛,曹远龙,罗勇,吴光明,彭鸿钊,
申请(专利权)人:江西师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。