System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于网络层相似度的大语言模型微调方法、装置及电子设备和存储介质制造方法及图纸_技高网
当前位置: 首页 > 专利查询>清华大学专利>正文

基于网络层相似度的大语言模型微调方法、装置及电子设备和存储介质制造方法及图纸

技术编号:44695060 阅读:4 留言:0更新日期:2025-03-19 20:44
本公开涉及一种基于网络层相似度的大语言模型微调方法、装置及电子设备和存储介质,该方法包括:根据目标自然语言处理任务对应的样本数据集,确定初始大语言模型中任意两个相邻网络层之间的网络层相似度;根据初始大语言模型中任意两个相邻网络层之间的网络层相似度,构建初始大语言模型对应的子模型;根据样本数据集对子模型进行训练,确定训练后的子模型;根据训练后的子模型对应的模型参数对初始大语言模型进行调整,确定具备处理目标自然语言处理任务的能力的目标大语言模型。通过本公开实施例,可以利用网络层相似度有针对性地进行网络层选择,构建子模型以用于初始大语言模型的微调,可以保护用户数据和模型参数隐私,并提高模型微调效率。

【技术实现步骤摘要】

本公开涉及计算机,尤其涉及一种基于网络层相似度的大语言模型微调方法、装置及电子设备和存储介质


技术介绍

1、现有技术中,为了使大语言模型(large language models,llms)能够适应特定领域的任务和数据集,通常需要对llms进行微调。但是,在微调过程中可能会涉及用户的私密数据,需要避免数据泄露,提高微调过程的安全性和隐私性。另一方面,由于llms的模型参数的数量通常较大,直接对整个llms进行微调需要耗费大量的计算成本和时间成本,并且会限制llms模型的可用性和灵活性,在资源受限的应用场景下难以实现高效的模型微调。


技术实现思路

1、有鉴于此,本公开提出了一种基于网络层相似度的大语言模型微调方法、装置及电子设备和存储介质的技术方案。

2、根据本公开的一方面,提供了一种基于网络层相似度的大语言模型微调方法,包括:根据目标自然语言处理任务对应的样本数据集,确定初始大语言模型中任意两个相邻网络层之间的网络层相似度;根据所述初始大语言模型中任意两个相邻网络层之间的网络层相似度,构建所述初始大语言模型对应的子模型;根据所述样本数据集,对所述子模型进行训练,确定训练后的子模型;根据所述训练后的子模型对应的模型参数,对所述初始大语言模型进行调整,确定目标大语言模型,其中,所述目标大语言模型具备处理所述目标自然语言处理任务的能力。

3、在一种可能的实现方式中,所述根据目标自然语言处理任务对应的样本数据集,确定初始大语言模型中任意两个相邻网络层之间的网络层相似度,包括:将所述样本数据集包括的任意一个样本数据输入所述初始大语言模型后,针对所述初始大语言模型任意一个网络层,根据该网络层的输出数据,确定该网络层对应的输出特征;根据每个网络层对应的输出特征,确定任意两个相邻网络层之间的网络层相似度。

4、在一种可能的实现方式中,任意一个网络层对应的输出特征,包括该网络层对应的句向量;所述将所述样本数据集包括的任意一个样本数据输入所述初始大语言模型后,针对所述初始大语言模型任意一个网络层,根据该网络层的输出数据,确定该网络层对应的输出特征,包括:针对所述初始大语言模型任意一个网络层,根据输入所述初始大语言模型的样本数据的输入序列长度,确定该网络层的输出数据中每个位置令牌对应的隐层输出状态和位置权重;针对所述初始大语言模型任意一个网络层,根据该网络层的输出数据中每个位置令牌对应的隐层输出状态和位置权重,确定该网络层对应的句向量。

5、在一种可能的实现方式中,所述根据每个网络层对应的输出特征,确定任意两个相邻网络层之间的网络层相似度,包括:利用中心核分析方法,根据每个网络层对应的句向量,确定任意两个相邻网络层之间的网络层相似度。

6、在一种可能的实现方式中,所述根据所述初始大语言模型中任意两个相邻网络层之间的网络层相似度,构建所述初始大语言模型对应的子模型,包括:利用层次化聚类方法,根据任意两个相邻网络层之间的网络层相似度,对所述初始大语言模型的所有网络层进行迭代聚类,确定多个聚类集合,以及每个聚类集合对应的聚类索引,直至聚类集合的数量等于预设可保存网络层数量,其中,任意一个聚类集合包括多个相邻的网络层,任意一个聚类集合对应的聚类索引包括该聚类集合包括的网络层的数量,以及该聚类集合中每个网络层在所述初始大语言模型中的位置;针对任意一个聚类集合,根据该聚类集合对应的聚类索引,在该聚类集合包括的多个网络层中,确定该聚类集合对应的代表网络层;根据每个聚类集合对应的代表网络层,确定所述子模型。

7、在一种可能的实现方式中,所述根据每个聚类集合对应的代表网络层,确定所述子模型,包括:针对任意一个聚类集合,根据该聚类集合对应的聚类索引,对该聚类集合对应的代表网络层进行复制,确定该聚类集合对应的复制后的多个代表网络层,其中,复制后的代表网络层的数量等于该聚类集合包括的网络层的数量;根据每个聚类集合对应的聚类索引,连接每个聚类集合对应的多个代表网络层,确定所述子模型。

8、在一种可能的实现方式中,所述根据所述训练后的子模型对应的模型参数,对所述初始大语言模型进行调整,确定目标大语言模型,包括:利用每个聚类集合对应的聚类索引,确定所述训练后的子模型与所述初始大语言模型之间的参数对应关系;根据所述参数对应关系和所述训练后的子模型对应的模型参数,对所述初始大语言模型对应的模型参数进行替换,确定所述目标大语言模型。

9、根据本公开的另一方面,提供了一种种基于网络层相似度的大语言模型微调装置,包括:相似度分析模块,用于根据目标自然语言处理任务对应的样本数据集,确定初始大语言模型中任意两个相邻网络层之间的网络层相似度;子模型构建模块,用于根据所述初始大语言模型中任意两个相邻网络层之间的网络层相似度,构建所述初始大语言模型对应的子模型;子模型训练模块,用于根据所述样本数据集,对所述子模型进行训练,确定训练后的子模型;模型参数调整模块,用于根据所述训练后的子模型对应的模型参数,对所述初始大语言模型进行调整,确定目标大语言模型,其中,所述目标大语言模型具备处理所述目标自然语言处理任务的能力。

10、根据本公开的另一方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为在执行所述存储器存储的指令时,实现上述方法。

11、根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述方法。

12、本公开实施例中,根据目标自然语言处理任务对应的样本数据集,确定初始大语言模型中任意两个相邻网络层之间的网络层相似度,从而可以根据初始大语言模型中任意两个相邻网络层之间的网络层相似度,识别初始大语言模型中结构和功能相似的网络层,通过移除相似度较高的冗余网络层,充分利用初始大语言模型内部涌现的模块化结构,构建初始大语言模型对应的子模型。根据样本数据集,可以对子模型进行训练,确定训练后的子模型,进而可以根据训练后的子模型对应的模型参数,对初始大语言模型进行有针对性的高效调整,将训练后的子模型中获取的与目标自然语言处理任务相关的知识融合到初始大语言模型,确定具备处理目标自然语言处理任务的能力的目标大语言模型。通过本公开实施例,一方面可以保证初始大语言模型对应的模型参数不会全部泄露,另一方面可以避免可能涉及用户隐私的样本数据集的向外传输,从而能够在提高模型微调的效率的同时,全面提高模型微调的安全性和隐私保护能力。

13、根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。

本文档来自技高网...

【技术保护点】

1.一种基于网络层相似度的大语言模型微调方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据目标自然语言处理任务对应的样本数据集,确定初始大语言模型中任意两个相邻网络层之间的网络层相似度,包括:

3.根据权利要求2所述的方法,其特征在于,任意一个网络层对应的输出特征,包括该网络层对应的句向量;

4.根据权利要求3所述的方法,其特征在于,所述根据每个网络层对应的输出特征,确定任意两个相邻网络层之间的网络层相似度,包括:

5.根据权利要求1至4中任意一项所述的方法,其特征在于,所述根据所述初始大语言模型中任意两个相邻网络层之间的网络层相似度,构建所述初始大语言模型对应的子模型,包括:

6.根据权利要求5所述的方法,其特征在于,所述根据每个聚类集合对应的代表网络层,确定所述子模型,包括:

7.根据权利要求5所述的方法,其特征在于,所述根据所述训练后的子模型对应的模型参数,对所述初始大语言模型进行调整,确定目标大语言模型,包括:

8.一种基于网络层相似度的大语言模型微调装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。

...

【技术特征摘要】

1.一种基于网络层相似度的大语言模型微调方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据目标自然语言处理任务对应的样本数据集,确定初始大语言模型中任意两个相邻网络层之间的网络层相似度,包括:

3.根据权利要求2所述的方法,其特征在于,任意一个网络层对应的输出特征,包括该网络层对应的句向量;

4.根据权利要求3所述的方法,其特征在于,所述根据每个网络层对应的输出特征,确定任意两个相邻网络层之间的网络层相似度,包括:

5.根据权利要求1至4中任意一项所述的方法,其特征在于,所述根据所述初始大语言模型中任意两个相邻网络层之间的网络层相...

【专利技术属性】
技术研发人员:张开颜丁宁龙鑫玮周伯文
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1