System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 面向分布式大模型训练的多粒度语义树构建系统及其方法技术方案_技高网
当前位置: 首页 > 专利查询>天津大学专利>正文

面向分布式大模型训练的多粒度语义树构建系统及其方法技术方案

技术编号:44410200 阅读:0 留言:0更新日期:2025-02-25 10:23
本发明专利技术公开面向分布式大模型训练的多粒度语义树构建系统及其方法,其中:所述边缘‑云信息融合空间将云服务器的样本和文本标签嵌入收集边缘设备的公共数据集信息进行多模态数据融合;所述模型信息交互空间将云服务器的样本和文本标签嵌入采用超图聚类算法获得全局初始簇中心O<supgt;l</supgt;∈R<supgt;d×l</supgt;;所述云服务器基于初始簇中心O<supgt;l</supgt;构建语义空间所述云服务器将初始簇中心O<supgt;l</supgt;和语义空间的文本嵌入分发到各个边缘设备构建边缘‑云协同交互空间;所述云服务器生成多粒度语义树;所述边缘‑云协同交互空间构建全局粒度生成模型,本发明专利技术在构建系统中协同生成合适的数据粒度,满足异构模型的匹配需求。

【技术实现步骤摘要】

本专利技术属于大模型协同处理技术,尤其涉及面向分布式大模型训练的多粒度语义树构建系统及其方法


技术介绍

1、随着人工智能技术的快速发展,gpt4、bert等大模型不断涌现,推动了各个领域的重大突破。然而,大模型在能耗和边缘部署方面面临重大挑战,限制着大模型的应用和发展。为了解决这一问题,在构建系统中针对大小模型进行协同异构分布式训练已成为必要。为了充分利用这种协同训练的潜力,最近有些研究被提出主要集中在模型和训练上,包括轻量化模型、增强量化性能和个性化。然而,受到较少关注的一个重要因素是不同的数据粒度。

2、在分布式训练中,数据呈现多粒度,即样本相似但标签不同,这也导致训练数据呈现多样性。大多数研究采用相同的数据粒度,忽略了利用不同数据粒度的潜在好处。而实际上不同规模的模型在不同粒度的数据中存在不同表现。规模较小的模型由于处理复杂任务的能力不足,在细粒度数据上精度较低,但在粗粒度数据中表现出较高的模型和数据利用率。相反,规模较大的模型无法在粗粒度数据上充分利用它们的潜力,是对其本身模型能力的浪费。这些发现强调了将适当的数据粒度匹配到不同模型尺度的必要性,特别是在大模型时代分布式训练的复杂场景中。因此,探究如何充分利用数据粒度,可能成为推进大小模型进行精确高效的异构分布式训练的一种新突破。

3、现有技术存在缺点:

4、1、目前数据集存在的固定粒度无法满足从十亿参数到轻量级的各种模型的匹配需求。为了最大限度地发挥分布式训练的效益,达到较高的模型利用率,必须针对不同的模型规模生成适合的数据粒度。此外,由于构建系统的分散性、大规模数据挑战以及边缘敏感数据的隐私问题,集中式数据粒度生成方法是不切实际的。

5、2、由于缺乏全面的信息,难以获取所有的知识来生成不同数据粒度的转换关系,从而导致不完全生成。在分布式架构中,单个设备可能只包含部分细粒度数据,限制了全面数据粒度的构建,阻碍了新数据的粒度扩展。此外,使用单模态特征进行生成可能会混淆多粒度层次结构,因为仅使用图像特征可能难以区分视觉上相似但语义上不同的数据。因此,充分利用综合数据的多模态特征对于生成完整、鲁棒的数据粒度至关重要。

6、3、基于聚类的数据粒度生成过程受到初始状态的显著影响。然而,由于多维数据信息的混乱复杂性,获得有效的初始状态是具有挑战性的。集成来自所有边缘的异构数据是困难的,并且数据本身是大规模和高维的,这给传统的聚类方法带来了挑战。从边缘到数据的混乱复杂的信息使得难以实现稳定和全面的初始空间聚类。


技术实现思路

1、针对现有技术难题,本专利技术提供面向分布式大模型训练的多粒度语义树构建系统及其方法,本专利技术在构建系统中协同生成合适的数据粒度,满足异构模型的匹配需求;同时,本专利技术通过采用数据和模型交互的分布式机制,显著增强了大模型对小模型的指导能力,实现了高效准确的分布式训练。

2、为了解决现有技术问题,本专利技术采用如下技术方案予以实施

3、面向分布式大模型训练的多粒度语义树构建系统,所述构建系统包括云服务器和边缘设备;所述构建系统包括边缘-云信息融合空间、模型信息交互空间、边缘-云协同交互空间、多粒度语义树和全局粒度生成模型;其中:

4、所述边缘-云信息融合空间将云服务器的样本和文本标签嵌入和的形式收集边缘设备的公共数据集信息进行多模态数据融合;

5、所述模型信息交互空间将云服务器的样本和文本标签嵌入和采用

6、超图聚类算法获得全局初始簇中心ol∈rd×k;

7、所述云服务器基于初始簇中心ol在wordnet中筛选词语构建语义空间

8、所述云服务器将初始簇中心ol和语义空间的文本嵌入分发到各个边缘设备构建边缘-云协同交互空间;

9、所述云服务器将初始簇中心ol下发给各个边缘设备用于初始化各个边缘设备的粒度生成模型;

10、所述边缘-云协同交互空间将语义空间的文本嵌入下发给各个边缘设备用于指导后续边缘设备本地学习训练构建全局粒度生成模型,即:

11、

12、其中:它将标签从第l层粒度映射到第l+1层;表示边缘设备n上的样本嵌入,表示边缘设备n上样本的第l层文本标签嵌入,是边缘设备n上样本的第l+1层文本标签;φn即为边缘设备n上部署构建多粒度语义树的本地粒度生成模型参数。

13、进一步地,所述构建系统由n个边缘设备和1个云服务器组成,分别记为和c;

14、所述多粒度语义树采用分布式逐层生成不同的数据粒度,对应不同规模的模型构建l层的树状结构;即其中:第l层树节点数记为ll;

15、所述边缘设备中边对于的每个边缘设备,即作为本地样本数据集,其中:mn∈n+为样本个数在第l层粒度对应的文本标签集合记为所述边缘设备采用样本编码器g(·)生成样本嵌入所述边缘设备对于每个标签利用文本编码器z(·)得到相应的文本嵌入其中:对于边缘所述云服务器为收集一个公共数据集其中:包含来自每个边缘设备的代表性样本;mc∈n+表示中的样本个数;作为样本嵌入的集合,作为第l层粒度标签的文本嵌入,其中:表示多粒度语义树第l层样本相应的文本标签。

16、进一步地,所述模型信息交互空间将云服务器的样本和文本标签嵌入

17、和采用超图聚类算法获得全局初始簇中心ol∈rd×k过程;包括:

18、基于样本嵌入通过将vv与其最近的top-ki个邻居顶点连接,得到样本超边即:,

19、文本超边通过在当前输入第l层数据粒度上基于文本嵌入的相似性将vv与其top-kt最近的邻居顶点连接;即:

20、按照如下公式分别对εi和εt的权值进行归一化;给定关联矩阵h,定义

21、的度为:

22、

23、其中,∈∈[0,1]平衡样本和文本超边权重;

24、按照如下公式构建超图的归一化拉普拉斯矩阵为:

25、

26、其中:令和分别表示顶点度和超边度的对角矩阵;w=diag(w(e1),…,w(e|ε|))表示超边权重的对角矩阵;

27、从第l层聚类到第l+1层,在λ上使用谱聚类;并计算特征向量对应于λ的ll+1个最小非零特征值;

28、这些特征向量形成了谱嵌入矩阵

29、表示超图结构的低维编码;

30、对应用k-means聚类,得到第l层的ll+1个初始簇,记为

31、进一步地,所述云服务器将初始簇中心ol下发给各个边缘设备用于初始化各个边缘设备的粒度生成模型;包括:

32、在第l层标签的基础上构建第l+1层标签,利用当前输入第l层的文本标签获得样本描述符;

33、通过在wordnet中搜索同义词和上位词来扩展这个集合,创建一个初始语义空间

34、通过初始聚类中心ol的基础上利用faiss库完善其中:基于为每个聚类中心选择最接近的γ个名词,即:

35、

...

【技术保护点】

1.面向分布式大模型训练的多粒度语义树构建系统,所述构建系统包括云服务器和边缘设备;其特征在于:所述构建系统包括边缘-云信息融合空间、模型信息交互空间、边缘-云协同交互空间、多粒度语义树和全局粒度生成模型;其中:

2.根据权利要求1所述的面向分布式大模型训练的多粒度语义树构建系统,其特征在于:所述构建系统由N个边缘设备和1个云服务器组成,分别记为和C;

3.根据权利要求1所述的面向分布式大模型训练的多粒度语义树构建系统,其特征在于:所述模型信息交互空间将云服务器的样本和文本标签嵌入和采用超图聚类算法获得全局初始簇中心Ol∈Rd×k过程;包括:

4.根据权利要求1所述的面向分布式大模型训练的多粒度语义树构建系统,其特征在于:所述云服务器将初始簇中心Ol下发给各个边缘设备用于初始化各个边缘设备的粒度生成模型;包括:

5.根据权利要求1所述的面向分布式大模型训练的多粒度语义树构建系统,其特征在于:所述边缘-云协同交互空间将文本嵌入下发给各个边缘设备用于指导后续边缘设备本地学习训练构建全局粒度生成模型过程;包括:

6.根据权利要求5所述的面向分布式大模型训练的多粒度语义树构建系统,其特征在于:所述边缘-云协同交互空间通过联合平衡正则化的一致性损失训练本地的多粒度语义树过程,包括:

7.一种采用面向分布式大模型训练的多粒度语义树构建系统的方法,其特征在于:所述方法基于权利要求1-6任一项的系统实现构建系统数据、模型交互。

...

【技术特征摘要】

1.面向分布式大模型训练的多粒度语义树构建系统,所述构建系统包括云服务器和边缘设备;其特征在于:所述构建系统包括边缘-云信息融合空间、模型信息交互空间、边缘-云协同交互空间、多粒度语义树和全局粒度生成模型;其中:

2.根据权利要求1所述的面向分布式大模型训练的多粒度语义树构建系统,其特征在于:所述构建系统由n个边缘设备和1个云服务器组成,分别记为和c;

3.根据权利要求1所述的面向分布式大模型训练的多粒度语义树构建系统,其特征在于:所述模型信息交互空间将云服务器的样本和文本标签嵌入和采用超图聚类算法获得全局初始簇中心ol∈rd×k过程;包括:

4.根据权利要求1所述的面向分布式大模型训练的多粒度语义树构建系统...

【专利技术属性】
技术研发人员:王晓飞丁美琳赵云凤高菲张赫仇超
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1