一种AI模型训练方法及系统技术方案

技术编号：44391888 阅读：7 留言：0更新日期：2025-02-25 10:06

本发明专利技术提供了一种AI模型训练方法及系统，应用于中央服务器和与中央服务器通讯连接的多个边缘设备，其中方法包括：步骤S1：针对原始AI模型进行模型压缩与优化，得到待训练AI模型；步骤S2：对待训练AI模型进行容器化部署；步骤S3：利用各边缘设备对待训练AI模型进行分布式训练，得到各边缘设备训练得到的局部模型参数；步骤S4：利用中央服务器聚合各局部模型参数，得到全局更新后的全局模型参数；步骤S5：重复执行上述步骤S3~S4，直到达到预设模型收敛条件，即得到训练完成的目标AI模型。通过本发明专利技术，对模型结构和训练算法进行了优化，实现在资源受限的边缘设备上高效、低功耗地进行AI模型训练。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，具体涉及一种ai模型训练方法及系统。

技术介绍

1、随着物联网(iot)和移动互联网的快速发展，越来越多的智能设备被广泛应用于日常生活和工业生产中。这些设备产生的大量数据需要进行实时分析和处理，以提供更加智能化的服务。传统的集中式ai模型训练方法通常依赖于强大的云计算资源，但这会导致较高的网络延迟和带宽消耗，尤其是在处理实时性要求高的任务时。

2、近年来，边缘计算作为一种新兴的计算范式，逐渐受到关注。它将计算任务从中心云转移到更靠近数据源的边缘设备上执行，可以显著减少数据传输的时间和成本，提高系统的响应速度和可靠性。目前，已有一些基于边缘计算的ai模型训练方案，但大多数方案仍然存在以下问题：

3、1）资源消耗大：传统的模型训练方法需要大量的计算资源和内存，这在资源有限的边缘设备上难以实现；

4、2）模型复杂度高：复杂的模型虽然精度高，但在边缘设备上训练和推理的效率低下，不适合实时应用场景；

5、3）通信开销高：频繁的数据传输会增加网络带宽的消耗，影响系统的整体性能。

6、综上，现有的边缘计算平台在支持ai模型训练方面仍面临一些挑战，无法实现在资源受限的移动设备上进行高效、低功耗的模型训练。

技术实现思路

1、为此，本专利技术提供一种ai模型训练方法及系统，旨在解决现有技术中无法实现在资源受限的移动设备上进行高效、低功耗的模型训练的技术问题。

2、为实现以上目的，本专利技术采用如下技术方案：

3、依据本专利技术第一方面，本专利技术提供一种ai模型训练方法，应用于中央服务器和与所述中央服务器通讯连接的多个边缘设备，所述方法包括：

4、步骤s1：针对原始ai模型进行模型压缩与优化，得到待训练ai模型；

5、步骤s2：对所述待训练ai模型进行容器化部署，以使所述待训练ai模型能够在各所述边缘设备上无缝运行；

6、步骤s3：利用各所述边缘设备对所述待训练ai模型进行分布式训练，得到各所述边缘设备训练得到的局部模型参数，并将多个所述局部模型参数汇总至所述中央服务器；

7、步骤s4：利用所述中央服务器聚合各所述局部模型参数，得到全局更新后的全局模型参数；

8、步骤s5：重复执行上述步骤s3~s4，直到达到预设模型收敛条件，即得到训练完成的目标ai模型。

9、进一步地，所述对所述待训练ai模型进行容器化部署，以使所述待训练ai模型能够在各所述边缘设备上无缝运行，包括：

10、将所述待训练ai模型和所述待训练ai模型的训练环境一同封装至轻量的安卓容器中；

11、利用容器技术实现所述安卓容器的快速启动和资源隔离。

12、进一步地，所述利用各所述边缘设备对所述待训练ai模型进行分布式训练之前，所述方法还包括：

13、利用所述中央服务器初始化模型参数，并将初始模型参数发送至所有参与训练的边缘设备；

14、各所述边缘设备接收来自中央服务器的初始模型参数。

15、进一步地，所述利用各所述边缘设备对所述待训练ai模型进行分布式训练，得到各所述边缘设备训练得到的局部模型参数，并将多个所述局部模型参数汇总至所述中央服务器，包括：

16、利用本地数据集对所述待训练ai模型进行局部训练，得到更新后的局部模型参数；

17、各所述边缘设备将对应的局部模型参数上传至所述中央服务器；

18、所述中央服务器接收各所述边缘设备上传的局部模型参数。

19、进一步地，所述利用本地数据集对所述待训练ai模型进行局部训练，包括：

20、使用梯度下降算法对所述待训练ai模型进行局部训练；

21、利用所述本地数据集和当前模型参数进行前向传播和反向传播，计算新的局部模型参数。

22、进一步地，所述利用所述中央服务器聚合各所述局部模型参数，得到全局更新后的全局模型参数，包括：

23、所述中央服务器利用聚合算法将所有局部模型参数合并为新的全局模型参数，公式表示如下：

24、w_new=sum(n_i*w_i')/sum(n_i)

25、其中，w_new为新的全局模型参数；n_i为第i个边缘设备的数据量；w_i'为第i个边缘设备的局部模型参数。

26、进一步地，所述得到全局更新后的全局模型参数之后，所述方法还包括：

27、所述中央服务器将所述全局模型参数广播至所有参与训练的边缘设备。

28、进一步地，所述方法还包括：

29、将所述全局模型参数应用于所述待训练ai模型，并利用中央服务器和/或部分边缘设备评估所述待训练ai模型的模型性能参数；所述模型性能参数包括模型性能参数包括损失函数、准确率中至少之一；

30、根据所述模型性能参数判断所述待训练ai模型是否达到预设模型收敛条件。

31、依据本专利技术第二方面，本专利技术提供一种ai模型训练系统，所述系统包括中央服务器和与所述中央服务器通讯连接的多个边缘设备；

32、所述中央服务器和所述边缘设备用于执行如本专利技术第一方面任一项所述的ai模型训练方法。

33、本专利技术采用以上技术方案，至少具备以下有益效果：

34、通过本专利技术，提出一种基于边缘安卓容器平台的轻量ai模型训练的实现方法，通过针对原始ai模型进行模型压缩与优化，得到待训练ai模型；对所述待训练ai模型进行容器化部署，以使所述待训练ai模型能够在各所述边缘设备上无缝运行；利用各所述边缘设备对所述待训练ai模型进行分布式训练，得到各所述边缘设备训练得到的局部模型参数，并将多个所述局部模型参数汇总至所述中央服务器；利用所述中央服务器聚合各所述局部模型参数，得到全局更新后的全局模型参数；重复执行分布式训练和聚合处理，直到全局模型参数达到预设模型收敛条件，得到训练完成的目标ai模型。由此，通过优化模型结构和训练算法，实现在资源受限的边缘设备上高效、低功耗地进行ai模型训练。

35、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本专利技术。

本文档来自技高网...

【技术保护点】

1.一种AI模型训练方法，其特征在于，应用于中央服务器和与所述中央服务器通讯连接的多个边缘设备，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述待训练AI模型进行容器化部署，以使所述待训练AI模型能够在各所述边缘设备上无缝运行，包括：

3.根据权利要求1所述的方法，其特征在于，所述利用各所述边缘设备对所述待训练AI模型进行分布式训练之前，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述利用各所述边缘设备对所述待训练AI模型进行分布式训练，得到各所述边缘设备训练得到的局部模型参数，并将多个所述局部模型参数汇总至所述中央服务器，包括：

5.根据权利要求4所述的方法，其特征在于，所述利用本地数据集对所述待训练AI模型进行局部训练，包括：

6.根据权利要求3所述的方法，其特征在于，所述利用所述中央服务器聚合各所述局部模型参数，得到全局更新后的全局模型参数，包括：

7.根据权利要求1所述的方法，其特征在于，所述得到全局更新后的全局模型参数之后，所述方法还包括：

8.根据权

9.根据权利要求1~8任一项所述的方法，其特征在于，所述方法还包括：

10.一种AI模型训练系统，其特征在于，所述系统包括中央服务器和与所述中央服务器通讯连接的多个边缘设备；

...

【技术特征摘要】

1.一种ai模型训练方法，其特征在于，应用于中央服务器和与所述中央服务器通讯连接的多个边缘设备，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述待训练ai模型进行容器化部署，以使所述待训练ai模型能够在各所述边缘设备上无缝运行，包括：

3.根据权利要求1所述的方法，其特征在于，所述利用各所述边缘设备对所述待训练ai模型进行分布式训练之前，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述利用各所述边缘设备对所述待训练ai模型进行分布式训练，得到各所述边缘设备训练得到的局部模型参数，并将多个所述局部模型参数汇总至所述中央服务器，包括：

...

【专利技术属性】
技术研发人员：朱斌，陶清乾，崔涛，
申请(专利权)人：北京庭宇科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人