一种基于深度强化学习的电机自适应控制方法及系统技术方案

技术编号：42469899 阅读：4 留言：0更新日期：2024-08-21 12:55

本发明专利技术涉及电机自适应控制方法技术领域，更具体地说，涉及一种基于深度强化学习的电机自适应控制方法及系统，方法包括以下步骤：获取电机运动系统的状态信息；基于所述状态信息，通过深度神经网络近似Q函数；利用创新型深度Q学习算法更新所述深度神经网络；基于更新后的深度神经网络，确定电机控制动作；将所述电机控制动作应用于电机运动系统；在线收集新的状态信息和奖励信息；基于所述新的状态信息和奖励信息，对所述深度神经网络进行在线微调。通过创新的深度Q学习算法，实现了比传统方法更高的控制精度，稳态误差降低至0.05%。采用自适应噪声注入策略和分布式Q学习机制，使得系统能够快速适应负载变化，调节时间缩短至15ms。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及电机自适应控制方法，更具体地说，涉及一种基于深度强化学习的电机自适应控制方法及系统。

技术介绍

1、电机控制技术在工业自动化、电动汽车、机器人等领域扮演着至关重要的角色。随着应用场景的日益复杂化和性能要求的不断提高，传统的电机控制方法面临着诸多挑战。现有的主要控制方法及其问题如下：

2、1.传统pid控制：pid控制因其简单、可靠而被广泛应用。然而，在面对非线性、时变系统时，pid控制难以实现高精度控制。其参数整定通常依赖经验，缺乏自适应能力，难以应对负载突变、参数漂移等复杂情况。在高动态性能要求下，pid控制的响应速度和抗扰动能力往往不能满足要求。

3、2.模型预测控制（mpc）：mpc通过预测模型和滚动优化策略来实现控制。它能够处理多变量、约束问题，但严重依赖于精确的系统模型。在实际应用中，由于电机参数漂移、负载变化等因素，准确建模往往很困难。此外，mpc的实时计算复杂度较高，在高速控制场景下可能面临实时性问题。

4、3.智能控制方法：近年来，模糊控制、神经网络控制等智能控制方法得到了广泛研究。这些方法具有一定的自学习和自适应能力，但存在以下问题：

5、模糊控制：规则库的设计依赖专家经验，难以覆盖所有可能的工况。

6、神经网络控制：训练过程复杂，实时学习能力有限，且存在局部最优的问题。

7、4.深度强化学习控制：作为一种新兴的控制方法，深度强化学习（drl）在电机控制领域展现出巨大潜力。然而，现有的drl控制算法（如常规dqn）仍存在一些关键问题：

8、a）样本效率低：传统的经验回放机制随机采样，忽视了样本的重要性差异，导致学习效率不高。

9、b）估值偏差：常规dqn易出现q值过估计问题，影响控制策略的稳定性和优化效果。

10、c）探索效率：固定的探索策略（如ε－贪婪）难以在探索与利用之间取得良好平衡，特别是在电机系统这样的连续控制问题中。

11、d）分布估计：传统dqn仅估计q值的期望，忽视了不确定性信息，难以应对复杂的概率分布情况。

12、e）灾难性遗忘：在线学习过程中，新数据可能导致网络遗忘先前学到的知识，影响控制性能的连续性。

13、f）超参数敏感：drl算法的性能对超参数（如学习率、折扣因子等）高度敏感，但缺乏有效的自动调优机制。

14、这些问题严重制约了深度强化学习在电机控制领域的实际应用，特别是在要求高精度、快速响应、强鲁棒性的场景中。

15、鉴于上述现有技术的不足，亟需一种能够克服这些问题的新型电机自适应控制方法。本专利技术提出的基于深度强化学习的电机自适应控制方法正是针对这些挑战而设计的。

技术实现思路

1、针对上述技术问题，本专利技术提出一种基于深度强化学习的电机自适应控制方法及系统。

2、本专利技术提供基于深度强化学习的电机自适应控制方法，包括以下步骤：

3、获取电机运动系统的状态信息；

4、基于所述状态信息，通过深度神经网络近似q函数；

5、利用创新型深度q学习算法更新所述深度神经网络；

6、基于更新后的深度神经网络，确定电机控制动作；

7、将所述电机控制动作应用于电机运动系统；

8、在线收集新的状态信息和奖励信息；

9、基于所述新的状态信息和奖励信息，对所述深度神经网络进行在线微调。

10、具体地，所述状态信息包括电机转速、电机转矩、三相电流、、、三相电压、、、转子位置角、绕组温度、定子温度和磁链估计值所述状态信息经过以下预处理步骤：a)采用小波阈值去噪方法，选用db4小波，使用软阈值函数进行5层分解重构；b)对每个维度应用z-score标准化：，其中为原始数据，和分别为该维度的均值和标准差，为标准化后的数据。

11、具体地，所述深度神经网络为多层感知机结构，包括：

12、输入层：具有与状态信息维度相等的节点数；

13、隐藏层1：具有256个节点，激活函数为mish函数；

14、隐藏层2：具有128个节点，激活函数为mish函数；

15、输出层：具有与动作空间维度相等的节点数，无激活函数；

16、其中，mish函数定义为：网络参数初始化采用he初始化方法：，其中为第层的权重矩阵，为该层的输入神经元数量，表示均值为、标准差为的正态分布。

17、具体地，所述创新型深度q学习算法包括基于信息熵的优先经验回放机制，其实现步骤如下：

18、a)计算状态的信息熵：其中为状态下选择动作的概率；

19、b)计算样本优先级：，其中为样本优先级，为td误差，为小正数，为td误差指数，为状态的信息熵，为小正数，为熵指数；

20、c）根据样本优先级构建优先级树数据结构，用于高效采样；

21、d）从中采样进行训练，采样概率与成正比。

22、具体地，所述创新型深度q学习算法还包括具有自适应软更新机制的双q网络结构，其实现步骤如下：

23、a）初始化主q网络参数和目标q网络参数

24、b)计算参数差异度：

25、其中表示l2范数；

26、c）计算自适应软更新系数：

27、其中和分别为软更新系数的下限和上限，为斜率参数（如10）,为差异度阈值，为sigmoid函数；

28、d)更新目标q网络参数：。

29、具体地，所述创新型深度q学习算法还包括状态相关的自适应噪声注入探索策略，其实现步骤如下：

30、a）定义状态特征表示函数

31、b)计算噪声均值：，其中为可学习的权重矩阵，为可学习的偏置向量；

32、c)计算噪声标准差：，其中为可学习的权重矩阵，为可学习的偏置向量，

33、d）生成噪声：

34、e)计算带噪声的q值：，其中为q网络输出值。

35、具体地，所述创新型深度q学习算法还包括具有自适应分位数的分布式q学习机制，其实现步骤如下：

36、a）初始化个分位数，均匀分布在[0,1]区间；

37、b)对每个状态-动作对，计算个分位数值：

38、c)计算分布式td误差：，其中为奖励，为折扣因子，，为下一个状态，即执行动作a后系统从当前状态s转移到的新状态；

39、d)计算量化回归损失：，其中,为huber损失函数；

40、e)更新分位数：；

41、其中为学习率，为将截断到区间的函数。

42、具体地，所述电机控制动作的确定步骤包括：

43、a)定义连续动作空间，其中、为d-q轴电压，为开关频率，为磁链虚拟控制变量；

44、b)计算网格密度函数：，其中为函数对动作的梯度，为平滑参数；

45、c)计算自适应网格点数：其中为状态的信息熵，为本文档来自技高网...

【技术保护点】

1.基于深度强化学习的电机自适应控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述创新型深度Q学习算法包括基于信息熵的优先经验回放机制，其实现步骤如下：

3.根据权利要求1所述的方法，其特征在于，所述创新型深度Q学习算法还包括具有自适应软更新机制的双Q网络结构，其实现步骤如下：

4.根据权利要求1所述的方法，其特征在于，所述创新型深度Q学习算法还包括状态相关的自适应噪声注入探索策略，其实现步骤如下：

5.根据权利要求1所述的方法，其特征在于，所述创新型深度Q学习算法还包括具有自适应分位数的分布式Q学习机制，其实现步骤如下：

6.根据权利要求1所述的方法，其特征在于，所述电机控制动作的确定步骤包括：

7.根据权利要求1所述的方法,其特征在于，所述在线微调步骤包括：

8.基于深度强化学习的电机自适应控制系统，其特征在于，包括：状态信息获取模块，用于获取电机运动系统的状态信息；

【技术特征摘要】

1.基于深度强化学习的电机自适应控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述创新型深度q学习算法包括基于信息熵的优先经验回放机制，其实现步骤如下：

3.根据权利要求1所述的方法，其特征在于，所述创新型深度q学习算法还包括具有自适应软更新机制的双q网络结构，其实现步骤如下：

4.根据权利要求1所述的方法，其特征在于，所述创新型深度q学习算法还包括状态相关的自适应噪声注入探索...

【专利技术属性】
技术研发人员：李晶，林福，
申请(专利权)人：闽西职业技术学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人