System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于电机控制,具体涉及一种基于强化学习的永磁同步电机转速稳定控制方法。
技术介绍
1、随着能源变革的进行,电机在能源供给、消费、技术和体制等方面发挥关键作用。特别是在新能源领域,先进电机技术在提高电机效率、降低能源消耗等方面具有重要意义,电机的智能化和精准控制技术支撑能源产业的高效运行。
2、永磁同步电机因其非线性、强耦合等特性,在控制器设计中通常被简化建模为理想模型。在这一背景条件下,电机参数时变、电机制造缺陷、安装工艺误差等因素均会导致建模误差的传递与放大,从而形成永磁同步电机的内部扰动。另一方面,逆变器非线性特性、线缆阻抗非对称、外部负载波动构成永磁同步电机的外部扰动。二者共同作用可能导致电机损耗提升、转速波动、噪音增大,甚至进一步引发整个系统振荡失稳。高性能永磁同步电机驱动系统应具备卓越的动态稳态性能,包括无静差、低超调、抗扰动等特性。转速稳定直接反映永磁同步电机驱动系统的技术水平,决定产品的市场竞争力。
3、现有的基于滑模控制和迭代学习控制的技术需要已知电机电流、电压、转速等信息,依赖于准确的建模和观测,在缺乏领域专家知识的背景下难以实现,在部分工况下无法克服高性能与系统抖振之间的矛盾,泛化性差。
4、因此,本领域的技术人员致力于开发一种基于强化学习的永磁同步电机转速稳定控制方法,以适应不同工况和环境变化,实现更灵活、智能的控制响应。
技术实现思路
1、为了弥补现有技术的不足,本专利技术目的在于提供一种基于强化学习的永磁同步电
2、为实现上述目的,本专利技术具体技术方案如下:
3、所述的一种基于强化学习的永磁同步电机转速稳定控制方法,具体步骤如下:
4、s1.获取电机实时运行数据,基于强化学习模型进行永磁同步电机前馈补偿控制和对电机转速波动的平抑;
5、s2.基于迁移学习进行由单工况向多工况、单电机向多电机的策略迁移,实现多工况、多电机的转速波动抑制;
6、s3.将设计好的强化学习模型和策略迁移方法集成到电机控制系统中,并对系统性能进行评估和优化。
7、进一步地,所述步骤s1的具体操作为:
8、s11.基于传感器设备获取电机实时运行数据;
9、s12.对采集到的数据将进行预处理和特征提取,以用于后续的控制算法;
10、s13.基于所采集到的电机实时运行数据,设计强化学习模型,该强化学习模型包括状态空间、动作空间和奖励函数;
11、s14.使用近端策略优化方法,对设计的强化学习模型进行训练,训练过程中,利用电机转速波动作为反馈信号,不断优化模型参数,使得模型能够准确地学习到前馈补偿控制策略。
12、进一步地,所述步骤s11中,电机实时运行数据包括电机直轴电流、电机交轴电流、电机转速、电机机械角度、电机伺服系统转速环pi输出。
13、进一步地,所述步骤s13中,强化学习模型的理论基础是马尔可夫决策过程,即在随机过程中,下一个状态的概率分布仅取决于当前状态,并且与过去的状态无关;强化学习的场景通常是智能体在一连串的时间步上与环境进行交互,在每一个时间步上,智能体接受当前状态智能体接受当前状态,依据当前策略选择动作,执行动作后得到奖励并进入下一个状态,强化学习的目标是最大化从初始状态开始经历几个时间步长后获得的累积奖励。
14、进一步地,所述步骤s14中,近端策略优化算法是一种基于演员评论家(actor-critic)框架的强化学习方法,演员(actor)根据当前状态(在本专利技术中为电机的当前时刻运行数据,已进行标幺化,无量纲)和概率选择合适的动作(在本专利技术中为q轴电流补偿值,已进行标幺化),与环境互动,并获得下一个状态和奖励(在本专利技术中为电机转速波动的评价指标);评论家(critic)计算当前状态的值函数和下一个状态的值函数,表示在特定的下,从状态开始,算法能够获得的期望回报,进而计算得到时间差分误差(td error)如下:
15、,
16、优化目标如下:
17、,
18、其中:
19、,
20、,
21、其中,时间差分误差反映了当前策略下,实际获得的即时奖励与预期奖励(即当前状态价值函数的估计)之间的差异,这个差异被用来更新价值函数,使其更接近真实值,从而提高策略的性能;表示有限批样本的经验平均值,在机器学习和统计学中,经验平均值是一种估计期望值的方法,它通过样本的平均来近似整个数据集的期望值;是更新后的策略参数,是更新前的策略参数,代表策略网络参数为,输入观测状态为时,输出的动作为,同理;是clip函数的一个参数,clip描述了一个截断函数,将输入值保持在和之间;
22、同时通过广义优势估计 (generalized advantage estimation, gae)来计算优势函数:
23、,
24、其中,用于度量动作的相对性能,减少策略梯度的方差,无量纲 ,,是衰减系数,用于表征未来奖励相对于当前奖励的重要性,通常取值范围在0.95-0.99之间;为超参数,在0-1之间,用于表征,时gae简化为单步时间差分误差,时gae变为未来所有时间差分误差的加权和。
25、进一步地,所述步骤s2中,所述策略迁移方法涉及基于奖励放缩的迁移强化学习,动态计算滚动折扣奖励总和的标准差,再对当前奖励进行标准化。
26、进一步地,所述迁移强化学习通过利用数据、领域和任务之间的相似性,将在源领域学习过的知识和模型,应用于目标领域,进而改进或完成目标领域的任务学习效果;领域是迁移学习的主体,包括数据及生成数据的概率分布,领域上的一个样本数据包括输入输出及其服从的概率分布,因此一个领域可以被表示为:;在迁移学习中,被迁移的领域被称为源域,而待学习的领域被称为目标域,给定源域和目标域,当至少存在特征空间不同,标签空间不同或概率分布不同时,利用源域数据去学习目标域上的预测函数,可将迁移学习形式化为:
27、,
28、式中,为机器学习的目标函数,为其满足的假设空间,表示对所有在目标域中的求期望值,为损失函数,在分类任务中常以交叉熵作为损失函数,回归问题则通常用最小均方误差作为损失函数。
29、进一步地,用和分别表示强化学习源域和目标域的马尔可夫决策过程,源域和目标域中的最优策略分别记为和,策略空间分别记为和,迁移强化学习的任务就是找到策略空间中的映射,使得:
30、。
31、与现有技术相比,本专利技术有以下优点:
32、 (1)本专利技术采用基于强化学习模型前馈控制方法,可以无需对电机伺服系统进行精确建模的前提下,对电机转速波动进行抑制, 同时对系统中的不确定性及参数变化鲁棒,为永磁本文档来自技高网...
【技术保护点】
1.一种基于强化学习的永磁同步电机转速稳定控制方法,其特征在于,所述方法的具体步骤如下:
2.根据权利要求1所述的一种基于强化学习的永磁同步电机转速稳定控制方法,其特征在于,所述步骤S1的具体操作为:
3.根据权利要求2所述的一种基于强化学习的永磁同步电机转速稳定控制方法,其特征在于,所述步骤S11中,电机实时运行数据包括电机直轴电流、电机交轴电流、电机转速、电机机械角度、电机伺服系统转速环PI输出。
4.根据权利要求2所述的一种基于强化学习的永磁同步电机转速稳定控制方法,其特征在于,所述步骤S13中,强化学习模型的理论基础是马尔可夫决策过程,即在随机过程中,下一个状态的概率分布仅取决于当前状态,并且与过去的状态无关;强化学习的场景通常是智能体在一连串的时间步上与环境进行交互,在每一个时间步上,智能体接受当前状态,依据当前策略选择动作,执行动作后得到奖励并进入下一个状态,强化学习的目标是最大化从初始状态开始经历几个时间步长后获得的累积奖励。
5.根据权利要求4所述的一种基于强化学习的永磁同步电机转速稳定控制方法,其特征在于,所述步骤
6.根据权利要求5所述的一种基于强化学习的永磁同步电机转速稳定控制方法,其特征在于,所述步骤S2中,所述策略迁移方法涉及基于奖励放缩的迁移强化学习,动态计算滚动折扣奖励总和的标准差,再对当前奖励进行标准化。
7.根据权利要求6所述的一种基于强化学习的永磁同步电机转速稳定控制方法,其特征在于,所述迁移强化学习通过利用数据、领域和任务之间的相似性,将在源领域学习过的知识和模型,应用于目标领域,进而改进或完成目标领域的任务学习效果;领域是迁移学习的主体,包括数据及生成数据的概率分布,领域上的一个样本数据包括输入输出及其服从的概率分布,因此一个领域可以被表示为:;在迁移学习中,被迁移的领域被称为源域,而待学习的领域被称为目标域,给定源域和目标域,当至少存在特征空间不同,标签空间不同或概率分布不同时,利用源域数据去学习目标域上的预测函数,可将迁移学习形式化为:
8.根据权利要求7所述的一种基于强化学习的永磁同步电机转速稳定控制方法,其特征在于,用和分别表示强化学习源域和目标域的马尔可夫决策过程,源域和目标域中的最优策略分别记为和,策略空间分别记为和,迁移强化学习的任务就是找到策略空间中的映射,使得:
...【技术特征摘要】
1.一种基于强化学习的永磁同步电机转速稳定控制方法,其特征在于,所述方法的具体步骤如下:
2.根据权利要求1所述的一种基于强化学习的永磁同步电机转速稳定控制方法,其特征在于,所述步骤s1的具体操作为:
3.根据权利要求2所述的一种基于强化学习的永磁同步电机转速稳定控制方法,其特征在于,所述步骤s11中,电机实时运行数据包括电机直轴电流、电机交轴电流、电机转速、电机机械角度、电机伺服系统转速环pi输出。
4.根据权利要求2所述的一种基于强化学习的永磁同步电机转速稳定控制方法,其特征在于,所述步骤s13中,强化学习模型的理论基础是马尔可夫决策过程,即在随机过程中,下一个状态的概率分布仅取决于当前状态,并且与过去的状态无关;强化学习的场景通常是智能体在一连串的时间步上与环境进行交互,在每一个时间步上,智能体接受当前状态,依据当前策略选择动作,执行动作后得到奖励并进入下一个状态,强化学习的目标是最大化从初始状态开始经历几个时间步长后获得的累积奖励。
5.根据权利要求4所述的一种基于强化学习的永磁同步电机转速稳定控制方法,其特征在于,所述步骤s14中,近端策略优化算法是一种基于actor-critic框架的强化学习方法,actor根据当前状态和概率选择合适的动作,与环境互动,并获得下一个状态和奖励;critic...
【专利技术属性】
技术研发人员:黄响阳,宋舜康,章建伟,彭于扬,罗响,
申请(专利权)人:浙江嘉宏运动器材有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。