基于强化学习的速调管状态反馈控制方法技术

技术编号：44341754 阅读：13 留言：0更新日期：2025-02-18 20:54

本发明专利技术提供一种基于强化学习的速调管状态反馈控制方法，包括：建立强化学习模型，基于速调管的状态来定义状态，基于低电平控制系统的幅度与相位设置值来定义动作，基于速调管当前与理想状态的偏离程度及动作后偏离程度的变化量来定义奖励，使用引擎接收来自于环境的幅度与相位设置值，并将得到的速调管的状态发送给环境；在训练模式下使用虚拟引擎以加速模型训练，在控制模式下则切换到真实引擎并利用以上述模型为反馈算法的低电平控制系统对实际加速器的速调管状态进行反馈控制。本发明专利技术的方法能提升低电平控制系统对速调管状态的控制精度，使速调管输出更加稳定，且能大幅减少反馈控制算法迭代到最优过程所需的训练时间。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及加速器测控领域，是一种基于强化学习的速调管状态反馈控制方法，属于新一代信息。

技术介绍

1、微波系统作为粒子加速器中的一个关键组成部分，可以为带电粒子提供能量使其加速。束流的能量、能散、发射度和束流品质都会直接受到微波场稳定性的影响，因此控制微波场的幅度与相位稳定对加速器性能的提升有重要意义。

2、典型的微波系统主要由信号源、低电平控制系统（low-level rf system, llrf）与高功率微波系统组成。其中高功率微波系统主要包括固态放大器、速调管、波导以及谐振腔。低电平控制系统输出一个调制后的激励信号后，经固态放大器初步放大送入速调管内，再由速调管输出的高功率高频信号通过波导馈入谐振腔中，带电粒子在谐振腔中获得高频信号的能量，完成加速过程。

3、在实际环境中，微波系统会受冷却水温度、高压调制器稳定性等各方面因素的影响，其实际输出的幅度与相位会逐渐偏离设置值，为了使微波系统输出的幅度与相位稳定，一般是通过低电平控制系统控制速调管输出的幅度与相位稳定，这就需要低电平控制系统采用一种反馈控制算法来对速调管的输出进行控制，所述反馈控制算法通过改变低电平控制系统输出的幅度与相位的设置值进而改变速调管输出的幅度与相位。

4、具体来说，我们想让带电粒子加速，需要控制微波场的幅度与相位为某一组确定的值。高功率微波系统中速调管输出的信号含有微波场的幅度与相位信息，低电平控制系统可以将该信号进行下变频并解调计算得到微波场的幅度与相位信息。低电平控制系统在计算出速调管中信号的幅度与相位后，

5、目前低电平控制系统多采用pi（proportion integration，比例积分）控制器作为反馈控制算法，虽然它简单易实现且具有较好的通用性，但是由于速调管在振幅和相位上输入输出特性的非线性，以及低电平控制系统在iq（in-phasequadrature，同相正交）调制时的射频参考泄露和不平衡，会使得低电平控制系统的幅度设置值变化的同时速调管输出信号的相位也会改变，而低电平控制系统相位设置值变化的同时速调管输出信号的幅度也会改变，即速调管实际输出的幅度与相位之间存在耦合关系，且这个耦合关系难以定量解出。而传统低电平控制系统的反馈算法pi控制器是单变量控制器，仅适用于只有一个被控变量或彼此之间可以独立操作的多个被控变量的控制问题，当想要同时控制速调管输出的幅度与相位稳定，pi控制器就会因为被控量之间的相互影响而无法很好的工作。此外，在使用pi控制器时参数选取不当会使系统震荡或调整速度变慢，大大降低系统的可靠性和可用性，而想要选出一组合适的参数需要大量尝试且无法确定当前参数是否为最优参数。

6、因此，有必要结合人工智能提出一种新的低电平控制系统反馈控制及离线训练方法，以提高低电平系统的反馈控制精度并大幅度减少反馈控制算法迭代到最优过程所需的训练时间。

技术实现思路

1、本专利技术的目的在于提供一种基于强化学习的速调管状态反馈控制方法，以提高低电平系统的反馈控制精度并大幅度减少反馈控制算法迭代到最优过程所需的训练时间。

2、为了实现上述目的，本专利技术提供一种基于强化学习的速调管状态反馈控制方法，包括：

3、s1：建立具有智能体和环境的强化学习模型；所述强化学习模型至少基于速调管的状态来定义状态，至少基于低电平控制系统的幅度与相位的设置值来定义动作；在环境中至少基于速调管的当前状态相对于速调管的理想状态的偏离程度以及采取动作后偏离程度的变化量来定义奖励；

4、s2：在环境内设置引擎，使得所述引擎接收来自于环境的低电平控制系统的幅度与相位的设置值，并将对应的速调管的状态发送给所述环境，所述引擎包括虚拟引擎和真实引擎，真实引擎包括实际加速器中的低电平控制系统以及速调管；

5、s3：对所述强化学习模型进行训练，之后将训练好的模型用于反馈控制；在训练模式下切换到所述虚拟引擎，在控制模式下切换到所述真实引擎，以通过基于强化学习模型作为反馈控制算法的低电平控制系统实现对实际加速器中速调管状态的反馈控制。

6、所述动作是下一步低电平控制系统输出的幅度与相位的设置值与当前的低电平控制系统的幅度与相位的设置值的差值；所述状态为速调管的状态与理想状态的差值；所述奖励通过奖励函数计算得到，包括单步奖励 r t以及在任务完成时引入的任务完成奖励。

7、所述单步奖励 r t为：

8、；

9、其中， r t是单步奖励， r diff是惩罚项， r action是动作奖励， α是以一个小于0的数，表示惩罚项权重；

10、惩罚项 r diff为：

11、；

12、其中，为在第t步时速调管的状态与理想状态的偏离程度，，[ i]表示向量的第 i个元素，因此、分别表示状态差值中的第一个元素和第二个元素， k是缩放因子；

13、奖励项为：

14、；

15、其中，表示采取动作后偏离程度的变化量，，为在第 t步时速调管的状态与理想状态的偏离程度，为第 t-1步时速调管的状态与理想状态的偏离程度，[ i]表示向量的第 i个元素， m表示若采取的动作使速调管状态相比上一步更加靠近理想状态所获得的奖励， n为一个小于0的数，表示若采取的动作使速调管状态相比上一步更加远离理想状态所得到的惩罚， i为指示函数。

16、所述步骤s3具体包括：在训练模式下，智能体根据环境返回的状态选择动作并根据储存的数据不断调整自身的网络参数以获得更优的选择动作的策略，直到训练完成，切换到控制模式；在控制模式下，智能体根据固定的网络参数选择动作，以实现对真实引擎中速调管状态的反馈控制。

17、所述真实引擎是真实加速器，其包括低电平控制系统与速调管。

18、所述虚拟引擎是离线的速调管输入输出的拟合模型，所述拟本文档来自技高网...

【技术保护点】

1.一种基于强化学习的速调管状态反馈控制方法，其特征在于，包括：

2.根据权利要求1所述的基于强化学习的速调管状态反馈控制方法，其特征在于，所述动作是下一步低电平控制系统输出的幅度与相位的设置值与当前的低电平控制系统的幅度与相位的设置值的差值；所述状态为速调管的状态与理想状态的差值；所述奖励通过奖励函数计算得到，包括单步奖励rt以及在任务完成时引入的任务完成奖励。

3.根据权利要求2所述的基于强化学习的速调管状态反馈控制方法，其特征在于，所述单步奖励rt为：

4.根据权利要求1所述的基于强化学习的速调管状态反馈控制方法，其特征在于，所述步骤S3具体包括：在训练模式下，智能体根据环境返回的状态选择动作并根据储存的数据不断调整自身的网络参数以获得更优的选择动作的策略，直到训练完成，切换到控制模式；在控制模式下，智能体根据固定的网络参数选择动作，以实现对真实引擎中速调管状态的反馈控制。

5.根据权利要求1所述的基于强化学习的速调管状态反馈控制方法，其特征在于，所述真实引擎是真实加速器，其包括低电平控制系统与速调管。

6.根据权

7.根据权利要求6所述的基于强化学习的速调管状态反馈控制方法，其特征在于，所述拟合模型采用多层感知机网络，其含有至少一个隐藏层且由全连接层组成，并且采用ReLU函数作为激活函数。

8.根据权利要求6所述的基于强化学习的速调管状态反馈控制方法，其特征在于，在所述步骤S2中，获取速调管输入输出的拟合模型，以作为虚拟引擎，具体包括：

9.根据权利要求8所述的基于强化学习的速调管状态反馈控制方法，其特征在于，步骤S22具体包括：首先选定速调管的理想状态，记录速调管的理想状态下低电平控制系统的幅度与相位的设置值，然后以这个设置值为中心值确定低电平控制系统的幅度与相位的设置值的调整范围；随后，在调整范围内，设置并记录多组不同的低电平控制系统的幅度与相位的设置值，同时记录下在该设置值下速调管输出的幅度与相位，以采集得到拟合模型的训练数据集。

10.根据权利要求8所述的基于强化学习的速调管状态反馈控制方法，其特征在于，在所述步骤S23之前，还包括步骤S230：对拟合模型的训练数据集进行预处理，具体包括：将低电平控制系统的同一幅度与相位的设置值下的多个速调管输出的幅度与相位取平均，作为该设置值下速调管输出的幅度与相位；和/或，对拟合模型的训练数据集中的速调管输出的幅度进行滤波，使得滤波后的数据作为训练时采用的训练数据集；和/或，对训练数据集中的数据进行线性插值，使得插值后得到的数据集作为训练时采用的训练数据集；和/或，对训练数据集进行线性归一化处理，使得训练数据集的所有输入和输出参数都通过线性变换映射到[0,1]区间；和/或

...

【技术特征摘要】

1.一种基于强化学习的速调管状态反馈控制方法，其特征在于，包括：

3.根据权利要求2所述的基于强化学习的速调管状态反馈控制方法，其特征在于，所述单步奖励rt为：

4.根据权利要求1所述的基于强化学习的速调管状态反馈控制方法，其特征在于，所述步骤s3具体包括：在训练模式下，智能体根据环境返回的状态选择动作并根据储存的数据不断调整自身的网络参数以获得更优的选择动作的策略，直到训练完成，切换到控制模式；在控制模式下，智能体根据固定的网络参数选择动作，以实现对真实引擎中速调管状态的反馈控制。

5.根据权利要求1所述的基于强化学习的速调管状态反馈控制方法，其特征在于，所述真实引擎是真实加速器，其包括低电平控制系统与速调管。

6.根据权利要求1所述的基于强化学习的速调管状态反馈控制方法，其特征在于，所述虚拟引擎是离线的速调管输入输出的拟合模型，所述拟合模型设置为在接收到环境输入的低电平控制系统的幅度与相位的设置值后，预测得到相应设置值下真实加速器中的速调管状态。

7.根据权利要求6所述的基于强化学习的速调管状态反馈控制方法，其...

【专利技术属性】
技术研发人员：魏征宇，周泽然，谢春杰，王琳，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人