一种基于强化学习的压水堆堆芯自动控制方法技术

技术编号：28679881 阅读：15 留言：0更新日期：2021-06-02 02:57

本发明专利技术公开了一种基于强化学习的压水堆堆芯自动控制方法，包括以下步骤：S1、获取参数控制目标；S2、在压水堆堆芯控制器中加入基于DQN的预先训练好的强化学习模块，然后将参数控制目标传递至强化学习模块；S3、通过强化学习模块获取实现参数控制目标的多个策略；S4、选择最优策略作为控制策略传递至控制器；S5、控制器基于控制策略控制压水堆堆芯的执行器执行相应动作；S6、控制器获取执行过程中压水堆堆芯内产生的物理量，以及动作和参数轨迹。本发明专利技术通过引入人工智能技术，提升了核电站运行的效率，完全不需要人的参与便可自动完成。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的压水堆堆芯自动控制方法
本专利技术涉及核反应堆自动控制方法领域，具体是一种基于强化学习的压水堆堆芯自动控制方法。
技术介绍
典型的传统压水反应堆的一回路功率调节系统包括：发电机功率调节、冷却剂平均温度及控制棒位置调节、硼浓度调节、蒸汽旁通控制系统及闭锁系统。其中发电机功率调节及其所附属的汽轮机调节是外部调节，即不与反应堆堆芯交互或者作用而调节反应堆的功率(因为反应堆功率由一回路热量输出，进而蒸发冷凝水而推动汽轮机转动发电，因而反应堆的外在功率会因汽轮机的参数而不同)；蒸汽旁通控制系统用作功率调节系统的辅助，而闭锁系统则是为了防止控制棒提升过大而导致紧急停堆。冷却剂平均温度及控制棒位置调节与硼浓度调节是反应堆中最常见的通过直接与反应堆堆芯交互而调节堆芯功率的手段。核电站发电需要反应堆堆芯能够持续释放出裂变能以转化为热能并最终转化为电能；而这一切的前提条件是堆芯需要超临界，也就是需要保证产生的中子数多于损失的中子(即实现中子的链式自持)。反应堆是否临界通常用反应性ρ＞1表示，若ρ＜1，则次临界；若ρ＝1，则反应堆临界；若ρ＞1，则超临界。而反应性是冷却剂温度、慢化剂温度(慢化剂用于慢化中子速度)等物理量的函数。硼会增强慢化剂对中子的寄生吸收，会对慢化剂温度系数造成影响；而控制棒调节则会引入外来反应性，因此冷却剂平均温度调控、控制棒位置调控、硼浓度调节对堆芯功率有直接影响。目前已有一些用于核反应堆堆芯控制的系统和方法，如公开号为CN106340331B的中国专利：一种用于核反应堆功率的自抗...

【技术保护点】
1.一种基于强化学习的压水堆堆芯自动控制方法，其特征在于，包括以下步骤：/nS1、获取需要实现的参数控制目标；/nS2、在压水堆堆芯控制器中加入基于DQN的强化学习模块，并采用专家数据作为训练集预先训练强化学习模块，然后将步骤S1获取的参数控制目标传递至预先训练好的强化学习模块；/nS3、通过强化学习模块获取实现参数控制目标的多个策略；/nS4、对步骤S3获取的多个策略进行评估，选择其中最优策略作为控制策略传递至控制器；/nS5、控制器基于步骤S4得到的控制策略，控制压水堆堆芯的执行器执行相应动作，从而形成实现参数控制目标的动作和参数轨迹；/nS6、控制器获取执行过程中压水堆堆芯内产生的物理量，以及动作和参数轨迹。/n

【技术特征摘要】
1.一种基于强化学习的压水堆堆芯自动控制方法，其特征在于，包括以下步骤：
S1、获取需要实现的参数控制目标；
S2、在压水堆堆芯控制器中加入基于DQN的强化学习模块，并采用专家数据作为训练集预先训练强化学习模块，然后将步骤S1获取的参数控制目标传递至预先训练好的强化学习模块；
S3、通过强化学习模块获取实现参数控制目标的多个策略；
S4、对步骤S3获取的多个策略进行评估，选择其中最优策略作为控制策略传递至控制器；
S5、控制器基于步骤S4得到的控制策略，控制压水堆堆芯的执行器执行相应动作，从而形成实现参数控制目标的动作和参数轨迹；
S6、控制器获取执行过程中压水堆堆芯内产生的物理量，以及动作和参数轨迹。

2.根据权利要求1所述的一种基于强化学习的压水堆堆芯自动控制方法，其特征在于，步骤S1中，根据设定的压水堆堆芯工作要求，由操作人员人工向控制器输入参数控制目标。

3.根据权利要求1所述的一种基于强化学习的压水堆堆芯自动控制方法，其特征在于，步骤S2中，所述专家数据由以往压水堆堆芯控制过程中，操作员手动操控控制实现对应参...

【专利技术属性】
技术研发人员：李秀，吕加飞，杨瑞，
申请(专利权)人：清华大学深圳国际研究生院，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人