用于控制技术系统的控制装置以及用于配置控制装置的方法制造方法及图纸

技术编号:39007646 阅读:15 留言:0更新日期:2023-10-07 10:38
根据本发明专利技术,技术系统(TS)的运行信号(BS)被馈入到第一机器学习模块(NN1)中,所述第一机器学习模块被训练用以再现技术系统的特定地在当前不应用控制动作的情况下出现的行为信号,并且作为第一输出信号输出所再现的行为信号(VSR1)。第一输出信号(VSR1)被馈入到第二机器学习模块(NN2)中,所述第二机器学习模块被训练用以根据控制动作信号(AS)再现技术系统的从中得到的行为信号并且作为第二输出信号输出所再现的行为信号(VSR2)。此外,技术系统的运行信号(BS)被馈入到第三机器学习模块(NN3)中并且第三机器学习模块(NN3)的第三输出信号(AS)被馈入到经训练的第二机器学习模块(NN2)中。根据第二输出信号(VSR2)确定控制动作性能(Q)。从而,第三机器学习模块(NN3)被训练用以优化控制动作性能(Q)。通过训练第三机器学习模块(NN3)配置控制装置(CTL)用于控制技术系统。制技术系统。制技术系统。

【技术实现步骤摘要】
【国外来华专利技术】用于控制技术系统的控制装置以及用于配置控制装置的方法
[0001]在控制复杂的技术系统、诸如燃气轮机、风力涡轮机、内燃机、机器人、加工设施或电网时,越来越多地使用机器学习的方法。借助于这种学习方法,可以根据训练数据训练控制装置的机器学习模型,用于从技术系统的当前运行信号出发来确定用于控制技术系统的特定地引起技术系统的期望的或经优化的行为并且从而优化其性能的那些控制动作。用于控制技术系统的这种机器学习模型经常也被称为策略(Policy)或控制模型。大量已知的训练方法、诸如强化学习的方法可用于训练这样的策略。
[0002]然而,在工业环境中的控制优化时,在许多已知的训练方法的情况下出现收敛性问题和/或关于学习过程的可重复性的问题。这可能例如可归因于:仅技术系统的状态空间的一小部分被考虑,技术系统的传感器数据是有噪声的(verrauscht)和/或控制动作通常以时间延迟的方式产生作用(auswirken),其中不同的控制动作经常导致不同的时间延迟。上述症状经常在复杂的真实系统的情况下出现,并且可能显著地影响学习成果。
[0003]本专利技术的任务是说明允许更高效的训练的用于控制技术系统的控制装置以及用于配置控制装置的方法。
[0004]该任务通过具有专利权利要求1的特征的方法、通过具有专利权利要求12的特征的控制装置、通过具有专利权利要求13的特征的计算机程序产品以及通过具有专利权利要求14的特征的计算机可读存储介质来解决。
[0005]为了配置用于技术系统的控制装置,技术系统的运行信号被馈入到第一机器学习模块中,所述第一机器学习模块被训练用以根据技术系统的运行信号再现技术系统的特定地在当前不应用控制动作的情况下出现的行为信号,并且作为第一输出信号输出所再现的行为信号。第一输出信号被馈入到第二机器学习模块中,所述第二机器学习模块被训练用以根据控制动作信号再现技术系统的从中得到的行为信号并且作为第二输出信号输出所再现的行为信号。此外,技术系统的运行信号被馈入到第三机器学习模块中并且第三机器学习模块的第三输出信号被馈入到经训练的第二机器学习模块中。根据第二输出信号确定控制动作性能。从而,第三机器学习模块被训练用以根据技术系统的运行信号优化控制动作性能。最后,控制装置根据第三机器学习模块被设立用于借助于第三机器学习模块的第三输出信号控制技术系统。
[0006]为了执行根据本专利技术的方法,设置控制装置、计算机程序产品以及优选地非易失性的计算机可读存储介质。
[0007]根据本专利技术的方法以及根据本专利技术的控制装置可以例如借助于一个或多个计算机、处理器、专用集成电路(ASIC)、数字信号处理器(DSP)和/或所谓的“现场可编程门阵列”(FPGA)被执行或实现。
[0008]通过本专利技术能够显著更高效地配置或训练控制装置。只要在训练第三机器学习模块时使用经训练的第二机器学习模块,在训练第三机器学习模块时通常不再必须隐含地学习或表示系统行为的重要分量。这在许多情况下导致显著改善的收敛行为和/或导致训练结果的更好的可重复性。此外,训练经常相对于训练数据中的变化变得更稳定和/或更稳健。此外,在许多情况下需要较少的训练数据、计算时间和/或计算资源。
[0009]本专利技术的有利实施方式和改进方案在从属权利要求中得以说明。
[0010]根据本专利技术的一种有利的实施方式,可以根据第一输出信号训练第三机器学习模块。由此,第三机器学习模块经常可以特别有效地被训练,因为关于在当前不应用控制动作的情况下的系统行为的特定信息可供第三机器学习模块使用。
[0011]根据本专利技术的一种特别有利的实施方式,可以针对相应的时间点分别根据行为信号的单个时间步确定控制动作性能。经常不需要耗费地确定或估计对性能的未来作用。从而,也可以以高效的方式考虑在不同时间标度上运行的动态效应。此外,时间步可以根据控制动作和/或行为信号是不同长的,并且此外还可以映射控制动作的处于将来的作用。
[0012]技术系统的运行信号的第一部分和/或第二部分有利地可以特定地根据所述第一部分和/或第二部分是否包括控制动作而被选择。从而,运行信号的不包括控制动作的第一部分可以特定地被使用用于训练第一机器学习模块和/或所述运行信号的包括控制动作的第二部分可以特定地被使用用于训练第二机器学习模块。第一和/或第二机器学习模块可以通过鉴于相应的训练目标定向的对训练数据的特定选择特别有效地被训练。
[0013]根据本专利技术的另一有利的实施方式,可以读入行为信号额定值并且将第二输出信号与行为信号额定值进行比较。从而可以根据比较结果确定控制动作性能。尤其是可以确定例如以差绝对值或差平方为形式的在第二输出信号与行为信号额定值之间的偏差。然后可以根据偏差确定控制动作性能,其中较大的偏差通常导致较低的控制动作性能。
[0014]行为信号额定值此外可以被馈入到第三机器学习模块中。从而第三机器学习模块可以被训练用以根据行为信号额定值优化控制动作性能。
[0015]根据本专利技术的另一有利的实施方式,可以根据第一输出信号确定控制动作性能。在此,尤其是可以确定例如以差绝对值或差平方为形式的在第一输出信号与第二输出信号之间的偏差。可替代地或附加地,可以确定第一输出信号和第二输出信号的总和与行为信号额定值的偏差。然后可以根据如此确定的偏差来确定控制动作性能。在此情况下,可以根据偏差尤其是评价:在应用控制动作的情况下的系统行为与在不应用该控制动作的情况下的系统行如何区分。证明通过这种区分在许多情况下可以显著地改善控制动作性能的确定。
[0016]根据本专利技术的一种有利的改进方案,第一机器学习模块和/或第二机器学习模块可以被训练用以单独地再现在技术系统中运行的不同过程的多个行为信号。于是,控制动作性能可以根据所再现的行为信号被确定。对此,第一机器学习模块和/或第二机器学习模块尤其是可以包括一组机器学习模型或子模型,所述机器学习模型或子模型分别以特定于过程的方式对在技术系统中运行的特定过程进行建模。在许多情况下,这种分离的训练证明比组合式训练更高效,因为分别基础的单动力学本身而言通常具有比组合式系统动力学更简单的响应行为。
[0017]只要本专利技术允许在相应的时间点根据行为信号的单个、必要时可适配的时间步确定控制动作性能,尤其是在训练第三机器学习模块时就通常出现在具有不同运行速度的过程之间的较少的同步问题。在许多情况下表明,对于不同的特定于过程的机器学习模型,可以在单个步骤中对控制动作性能进行比较精确和稳健的评价。
[0018]此外,可以针对相应的行为信号读入特定的行为信号额定值。然后可以根据所再现的行为信号与特定的行为信号额定值的比较来确定控制动作性能。
[0019]尤其是,第三机器学习模块可以被训练用以根据特定的行为信号额定值来优化控制动作性能。
[0020]下面根据附图更详细地阐述本专利技术的实施例。在此,分别以示意图:
[0021]图1示出燃气轮机连同根据本专利技术的控制装置,
[0022]图2示出处于第一训练阶段中的根据本专利技术的控制装置,
[0023]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于配置用于技术系统(TS)的控制装置(CTL)的计算机实现的方法,其中a)所述技术系统的运行信号(BS)被馈入到第一机器学习模块(NN1)中,所述第一机器学习模块被训练用以根据所述技术系统的运行信号(BS)再现所述技术系统的特定地在当前不应用控制动作的情况下出现的行为信号,并且作为第一输出信号输出所再现的行为信号(VSR1),b)所述第一输出信号(VSR1)被馈入到第二机器学习模块(NN2)中,所述第二机器学习模块被训练用以根据控制动作信号(AS)再现所述技术系统的从中得到的行为信号并且作为第二输出信号输出所再现的行为信号(VSR2),c)所述技术系统的运行信号(BS)被馈入到第三机器学习模块(NN3)中,d)所述第三机器学习模块(NN3)的第三输出信号(AS)被馈入到经训练的第二机器学习模块(NN2)中,e)根据所述第二输出信号(VSR2)确定控制动作性能(Q),f)所述第三机器学习模块(NN3)被训练用以根据所述技术系统的运行信号(BS)优化所述控制动作性能(Q),和g)所述控制装置(CTL)根据所述第三机器学习模块(NN3)被设立用于借助于所述第三机器学习模块(NN3)的第三输出信号(AS)控制所述技术系统。2.根据权利要求1所述的方法,其特征在于,根据所述第一输出信号(VSR1)训练所述第三机器学习模块(NN3)。3.根据前述权利要求中任一项所述的方法,其特征在于,针对相应的时间点分别根据行为信号的单个时间步确定所述控制动作性能(Q)。4.根据前述权利要求中任一项所述的方法,其特征在于,所述技术系统的运行信号(BS)的第一部分(SS1、VS1)和/或第二部分(AS2、VS2)特定地根据所述第一部分和/或第二部分是否包括控制动作而被选择,并且所述运行信号(BS)的不包括控制动作的第一部分(SS1、VS1)特定地被使用用于训练所述第一机器学习模块(NN1)和/或所述运行信号(BS)的包括控制动作的第二部...

【专利技术属性】
技术研发人员:D
申请(专利权)人:西门子股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1