工厂的控制装置及工厂的控制方法制造方法及图纸

技术编号:4266433 阅读:196 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供即使在学习初始阶段也能够学习可安全地运行控制对象的操作信号的生成方法的控制技术。本发明专利技术提供的工厂的控制装置以及工厂的控制方法具备以下的功能:即使在工厂的控制中使用的多个操作端的动作速度中存在差异或者操作端随时间流逝劣化动作速度劣化的情况下,也为能够良好地控制工厂来适当地决定学习的约束条件。将第二评价值信号相加到第一评价值信号,所以,在控制对象和模型的特性不同的区域不生成操作信号,而只能在特性相近的区域学习操作信号的生成方法。因此,可提高运行刚刚开始后的控制对象的安全性。

【技术实现步骤摘要】

本专利技术涉及火力发电厂等的控制装置及控制方法。
技术介绍
近年来,在无教师学习的领域中,正在广泛深入研究称为强化学习的方 法。所谓强化学习,众所周知,是通过和控制对象等的环境的凑试的相互作 用,使从环境得到的测量信号成为希望值那样,来做成学习对于环境的操作 信号的生成方法的学习控制的框架。在强化学习中,把根据从环境得到的测量信号计算的标量的评价值(在 强化学习中称为报酬)作为线索,学习从现在状态到将来得到的评价值的期 望值成为最大或者最小那样的对于环境的操作信号。作为安装这样的学习功 能的方法,已知的有例如在非专利文献1中叙述的Actor-Critic、 Q学习、实 时Dynamic Programming等的算法。另外,作为发展上述方法的强化学习的框架,在上述文献中介绍了称为 Dyna结构的框架。这是把模拟控制对象的模型作为对象预先学习生成什么样 的操作信号好、并使用该学习结果决定在控制对象上施加的操作信号的方法。 另外,为了使控制对象和模型的误差成为最小,具有使用对于控制对象的操 作信号和测量信号调整模型的功能。另外,作为使用强化学习的技术,可以举出在专利文献1中叙述的技术。 它是这样的技术准备好多个具有模型和学习功能的作为系统的组的强化学 习模块、求在各强化学习模块中模型和控制对象的预测误差越小取值越大的 责任信号、与该责任信号成比例给对于从各强化学习模块生成的控制对象的 操作信号加权、决定在控制对象上施加的操作信号。在工厂的控制装置中,处理从作为控制对象的工厂得到的测量信号,计 算给予控制对象的操作信号。在控制装置中安装计算操作信号的算法,使工 厂的测量信号达到运行目标。作为在工厂的控制中使用的控制算法,有PI (比例,积分)控制算法。 在PI控制中,在运行目标值和工厂的测量信号的偏差上乘以比例增益的值上, 加上时间积分偏差的值,导出控制工厂的控制装置的操作信号。另外,也有 使用学习算法导出控制工厂的控制装置的操作信号的场合。作为使用学习算法导出控制工厂的控制装置的操作信号的方法,在特开2000-35956号公报中记载有关于代理学习装置的技术。在技术文献的强化学习(Reinforcement Learning)的247页 253页中记 载了关于使用Dyna结构的方法的技术。在基于这些技术的方法中,在控制装置中具有预测控制对象的特性的模 型、和要使作为该模型的预测结果的模型输出达到模型输出目标那样预先学 习模型输入的生成方法的学习部,遵照学习部的学习结果生成给予控制对象 的操作信号。然后,在模型和控制对象的控制特性之间有误差的场合,使用作为操作 控制对象的结果的测量信号修正模型,把该修正后的模型作为对象再次学习 操作信号的生成方法。非专利文献1强化学习(Reinforcement Learning),三上贞芳、皆川 雅章共译,森北出版株式会社,2000年12月20日出版专利文献1特开2002-35956号公报
技术实现思路
当使用上述的Dyna结构或者专利文献1中叙述的技术、实施通过和控制 对象的基于凑试的相互作用的学习时,随着学习的推进能够对于控制对象学 习良好的操作信号的生成方法。但是,在学习的初始阶段,无论何种方法都 需要给控制对象施加凑试的操作信号,其间有不能安全运行控制对象的可能 性。另外,在控制对象和模型的特性有很大不同的场合,对于模型有效的操 作信号对于控制对象也未必有效。因此,有不能良好地控制控制对象的可能性。因此,在本专利技术中提供即使在学习初始阶段也能够学习安全地运行控制对象的操作信号的生成方法的控制技术。另外,提供能够在控制对象和模型的特性不同的区域中不生成操作信号、仅在特性接近的区域中生成操作信号的控制技术。使用在专利文献1以及非专利文献1中记载的方法学习对于控制装置的操作信号的生成方法时,需要决定学习的约束条件。例如,当控制对象的工厂的操作端的动作速度变化时,因为在一次操作中能够运动的操作量的幅度变化,所以学习的结果也变化。因此,为得到学习结果,需要使用关于操作端的动作速度的信息适当设定学习的约束条件。但是,难以事先设定这样的学习的约束条件。在工厂的控制中使用控制装置的多个操作端运行工厂,多数情况是即使是相同设计规格的操作端实际的动作速度也有差异。另外,这些操作端也有可能随时间流逝劣化而导致动作速度降低。当在操作端中发生动作速度的差异或者动作速度的降低时,即使把遵照学习后的模型输入的生成方法生成的操作信号给予控制对象的工厂,也不能得到希望的控制结果。本专利技术的目的是提供这样的工厂的控制装置以及工厂的控制方法,即即使在工厂的控制中使用的多个操作端的动作速度中有差异的场合或者操作端随时间流逝劣化动作速度劣化的场合,也具有为能够良好地控制工厂来适当决定学习的约束条件的功能。本专利技术为解决上述课题,采用了下面那样的措施。在具有生成在控制对象以及模拟控制对象的特性的模型上施加的操作信号、接收根据向所述控制对象以及所述模型上施加所述操作信号的结果得到的测量信号计算出来的评价值信号、使从现在状态到将来状态中得到的所述评价值信号的总和的期望值成为最大或者最小那样学习所述操作信号的生成方法的功能的控制装置中,相加根据来自所述模型的测量信号和目标值的偏差求得的第一评价值、和根据所述模型和控制对象的特性的不同求得的第二评价值,计算根据来自模型的测量信号计算出来的所述评价值信号。本专利技术的工厂的控制装置,具有使用作为工厂的运行状态量的测量信号计算给予工厂的成为控制指令的操作信号的操作信号生成部,其特征在于,构成为在控制装置中,使之分别具有模拟成为控制对象的工厂的控制特性的模型;保存包含在用操作信号生成部计算操作信号中使用的控制参数的控制逻辑数据的控制逻辑数据库;保存控制工厂的状态量的操作端的操作端规格数据的操作端规格数据库;保存过去的操作信号的操作信号数据库;保存过去的测量信号的测量信号数据库;具有使用在控制逻辑数据库和操作端规格数据库中保存的数据、决定学习参数的初始值的功能和使用在控制逻辑数据库和操作信号数据库和测量信号数据库中保存的数据更新所述学习参数的功能的学习条件决定部;把在学习参数中包含的每单位时间的操作信号变化幅度的限制值设定为学习的约束条件、使用所述模型学习工厂的操作方法的学习部;保存用学习部学习的学习信息数据的学习信息数据库;在操作信号生成部中,具有使用作为工厂的运行状态量的测量信号和在学习信息数据库中保存的学习信息数据计算对于工厂的操作信号的学习信号生成部。另外,本专利技术的工厂的控制方法,使用作为工厂的运行状态量的测量信号计算给予工厂的成为控制指令的操作信号,控制工厂,其特征在于,构成为通过工厂的控制装置形成模拟成为控制对象的工厂的控制特性的模型,在控制装置的控制逻辑数据库中保存包含在操作信号的计算中使用的控制参数的控制逻辑数据,在操作端规格数据库中,保存控制工厂的状态量的操作端的操作端规格数据,在操作信号数据库中,保存过去的操作信号,在测量信号数据库中,保存过去的测量信号,使用在控制逻辑数据库和操作端规格数据库中保存的数据,决定学习参数的初始值,同时使用在控制逻辑数据库和操作信号数据库和测量信号数据库中保存的数据,更新学习参数,把在学习参数中包含的每单位时间的操作信号变化本文档来自技高网
...

【技术保护点】
一种工厂的控制装置,具有使用作为工厂的运行状态量的测量信号计算给予工厂的成为控制指令的操作信号的操作信号生成部,其特征在于, 在控制装置中,使其分别具有:模拟成为控制对象的工厂的控制特性的模型;保存有包含在用操作信号生成部计算操作信号中使用的控制参数的控制逻辑数据的控制逻辑数据库;保存有控制工厂的状态量的操作端的操作端规格数据的操作端规格数据库;保存有过去的操作信号的操作信号数据库;保存有过去的测量信号的测量信号数据库;具有使用在控制逻辑数据库和操作端规格数据库中保存的数据,决定学习参数的初始值的功能和使用在控制逻辑数据库和操作信号数据库和测量信号数据库中保存的数据,更新所述学习参数的功能的学习条件决定部;把在学习参数中包含的每单位时间的操作信号变化幅度的限制值设定为学习的约束条件、使用所述模型学习工厂的操作方法的学习部;保存用学习部学习的学习信息数据的学习信息数据库;在操作信号生成部中,使其具有使用作为工厂的运行状态量的测量信号和在学习信息数据库中保存的学习信息数据、计算对于工厂的操作信号的学习信号生成部。

【技术特征摘要】
JP 2006-2-28 2006-053671;JP 2006-3-29 2006-0916721. 一种工厂的控制装置,具有使用作为工厂的运行状态量的测量信号计算给予工厂的成为控制指令的操作信号的操作信号生成部,其特征在于,在控制装置中,使其分别具有模拟成为控制对象的工厂的控制特性的模型;保存有包含在用操作信号生成部计算操作信号中使用的控制参数的控制逻辑数据的控制逻辑数据库;保存有控制工厂的状态量的操作端的操作端规格数据的操作端规格数据库;保存有过去的操作信号的操作信号数据库;保存有过去的测量信号的测量信号数据库;具有使用在控制逻辑数据库和操作端规格数据库中保存的数据,决定学习参数的初始值的功能和使用在控制逻辑数据库和操作信号数据库和测量信号数据库中保存的数据,更新所述学习参数的功能的学习条件决定部;把在学习参数中包含的每单位时间的操作信号变化幅度的限制值设定为学习的约束条件、使用所述模型学习工厂的操作方法的学习部;保存用学习部学习的学习信息数据的学习信息数据库;在操作信号生成部中,使其具有使用作为工厂的运行状态量的测量信号和在学习信息数据库中保存的学习信息数据、计算对于工厂的操作信号的学习信号生成部。2. 根据权利要求1所述的工厂的控制装置,其特征在于, 具有学习信息追加部,其具有这样的功能即使用在学习信息数据库中保存的学习信息数据,把在学习参数中包含的每单位时间的操作信号变化幅 度的限制值设定为学习的约束条件、来推定在学习部中实施了学习时的学习 信息数据,向学习信息数据库发送作为该推定结果的追加学习信息数据的功 能。3. 根据权利要求1所述的工厂的控制装置,其特征在于,构成为使控制装置学习条件决定部具有下述功能即对在控制逻辑数 据库中保存的控制参数中、为限制每单位时间的信号的变化幅度而设定的参 数和在操作端规格数据库中保存的操作端的动作速度的值进行比较,把绝对 值小的值作为学习参数的初始值的功能。4. 一种工厂的控制装置,其使用作为火力发电厂的运行状态量的测量信号,计算给予火力发电厂的成为控制指令的操作信号来控制火力发电厂,其 特征在于,在控制装置中,使其分别具有模拟成为控制对象的火力发电厂的控制 特性的模型;保存有包含在用操作信号生成部操作信号的计算中使用的控制 参数的控制逻辑数据的控制逻辑数据库;保存有控制火力发电厂的状态量的 操作端的操作端规格数据的操作端规格数据库;保存有过去的操作信号的操 作信号数据库;保存有过去的测量信号的测量信号数据库;具有使用在控制 逻辑数据库和操作端规格数据库中保存的数据,决定学习参数的初始值的功 能,和使用在控制逻辑数据库和操作信号数据库和测量信号数据库中保存的 数据,更新所述学习参数的功能的学习条件决定部;把在学习参数中包含的 每单位时间的操作信号变化幅度的限制值设定为学习的约束条件、使用所述 模型学习火力发电厂的操作方法的学习部;保存有用学习部学习的学习信息 数据的学习信息数据库;在操作信号生成部中,使其具有使用作为工厂的运 行状态量的测量信号和在学习信息数据库中保存的学习信息数据、计算对于 火力发电厂的操作信号的学习信号生成部。5. 根据权利要求4所述的工厂的控制装置,其特征在于, 在测量信号中,包含氮氧化物浓度、 一氧化碳浓度、二氧化碳浓度、硫化氧化物、以及水银的至少一种,在操作信号中包含决定空气调节阀的开度、 空气流量、燃料流量的至少一种的信号,在控制装置中已装备的学习条件决 定部中,使之具有以下功能即使用在控制逻辑数据库和操作信号数据库和 测量信号数据库中保存的数据,推定火力发电厂是否正在实施包含燃烧器切 换运行、煤种类切换运行、以及负荷变化运行的至少一种的运行,并根据该 推定结果更新学习参数的功能;和使用在操作信号数据库和测量信号数据库 中保存的数据推定操作端的动作速度,并根据该推定结果更新学习参数的功 能。6. 根据权利要求5所述的工厂的控制装置,其特征在于,构成为在控制装置中,使之配备有具有使用在学习信息数据库中保存 的学习信息,把在学习参数中包含的每单位时间的操作信号变化幅度的限制 值作为学习的约束条件来推定在学习部中实施了学习时的学习信息数据,将作为该推定结果的追加学习信息数据发送给学习信息数据库的功能的学习信 息追加部,在所述操作信号生成部的学习信号生成部中,使用在学习信息数 据库中保存的追加学习信息数据来计算操作信号。7. 根据权利要求6所述的工厂的控制装置,其特征在于,构成为在控制装置的学习部中,具有下述功能即把操作端的动作区 域分割为预先设定的区域、把从分割后的各区域仅能对邻接的区域进行操作 设定为学习的约束条件的功能;和计算作为基于模型的模拟的预测结果的模 型输出为到达实现其目标值的区域所需要的操作次数的功能;构成为在控 制装置的学习信息追加部中,具有下述功能即分割为预先设定的区域的操 作端的动作区域中的某区域的操作方法,作为在单位时间后能够到达的区域 中、向操作次数的值成为最小的区域移动的操作方法的功能。8. 根据...

【专利技术属性】
技术研发人员:关合孝朗清水悟神永荣一山田昭彦林喜治楠见尚弘深井雅之
申请(专利权)人:株式会社日立制作所
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1