一种基于强化学习的盾构掘进纠偏智能决策方法技术

技术编号：32214084 阅读：25 留言：0更新日期：2022-02-09 17:19

本发明专利技术属于盾构施工技术领域，具体涉及一种基于强化学习的盾构掘进纠偏智能决策方法。设计环境状态集、动作集以及奖励函数，搭建盾构仿真纠偏环境；构建盾构纠偏决策模型；构建模型评估方法，得到盾构纠偏决策模型与盾构纠偏仿真环境交互后奖励分数最高的盾构纠偏决策模型；通过网格搜索方法确定值函数网络结构的参数；根据网格搜索结果，将确定的盾构纠偏决策模型在仿真环境中进行多回合训练；将盾构纠偏决策模型所处的状态数据输入最终模型，模型将直接输出执行动作的取值，作为决策方案。通过本发明专利技术提供盾构的纠偏决策方案，避免了盾构司机根据现场情况自行纠偏，以及手动操作造成蛇形纠偏的问题。成蛇形纠偏的问题。成蛇形纠偏的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的盾构掘进纠偏智能决策方法

[0001]本专利技术属于盾构施工
，具体涉及一种基于强化学习的盾构掘进纠偏智能决策方法。

技术介绍

[0002]隧道建设作为地下空间开发的重要组成部分，采用盾构机来完成隧道的贯通任务已经十分广泛。盾构施工项目中，盾构姿态是盾构操作人员进行推进方案决策的关键因素，当盾构机偏离设计轴线时，需要对相关掘进参数进行及时调整，让盾构机逐渐回到轴线上来。盾构机的姿态与地表沉降、管片拼装等密切相关，直接影响到成型隧道的质量和路线。因此，盾构机的推进姿态控制是盾构施工项目质量管理中的关键问题。目前盾构姿态的纠偏技术可以大致分为以下几类：
[0003](1)以三点法为基础，结合全站仪、棱镜、倾斜仪等装置，改进盾构坐标及姿态偏差的计算方法，为盾构姿态的纠偏控制决策提供必需基础支持。
[0004](2)通过对施工历史数据的描述性统计和回归分析，分析油缸行程、土舱压力等掘进参数对盾构姿态的影响规律，探索掘进参数与盾构位姿间的相关关系，根据规律反向调整相关掘进参数，进而控制盾构方向，对盾构操作者的纠偏操作决策提供理论基础。
[0005](3)通过递归特征消除、随机森林等方法对掘进参数进行特征选择，通过XGBoost方法、构建神经网络等方法，预测盾构的姿态偏差、姿态角度等。由于盾构所处姿态是盾构操作控制决策的主要依据，因此，根据施工参数预测得到的盾构姿态便可以作为下一步参数调整决策的参考，提前调整参数，以控制掘进的方向。
[0006](4)采用模糊数学和PID控...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的盾构掘进纠偏智能决策方法，其特征在于，包括以下步骤：步骤1：结合盾构项目现场的掘进纠偏策略过程与技术经验，设计环境状态集、动作集以及奖励函数，搭建基于强化学习框架的盾构纠偏仿真环境；步骤2：构建与盾构纠偏仿真环境交互的盾构纠偏决策模型；步骤3：构建模型评估方法，得到盾构纠偏决策模型与盾构纠偏仿真环境交互后奖励分数最高的盾构纠偏决策模型；步骤4：通过网格搜索方法确定盾构纠偏决策模型中值函数网络结构的参数；步骤5：根据网格搜索结果，将确定值函数网络结构的盾构纠偏决策模型在仿真环境中进行多回合训练；步骤6：将盾构纠偏决策模型所处的状态数据输入最终模型，模型将直接输出执行动作的取值，作为决策方案。2.根据权利要求1所述的一种基于强化学习的盾构掘进纠偏智能决策方法，其特征在于，所述环境状态集为盾构测量系统测算出的盾构关键姿态参数。3.根据权利要求2所述的一种基于强化学习的盾构掘进纠偏智能决策方法，其特征在于，所述盾构关键姿态参数包括切口环水平偏差、切口换竖直偏差、盾尾水平偏差、盾尾竖直偏差、滚动角、俯仰角、水平偏航角、竖直偏航角。4.根据权利要求1所述的一种基于强化学习的盾构掘进纠偏智能决策方法，其特征在于，所述动作集根据盾构纠偏原理进行设计。5.根据权利要求1所述的一种基于强化学习的盾构掘进纠偏智能决策方法，其特征在于，所述奖励函数基于盾构的纠偏方向、纠偏速度以及盾构机与设计曲线的偏差来设计奖励函数；式中表示盾构纠偏方向的奖励，表示纠偏速度的奖励，表示盾构机的轴线偏差奖励；所述纠偏方向的奖励如下式所示：式中表示盾构纠偏方向的奖励，为t的前一时刻t
‑
1时刻盾构机与设计轴线的差值；所述纠偏速度的奖励如下式所示：
式中表示纠偏速度的奖励，为盾构机轴线偏差的绝对值；所述轴线偏差的奖励如下式所示：式中表示盾构机的轴线偏差奖励，表示盾构机偏离既定线路的距离。6.根据权利要求1所述的一种基于强化学习的盾构掘进纠偏智能决策方法，其特征在于，所述步骤2还包括采用队列的结构构建一个经验池，用于储存盾构纠偏决策模型与盾构纠偏仿真环境交互得到的训练数据；经验池中的训练数据用于值函数网络的训练。7.根据权利要求1所述的一种基于强化学习的盾构掘进纠偏智能决策方法，其特征在于，所述盾构纠偏决策模型包括两个结构一致的卷积神经网络形成双网络机制；一个作为在线网络选择，使价值最大的决策动作与盾构纠偏仿真环境交互得到样本；另一个作为目标网络用于计算在线网络所执行决策的价值，每一步训练均根据以下训练公式对在线网络的参数进行更新，经过迭代数次后再将目标网络的参...

【专利技术属性】
技术研发人员：庄元顺，苏叶茂，牟松，徐进，刘绥美，李开富，张炬，朱菁，梅元元，张中华，陈可，刘洋，梁博，李才洪，杨冰，胡可，陈鑫，李明扬，
申请(专利权)人：中铁工程服务有限公司西南交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人