深度强化学习驱动的可移动变形杆件的拓扑优化设计方法技术

技术编号：43223687 阅读：27 留言：0更新日期：2024-11-05 17:14

本发明专利技术公开深度强化学习驱动的可移动变形杆件的拓扑优化设计方法，在MATLAB程序中指定设计域并初始化建模，计算杆件组的初始柔度、设置目标函数；搭建深度强化学习仿真环境，搭建深度强化学习智能体，然后进行训练智能体，智能体根据目标函数调整杆件组中每个杆件的相关参数，并不断与仿真环境交互获得奖励，从而输出得到最优布局；其中，采用步函数通过动作值赋予杆件组中各个杆件产生新状态，并计算新状态的当前柔度，根据当前柔度与初始柔度、当前体积与初始体积比较确定当前回合终结结果和奖励的赋予。本发明专利技术将深度强化学习和可移动变形杆件引入到拓扑优化问题的求解中，以消除设计人员主观因素的影响，得到一种轮廓清晰易于制造的优化模型。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机械结构拓扑优化设计领域，具体涉及一种深度强化学习驱动的可移动变形杆件的拓扑优化设计方法。

技术介绍

1、智能设计是推动制造业创新发展、助力企业数字化转型的重要技术，是实现“智能制造”战略的基础与前提。伴随着产业结构的升级，传统的结构设计方法已经无法较好的满足当代工业产品对设计的精度、效率以及成本等方面的要求。计算机辅助结构优化方法能够在给定条件下快速得到结构的优化设计方案，其依托于可靠的数学理论，通过数值计算力求以最低的成本收获最高的价值，是智能化设计的一种重要实现方式。结构优化主要有形状优化、尺寸优化以及拓扑优化三种具体实现方式。其中，拓扑优化是在给定约束条件下寻求材料在设计范围内的最优分布的一种方法，其可优化空间大，能够在使用较少材料的条件下获得性能优异的设计结构，在目前轻量化设计与降能减碳的新要求下具有重要价值。

2、针对在拓扑优化设计过程中，传统设计方法得到的布局的性能在很大程度上受到设计人员主观因素的影响；以及，拓扑优化方法多以隐式法描述拓扑结构，不能直接获取显式的几何信息，且优化结果易产生棋盘格、锯齿状边界等不光滑的结构这两个问题。

技术实现思路

1、本专利技术要解决的技术问题是提供一种深度强化学习驱动的可移动变形杆件的拓扑优化设计方法，将深度强化学习和可移动变形杆件引入到拓扑优化问题的求解中，以消除设计人员主观因素的影响，并解决不能直接获取显式的几何信息，且优化结果易产生棋盘格、锯齿状边界等不光滑的结构的问题。

2、为了解决上述

3、步骤1、在matlab程序中指定设计域，在设计域中对杆件组进行初始化建模，计算模型中杆件组的初始柔度、设置目标函数为最小化杆件组的柔度、设置约束为限定杆件组的初始柔度和杆件组的初始体积；

4、步骤2、搭建深度强化学习仿真环境，深度强化学习仿真环境搭建包括步函数的设定和重置函数的设定，所述步函数包括动作的添加、当前柔度的计算、回合终结的判断以及奖励的赋予；

5、步骤3、搭建深度强化学习智能体，深度强化学习智能体的搭建包括搭建演员网络、评论员网络以及设定智能体参数；

6、步骤4、训练智能体，智能体根据目标函数调整杆件组中每个杆件的相关参数，并不断与深度强化学习仿真环境交互获得奖励，最终实现奖励最大化，即实现可移动变形杆件组的柔度最小化，从而输出得到最优布局；其中，智能体获取到当前杆件组的状态，通过评论员网络对当前杆件组的状态进行评估并获得估计值，通过演员网络给出对应的动作值；步函数通过动作值赋予杆件组中各个杆件产生新状态，并计算新状态的当前柔度，根据当前柔度与初始柔度、当前体积与初始体积比较确定当前回合终结结果和奖励的赋予；重置函数用于将智能体获取到的当前杆件组的状态重置。

7、进一步的，根据工况条件，在matlab程序中指定设计域，对设计域的宽度和高度进行赋值；在设计域中对杆件组进行初始化建模并对模型进行相关物理量的赋值，具体为，设定杆件组中杆件的个数，设定每个杆件的平面参数，包括各个杆件的横坐标x0、纵坐标y0、半长l、最左侧厚度t1、中间厚度t2、最右侧厚度t3以及与x轴夹角的正弦值st，其中，最左侧为杆件与x轴平行时靠近零点的一侧，设定杆件的厚度，对杆件的材料的弹性模量和泊松比进行赋值，并设置边界约束和荷载。

8、进一步的，使用matlab程序计算杆件整体的初始柔度。

9、进一步的，设定深度强化学习环境的状态空间为杆件组中每个杆件的平面参数；设定深度强化学习环境的动作空间为杆件组中每个杆件的纵坐标y0的变化和与x轴夹角的正弦值st的变化。

10、进一步的，重置函数为initial observation＝resetfunction()，即获取步骤1中杆件的平面参数，得到输出initial observation，initial observation＝[x0；y0；l；t1；t2；t3；st]。

11、进一步的，搭建演员网络和评论员网络，引入状态和动作信息，设定隐藏层、全连接层、神经网络层激活函数以及学习率的相关参数。

12、进一步的，设定智能体参数包括采样时间、顺滑因子、经验池的大小、折扣因子、最小样本量及噪声标准差的相关参数。

13、进一步的，奖励的赋予为根据当前的动作输入由奖励函数输出一个奖励值，奖励函数其中，c_now为当前柔度，c0为初始柔度。

14、进一步的，在确定当前回合终结结果过程中，若杆件组的当前柔度小于初始柔度的2倍，且当前体积小于等于初始体积，则回合继续，回合终结标识符为0，否则回合终止，回合终结标识符为1；回合继续则经过奖励函数，得到奖励值，并继续交互；回合终止则进入重置函数，重新训练。

15、进一步的，评论员网络通过梯度下降更新其参数，以减小评论员网络对演员网络的状态估计值和演员的真实状态值之间的差距，演员网络通过梯度上升更新其参数，以最大化实现长期奖励预期，以优化策略，实现奖励最大化，即实现杆件组整体的柔度最小化，从而输出杆件组的最优布局。

16、本专利技术的有益效果：

17、本专利技术将深度强化学习和可移动变形杆件引入到拓扑优化问题的求解中，以消除设计人员主观因素的影响，并解决不能直接获取显式的几何信息，且优化结果易产生棋盘格、锯齿状边界等不光滑的结构的问题；采用若干可变杆件，按照顺序和位置依次摆放，每一步都在不断调整姿态和杆件自身形状，并以最小化杆件整体柔度为目标函数，结合约束及受力等工况，实现在目标函数的引导下的优化设计，得到一种轮廓清晰易于制造的优化模型。

18、本专利技术采取了杆件组的形式来进行优化问题的求解，这避免了棋盘格，边界不光滑的问题，有利于直接获取显式的几何信息，更加方便生产制造，特别是有新的优化问题需要紧急处理的时候，可以直接用两个杆件进行焊接，大大节省时间；还采用了深度强化学习的方法来进行杆件组的优化，深度强化学习的智能体根据目标函数调整杆件组中每个杆件的相关参数，并不断与深度强化学习仿真环境交互获得奖励，最终实现奖励最大化，即实现可移动变形杆件组的柔度最小化，从而输出得到最优布局，避免了设计人员主观因素的影响，有利于得到优化问题的最优解，并且还可以保存训练好的智能体，当遇到类似优化问题的时候，可直接利用训练好的智能体来处理该问题，在有理论依据的基础上，更加的省时和高效。

19、较比现有的拓扑优化设计方法，本方法定性了杆件初始的状态，因此避免了主观因素的影响，由深度强化学习的智能体不断地改变状态来获得优化问题的最优解，可以避免杆件布局陷入局部最优。

本文档来自技高网...

【技术保护点】

1.一种深度强化学习驱动的可移动变形杆件的拓扑优化设计方法，其特征在于，包括以下步骤：

2.如权利要求1所述的深度强化学习驱动的可移动变形杆件的拓扑优化设计方法，其特征在于，根据工况条件，在MATLAB程序中指定设计域，对设计域的宽度和高度进行赋值；在设计域中对杆件组进行初始化建模并对模型进行相关物理量的赋值，具体为，设定杆件组中杆件的个数，设定每个杆件的平面参数，包括各个杆件的横坐标x0、纵坐标y0、半长L、最左侧厚度t1、中间厚度t2、最右侧厚度t3以及与x轴夹角的正弦值st，其中，最左侧为杆件与x轴平行时靠近零点的一侧，设定杆件的厚度，对杆件的材料的弹性模量和泊松比进行赋值，并设置边界约束和荷载。

3.如权利要求1所述的深度强化学习驱动的可移动变形杆件的拓扑优化设计方法，其特征在于，使用MATLAB程序计算杆件整体的初始柔度。

4.如权利要求2所述的深度强化学习驱动的可移动变形杆件的拓扑优化设计方法，其特征在于，设定深度强化学习环境的状态空间为杆件组中每个杆件的平面参数；设定深度强化学习环境的动作空间为杆件组中每个杆件的纵坐标y0的变化和与x轴夹角的正弦值st的变化。

5.如权利要求2所述的深度强化学习驱动的可移动变形杆件的拓扑优化设计方法，其特征在于，重置函数为Initial Observation＝ResetFunction()，即获取步骤1中杆件的平面参数，得到输出Initial Observation，Initial Observation＝[x0；y0；L；t1；t2；t3；st]。

6.如权利要求1所述的深度强化学习驱动的可移动变形杆件的拓扑优化设计方法，其特征在于，搭建演员网络和评论员网络，引入状态和动作信息，设定隐藏层、全连接层、神经网络层激活函数以及学习率的相关参数。

7.如权利要求1所述的深度强化学习驱动的可移动变形杆件的拓扑优化设计方法，其特征在于，设定智能体参数包括采样时间、顺滑因子、经验池的大小、折扣因子、最小样本量及噪声标准差的相关参数。

8.如权利要求1所述的深度强化学习驱动的可移动变形杆件的拓扑优化设计方法，其特征在于，奖励的赋予为根据当前的动作输入由奖励函数输出一个奖励值，奖励函数其中，c_now为当前柔度，c0为初始柔度。

9.如权利要求1所述的深度强化学习驱动的可移动变形杆件的拓扑优化设计方法，其特征在于，在确定当前回合终结结果过程中，若杆件组的当前柔度小于初始柔度的2倍，且当前体积小于等于初始体积，则回合继续，回合终结标识符为0，否则回合终止，回合终结标识符为1；回合继续则经过奖励函数，得到奖励值，并继续交互；回合终止则进入重置函数，重新训练。

10.如权利要求1所述的深度强化学习驱动的可移动变形杆件的拓扑优化设计方法，其特征在于，评论员网络通过梯度下降更新其参数，以减小评论员网络对演员网络的状态估计值和演员的真实状态值之间的差距，演员网络通过梯度上升更新其参数，以最大化实现长期奖励预期，以优化策略，实现奖励最大化，即实现杆件组整体的柔度最小化，从而输出杆件组的最优布局。

...

【技术特征摘要】

1.一种深度强化学习驱动的可移动变形杆件的拓扑优化设计方法，其特征在于，包括以下步骤：

2.如权利要求1所述的深度强化学习驱动的可移动变形杆件的拓扑优化设计方法，其特征在于，根据工况条件，在matlab程序中指定设计域，对设计域的宽度和高度进行赋值；在设计域中对杆件组进行初始化建模并对模型进行相关物理量的赋值，具体为，设定杆件组中杆件的个数，设定每个杆件的平面参数，包括各个杆件的横坐标x0、纵坐标y0、半长l、最左侧厚度t1、中间厚度t2、最右侧厚度t3以及与x轴夹角的正弦值st，其中，最左侧为杆件与x轴平行时靠近零点的一侧，设定杆件的厚度，对杆件的材料的弹性模量和泊松比进行赋值，并设置边界约束和荷载。

3.如权利要求1所述的深度强化学习驱动的可移动变形杆件的拓扑优化设计方法，其特征在于，使用matlab程序计算杆件整体的初始柔度。

5.如权利要求2所述的深度强化学习驱动的可移动变形杆件的拓扑优化设计方法，其特征在于，重置函数为initial observation＝resetfunction()，即获取步骤1中杆件的平面参数，得到输出initial observation，initial observation＝[x0；y0...

【专利技术属性】
技术研发人员：杨勇，丁杨，姜学涛，钟意，沈晔湖，朱其新，曹自洋，王磊，
申请(专利权)人：苏州科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人