基于多智能体深度强化学习的自动化建筑空间组合方法技术

技术编号：41963363 阅读：14 留言：0更新日期：2024-07-10 16:46

本发明专利技术适用于建筑设计技术领域，尤其涉及基于多智能体深度强化学习的自动化建筑空间组合方法，所述方法包括：根据建筑改造目标构建智能体，并搭建智能体训练环境；设置智能体以及智能体训练环境的初始参数；智能体基于初始参数进行决策，根据智能体产生的决策在智能体训练环境中对智能体进行动力学模拟和扩散，得到功能房间布局结果；根据功能房间布局结果进行打分，基于打分结果进行决策优化，并继续进行训练，直到每个智能体的得分都达到预设值。本发明专利技术实现了智能体在环境中的运动和协作，从而在强化训练中提升了智能体的灵活决策能力，通过这种方式，训练完成的智能体能够快速且有效地完成改造设计任务。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于建筑设计，尤其涉及基于多智能体深度强化学习的自动化建筑空间组合方法。

技术介绍

1、不同于新建建筑，待改造的建筑往往具有不同的现状和灵活的改造需求，如何在大量的建筑改造实践中践行低碳环保可持续且满足新需求的改造设计是建筑师共同面对的议题。

2、现有的一些自动化空间布局以及自动化生成式设计算法大都基于新建建筑设计，其设定条件往往较为简单，可以解决的问题较为聚焦，适应性和灵活性较弱，在面临复杂现状的设计问题时的适用性会降低。

技术实现思路

1、本专利技术的目的在于提供基于多智能体深度强化学习的自动化建筑空间组合方法，旨在解决现有技术解决的问题较为聚焦，适应性和灵活性较弱，在面临复杂现状的设计问题时的适用性会降低的问题。

2、本专利技术是这样实现的，基于多智能体深度强化学习的自动化建筑空间组合方法，所述方法包括：根据建筑改造目标构建智能体，并搭建智能体训练环境；设置智能体以及智能体训练环境的初始参数；智能体基于初始参数进行决策，根据智能体产生的决策在智能体训练环境中对智能体进行动力学模拟和扩散，得到功能房间布局结果；根据功能房间布局结果进行打分，基于打分结果进行决策优化，并继续进行训练，直到每个智能体的得分都达到预设值。

3、优选的，每一个智能体包含一组主actor网络、一组目标actor网络、主critic网络和一组目标critic网络，其中，主actor网络用于确定在当前环境状态下的最佳动作，目标actor网络用于计算未来状态的动作，

4、优选的，智能体基于初始参数进行决策的步骤中，指定智能体数量和每个情景的最大步数，定义每个智能体允许在平面四个正交方向上被作用的力为动作空间，定义包含智能体的自身位置、自身形成的功能房间矩形角点位置、相对于其他智能体位置和功能房间角点位置以及相对于不可移动对象的位置信息的空间为观察空间，所有位置信息均被标准化，智能体根据初始参数通过其学习到的策略选择下一步的动作及每个智能体的平面受力，生成对应的决策。

5、优选的，根据智能体产生的决策在智能体训练环境中对智能体进行动力学模拟和扩散的步骤中，接收初始状态列表信息，所述初始状态列表信息至少包括智能体的初始位置、受力信息以及是否重置动力学模拟的标志，对初始状态列表信息进行数据预处理，通过数据预处理对初始状态列表信息进行数据分隔，并将其中包含的位置信息映射到实际尺寸，读取初始状态列表信息中的扩散率参数，智能体根据其位置坐标和扩散率参数生成可互相碰撞的圆圈，圆圈的运动被限定在待设计区域内，四周被设定成刚体，圆圈碰撞后会被弹回，圆圈的受力来自各个智能体受力的向量，受力点位于圆圈的圆心，圆圈受力运动，相互之间发生碰撞，根据运动和碰撞后的位置信息进行扩散模式计算，将每一个圆环扩散为一个功能房间。

6、优选的，根据运动和碰撞后的位置信息进行扩散模式计算的步骤，具体包括：初始化：在边界内定义一组种子点，并为每个点关联一个初始正方形；扩展过程：每个正方形从其中心向外均匀扩展，扩展速率由分配的扩展速度决定，扩展受到边界的限制以及邻近正方形的限制；速度映射：每个正方形的扩展速度映射到一个特定属性的大小，允许可视化该属性的分布和影响；碰撞检测：在每次迭代中，检查扩展的正方形边缘与边界以及其他正方形之间的碰撞，若发生碰撞，受影响的边停止扩展，而其他边继续扩展直到它们也因碰撞而停止，重复此过程，直到所有正方形的所有边都因碰撞而停止扩展；矩形的扩展受以下方程控制：

7、si(t+1)＝si(t)+ri·δt

8、其中si(t)是时间t时正方形i的大小，ri是正方形i的扩展速率，δt是迭代之间的时间增量。

9、优选的，所述根据功能房间布局结果进行打分，基于打分结果进行决策优化，并继续进行训练，直到每个智能体的得分都达到预设值的步骤，包括根据运动和碰撞后的位置信息进行扩散模式计算的步骤之后，计算每一个功能房间角点坐标，生成的功能房间布局被输入奖励系统进行打分，得出每个智能体的得分，判断是否达到完成的标志。

10、优选的，所述生成的功能房间布局被输入奖励系统进行打分的步骤中，功能房间的坐标以及各个智能体的得分和任务完成标志被合并成列表，当前状态和观察值为通过以上数据计算得出的每个功能房间的角点的坐标值，各个角点的相对坐标值，以及每个角点相对于柱子的相对坐标值，相对坐标值是通过自身坐标与相对坐标的差值计算得出。

11、优选的，所述奖励系统由一组逻辑算法模块和一组mlp神经网络组成，奖励系统基于预设的奖励计算公式进行打分，奖励计算公式包括：

12、f(d)＝-α·(d+0.5l)

13、其中，f(d)为计算需要靠近的功能房间的奖励公式，用于计算一个房间需要靠近某一特定点时的奖励值，d表示房间到目标点的距离，l为整个改造区域长边长度，α是权重系数；g(dij)＝-β·(dij+0.5l)；

14、其中，g(dij)为计算需要相互靠近的同一功能房间，dij为同一功能房间两两计算的距离，β为权重系数；t(d)＝θ·(dkl-0.5l)；

15、其中，t(d)为计算需要相互远离的公式，d为房间之间的距离，θ为权重系数；h(dkl)＝γ·(dkl-0.5l)；

16、其中，h(dkl)是计算需要相互远离的同一功能房间，dkl为同一功能房间两两计算的距离，γ为权重系数；e(l)＝m·l-n·(1-l)；

17、其中，e(l)用于对房间的采光进行评分，l来表示房间一侧靠近建筑轮廓的程度，l＝1表示房间至少有一面靠近建筑轮廓，l＝0则表示房间四面都被其他房间包围，m和n是正的权重系数；t＝d/dmax；

18、其中，d(d)用于根据功能房间的角点与原有柱子的位置关系计算其奖励，b(t)用于将一个点到最近柱子的距离映射到一个贝塞尔曲线上，根据曲线的值来确定分数，t是根据距离d归一化后得到的贝塞尔曲线参数，归一化方程为d/dmax，通过归一化映射到[0，1]区间内，n是曲线的阶数，对于一个三次贝塞尔曲线，n＝3，c(n，i)是组合数，表示在n个元素中选择i个元素的方式数量，pi是第i个控制点，δ为正的权重系数。

19、优选的，智能体的数量与功能房间的数量相同。

20、优选的，神经网络奖励模型中，设定了5个影藏层，迭代次数为15，训练集为四组共20个同改造目标中接近的功能房间矩形的长宽面积和对应功能的标签，且均经过标准化处理，测试集为由强化学习生成的空间组合，由神经网络输出每个对应功能的标签，当标签与预期功能标签相同时，则该功能房间的形状和面积符合预期，正分奖励。

21、本专利技术提供的基于多智能体深度强化学习的自动化建筑空间组合方法，基于多智能体深度强化学习的框架，应对建筑设计中的复杂空间组合问题，特别是在面对需要在既有建筑条件下实现功能更新和空间优化的场景，该本文档来自技高网...

【技术保护点】

1.基于多智能体深度强化学习的自动化建筑空间组合方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于多智能体深度强化学习的自动化建筑空间组合方法，其特征在于，每一个智能体包含一组主actor网络、一组目标actor网络、主critic网络和一组目标critic网络，其中，主actor网络用于确定在当前环境状态下的最佳动作，目标actor网络用于计算未来状态的动作，主critic网络和一组目标critic网络用于评估在特定状态和动作组合下的期望回报。

3.根据权利要求1所述的基于多智能体深度强化学习的自动化建筑空间组合方法，其特征在于，智能体基于初始参数进行决策的步骤中，指定智能体数量和每个情景的最大步数，定义每个智能体允许在平面四个正交方向上被作用的力为动作空间，定义包含智能体的自身位置、自身形成的功能房间矩形角点位置、相对于其他智能体位置和功能房间角点位置以及相对于不可移动对象的位置信息的空间为观察空间，所有位置信息均被标准化，智能体根据初始参数通过其学习到的策略选择下一步的动作及每个智能体的平面受力，生成对应的决策。

4.根据权利

5.根据权利要求4所述的基于多智能体深度强化学习的自动化建筑空间组合方法，其特征在于，根据运动和碰撞后的位置信息进行扩散模式计算的步骤，具体包括：

6.根据权利要求4所述的基于多智能体深度强化学习的自动化建筑空间组合方法，其特征在于，所述根据功能房间布局结果进行打分，基于打分结果进行决策优化，并继续进行训练，直到每个智能体的得分都达到预设值的步骤，包括根据运动和碰撞后的位置信息进行扩散模式计算的步骤之后，计算每一个功能房间角点坐标，生成的功能房间布局被输入奖励系统进行打分，得出每个智能体的得分，判断是否达到完成的标志。

7.根据权利要求6所述的基于多智能体深度强化学习的自动化建筑空间组合方法，其特征在于，所述生成的功能房间布局被输入奖励系统进行打分的步骤中，功能房间的坐标以及各个智能体的得分和任务完成标志被合并成列表，当前状态和观察值为通过以上数据计算得出的每个功能房间的角点的坐标值，各个角点的相对坐标值，以及每个角点相对于柱子的相对坐标值，相对坐标值是通过自身坐标与相对坐标的差值计算得出。

8.根据权利要求6所述的基于多智能体深度强化学习的自动化建筑空间组合方法，其特征在于，所述奖励系统由一组逻辑算法模块和一组MLP神经网络组成，奖励系统基于预设的奖励计算公式进行打分，奖励计算公式包括：

9.根据权利要求1所述的基于多智能体深度强化学习的自动化建筑空间组合方法，其特征在于，智能体的数量与功能房间的数量相同。

10.根据权利要求8所述的基于多智能体深度强化学习的自动化建筑空间组合方法，其特征在于，神经网络奖励模型中，设定了5个影藏层，迭代次数为15，训练集为四组共20个同改造目标中接近的功能房间矩形的长宽面积和对应功能的标签，且均经过标准化处理，测试集为由强化学习生成的空间组合，由神经网络输出每个对应功能的标签，当标签与预期功能标签相同时，则该功能房间的形状和面积符合预期，正分奖励。

...

【技术特征摘要】

1.基于多智能体深度强化学习的自动化建筑空间组合方法，其特征在于，所述方法包括：

4.根据权利要求1所述的基于多智能体深度强化学习的自动化建筑空间组合方法，其特征在于，根据智能体产生的决策在智能体训练环境中对智能体进行动力学模拟和扩散的步骤中，接收初始状态列表信息，所述初始状态列表信息至少包括智能体的初始位置、受力信息以及是否重置动力学模拟的标志，对初始状态列表信息进行数据预处理，通过数据预处理对初始状态列表信息进行数据分隔，并将其中包含的位置信息映射到实际尺寸，读取初始状态列表信息中的扩散率参数，智能体根据其位置坐标和扩散率参数生成可互相碰撞的圆圈，圆圈的运动被限定在待设计区域内，四周被设定成刚体，圆圈碰撞后会被弹回，圆圈的受力来自各个智能体受力的向量，受力点位于圆圈的圆心，圆圈受力运动，相互之间发生碰撞，根据运动和碰撞后的位置信息进行扩散模式计算，将每一个圆环扩散为一个功能房...

【专利技术属性】
技术研发人员：张紫寰，李早，郭喆，蒋孟秋，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人