一种基于强化学习的木质家具板材切割优化方法及装置制造方法及图纸

技术编号：42374545 阅读：6 留言：0更新日期：2024-08-16 14:58

本申请提供了一种基于强化学习的木质家具板材切割优化方法及装置。该方法包括：获取目标板材的板材特征数据以及切割需求；基于所述板材特征数据及所述切割需求，确定相应的至少一个切割候选方案，所述切割候选方案包含至少一个切割阶段以及作用于各切割阶段下的板材的切割动作；确定与所述切割需求相匹配的评分策略，所述评分策略用于指示对于执行任一所述切割动作后的板材的切割评价值；迭代地筛选出使所述切割评价值最大化的切割动作，并基于筛选出的切割动作优化所述评分策略，以由所述切割候选方案形成切割优化方案。本申请提高了板材切割的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及木质家具生产，具体而言，本申请涉及一种基于强化学习的木质家具板材切割优化方法及装置。

技术介绍

1、对于木质家具行业，板材切割优化问题是经典的组合优化问题。目前，针对这种组合问题优化问题存在启发式算法和精确算法这两种解决方案。其中，启发式算法缺少理论指导且需要大量的行业验证。而精确算法中的分支定界算法比较常用于解决该组合问题优化问题，但由于板材切割问题转化成节点决策而产生的分支计算量较大，且计算时间过长。因此，现有的板材切割优化技术的效率低下。

技术实现思路

1、本申请提供了一种基于强化学习的木质家具板材切割优化方法及装置，用于解决现有的板材切割优化技术的效率低下的技术问题。

2、根据本申请的一个方面，提供了一种基于强化学习的木质家具板材切割优化方法，包括：

3、获取目标板材的板材特征数据以及切割需求；

4、基于所述板材特征数据及所述切割需求，确定相应的至少一个切割候选方案，所述切割候选方案包含至少一个切割阶段以及作用于各切割阶段下的板材的切割动作；

5、确定与所述切割需求相匹配的评分策略，所述评分策略用于指示对于执行任一所述切割动作后的板材的切割评价值；

6、迭代地筛选出使所述切割评价值最大化的切割动作，并基于筛选出的切割动作优化所述评分策略，以由所述切割候选方案形成切割优化方案。

7、可选的，所述基于所述板材特征数据及所述切割需求，确定相应的至少一个切割候选方案，包括：

8、基于所述切

9、基于所述决策问题模型，确定相对应的决策问题求解器，所述决策问题求解器用于指示响应所述切割需求的至少一个切割候选方案。

10、可选的，所述评分策略包含用于表征使任一所述切割动作所产生的浪费面积最小化的消耗评分策略。

11、可选的，所述迭代地筛选出使所述切割评价值最大化的切割动作，并基于筛选出的切割动作优化所述评分策略，以由所述切割候选方案形成切割优化方案，包括：

12、针对任一切割阶段，基于当前的评分策略以及对于执行上一个切割动作后的板材特征数据，确定相应的切割评价值，所述切割动作包括切割位置、切割方向及板材放置位置；

13、从所述切割候选方案中，选取在所述切割阶段下使所确定的切割评价值达到预设的高评价阈值时对应的板材；

14、将所选取的板材所对应的目标切割动作添加到所述切割候选方案中；

15、迭代地更新所述切割候选方案，直至所迭代的次数达到预设的切割次数，以在当前的切割候选方案中确定使由各切割阶段下的切割评价值组成的总切割评价值最大化的切割动作集合，作为切割优化方案。

16、可选的，所述迭代地更新所述切割候选方案，直至所获得的板材达到预设的切割次数，以在当前的切割候选方案中确定使由各切割阶段下的切割评价值组成的总切割评价值最大化的切割动作集合，作为切割优化方案，包括：

17、在当前的切割候选方案的数据长度不小于预设的束宽时，则针对任一切割阶段，将所对应的板材按其切割评价值从小到大进行排序，删除排序在前a%的板材，其中，。

18、可选的，所述迭代地更新所述切割候选方案，直至所获得的板材达到预设的切割次数，以在当前的切割候选方案中确定使由各切割阶段下的切割评价值组成的总切割评价值最大化的切割动作集合，作为切割优化方案，还包括：

19、在当前的切割候选方案的数据长度小于所述束宽时，则判断所迭代的次数是否达到所述切割次数；

20、若是，则结束迭代，并确定所述切割优化方案；否则，重复基于切割评价值选取对应的板材。

21、可选的，所述迭代地筛选出使所述切割评价值最大化的切割动作，并基于筛选出的切割动作优化所述评分策略，以由所述切割候选方案形成切割优化方案，还包括：

22、将添加所述目标切割动作后的切割候选方案，确定节点数据集，所述节点数据集包含至少一个节点，所述节点用于表征各切割阶段下的板材；

23、针对任一切割阶段，确定对应的任一节点与其他节点之间的相似度矩阵、任一节点与所对应的各目标切割动作之间的状态转移矩阵以及相应的强化学习策略网络；

24、基于所述相似度矩阵、所述状态转移矩阵以及所述强化学习策略网络，构造蒙特卡洛树的叶节点；

25、对所述蒙特卡洛树的叶节点进行展开，以优化所述评分策略。

26、可选的，所述基于所述相似度矩阵、所述状态转移矩阵以及所述强化学习策略网络，构造蒙特卡洛树的叶节点，包括：

27、基于所述相似度矩阵，确定所述评分策略的评分价值；

28、确定所述节点的节点评估函数，并在所述节点评估函数中，在满足针对当前的板材一刀切和预设尺寸的约束下，基于所述相似度矩阵和所述状态转移矩阵，计算所述节点的预估评价分数；

29、构造蒙特卡洛树的叶节点，使得在所述叶节点进行预估评分时，对于当前的叶节点所在的切割阶段下以固定次数进行切割动作的模拟，令所述强化学习策略网络对于当前的切割阶段下的所述评分策略的评分价值，逼近所述节点评估函数对于当前的切割阶段下的所述预估评价分数。

30、可选的，所述板材特征数据包括板材材质、板材形状、板材尺寸以及缺陷特征，所述缺陷特征包括缺陷形态、缺陷位置、缺陷尺寸以及缺陷数量；

31、通过如下步骤以确定切割评价值，包括：

32、确定用于表征任一板材特征数据与各切割需求之间的相关性的第一特征关系；

33、确定用于表征任一切割需求与所述评分策略之间的相关性的第二特征关系；

34、确定用于表征任一板材特征数据对所述评分策略的影响程度的第三特征关系；

35、基于所述第一特征关系、所述第二特征关系以及所述第三特征关系，确定各板材特征数据的效率评估值，使得筛选出在所述效率评估值达到预设的高关联阈值时对应的板材特征数据；

36、基于所述评分策略、筛选出的材料特征数据以及对应的效率评估值，计算切割评估值。

37、根据本申请的另一个方面，提供了一种基于强化学习的木质家具板材切割优化装置，包括：

38、数据获取模块，用于获取目标板材的板材特征数据以及切割需求；

39、切割候选方案确定模块，用于基于所述板材特征数据及所述切割需求，确定相应的至少一个切割候选方案，所述切割候选方案包含至少一个切割阶段以及作用于各切割阶段下的板材的切割动作；

40、评分策略确定模块，用于确定与所述切割需求相匹配的评分策略，所述评分策略用于指示对于执行任一所述切割动作后的板材的切割评价值；

41、优化模块，用于迭代地筛选出使所述切割评价值最大化的切割动作，并基于筛选出的切割动作优化所述评分策略，以由所述切割候选方案形成切割优化方案。

本文档来自技高网...

【技术保护点】

1.一种基于强化学习的木质家具板材切割优化方法，其特征在于，包括：

2.根据权利要求1所述的基于强化学习的木质家具板材切割优化方法，其特征在于，所述基于所述板材特征数据及所述切割需求，确定相应的至少一个切割候选方案，包括：

3.根据权利要求2所述的基于强化学习的木质家具板材切割优化方法，其特征在于，所述评分策略包含用于表征使任一所述切割动作所产生的浪费面积最小化的消耗评分策略。

4.根据权利要求3所述的基于强化学习的木质家具板材切割优化方法，其特征在于，所述迭代地筛选出使所述切割评价值最大化的切割动作，并基于筛选出的切割动作优化所述评分策略，以由所述切割候选方案形成切割优化方案，包括：

5.根据权利要求4所述的基于强化学习的木质家具板材切割优化方法，其特征在于，所述迭代地更新所述切割候选方案，直至所获得的板材达到预设的切割次数，以在当前的切割候选方案中确定使由各切割阶段下的切割评价值组成的总切割评价值最大化的切割动作集合，作为切割优化方案，包括：

6.根据权利要求5所述的基于强化学习的木质家具板材切割优化方法，其特征在于

7.根据权利要求6所述的基于强化学习的木质家具板材切割优化方法，其特征在于，所述迭代地筛选出使所述切割评价值最大化的切割动作，并基于筛选出的切割动作优化所述评分策略，以由所述切割候选方案形成切割优化方案，还包括：

8.根据权利要求7所述的基于强化学习的木质家具板材切割优化方法，其特征在于，所述基于所述相似度矩阵、所述状态转移矩阵以及所述强化学习策略网络，构造蒙特卡洛树的叶节点，包括：

9.根据权利要求8所述的基于强化学习的木质家具板材切割优化方法，其特征在于，所述板材特征数据包括板材材质、板材形状、板材尺寸以及缺陷特征，所述缺陷特征包括缺陷形态、缺陷位置、缺陷尺寸以及缺陷数量；

10.一种基于强化学习的木质家具板材切割优化装置，其特征在于，包括：

...

【技术特征摘要】

1.一种基于强化学习的木质家具板材切割优化方法，其特征在于，包括：

6.根据权利要求5所述的基...

【专利技术属性】
技术研发人员：胡继飞，季雷，
申请(专利权)人：四川亚度家具有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人