用于确定对象的放置方案的方法、装置和计算机可读存储介质制造方法及图纸

技术编号：41402958 阅读：9 留言：0更新日期：2024-05-20 19:28

本公开内容提供了用于确定对象的放置方案的方法、装置和计算机可读存储介质。该方法可以包括：获取对象信息和容器状态信息；基于对象信息和容器状态信息，采用深度强化学习算法确定初始放置信息，初始放置信息用于表示当前对象的一组初始放置方案；基于容器状态信息，采用与深度强化学习算法不同的另一算法确定可行放置信息，可行放置信息用于表示当前对象的一组可行放置方案；基于初始放置信息和可行放置信息，确定当前对象的最终放置方案，其中，最终放置方案是一组初始放置方案与一组可行放置方案之间共有的放置方案。

全部详细技术资料下载

【技术实现步骤摘要】

本公开内容涉及机器人，并且具体地，涉及用于确定对象的放置方案的方法、装置和计算机可读存储介质。

技术介绍

1、近年来，随着机器人技术的研究不断深入，机器人(例如，机械臂)在码垛(例如，码放箱子)、集装箱装载等方面的应用也快速发展，由此极大地节省了人力成本，而且提高了操作效率。目前，码垛或装箱场景通常包括离线场景和在线场景。在离线场景中，要放置的各个对象的尺寸是提前已知的，因此通常可以统一规划各个对象的放置。而对于在线场景来说，要放置的各个对象的尺寸并不能提前知道，而通常需要按照对象的到达顺序随到随装。无论何种场景下，都需要有效且合理地规划或者优化对象的放置。

技术实现思路

1、考虑到上述需求，本公开内容的实施例提供了用于确定对象的放置方案的方法、装置和计算机可读存储介质。

2、一方面，本公开内容的实施例提供了一种用于确定对象的放置方案的方法，包括：获取对象信息和容器状态信息，其中，所述对象信息用于表示待放置到容器中的当前对象的尺寸，所述容器状态信息用于表示所述容器中的对象放置状态；基于所述对象信息和所述容器状态信息，采用深度强化学习(deep reinforcement learning，drl)算法确定初始放置信息，其中，所述初始放置信息用于表示所述当前对象的一组初始放置方案，每个初始放置方案包括所述当前对象的相应初始放置位置和相应初始放置姿态；基于所述容器状态信息，采用与所述drl不同的另一算法确定可行放置信息，其中，所述可行放置信息用于表示所述当前对象的一组可行放

3、另一方面，本公开内容的实施例提供了一种所述drl算法的训练方法，包括：获得多组样本数据，其中，每组样本数据包括样本对象信息、样本容器状态信息以及样本可行放置信息，其中，所述样本对象信息包括样本对象的尺寸，所述样本容器状态信息用于表示在所述样本对象要被放置在所述容器中之前所述容器中的对象放置状态，所述样本可行放置信息用于表示所述样本对象在所述容器的一组可行放置方案，所述样本可行放置信息是采用所述另一算法得到的；基于所述多组样本数据对初始drl算法进行训练，以获得训练好的drl算法。

4、在一些实施例中，基于所述多组样本数据对初始drl算法进行训练，包括：针对每组样本数据，进行以下操作：基于该组样本数据中的样本对象信息和样本容器状态信息，采用初始drl算法确定动作分数信息，其中，所述动作分数信息包括一组基本放置方案以及每个基本放置方案的分数；基于该组样本数据中的样本可行放置信息和每个基本放置方案的分数，确定每个基本放置方案对应的概率，其中：如果该基本放置方案在该样本可行放置信息中是可行放置方案，则该基本放置方案对应的概率为对该基本放置方案的分数进行归一化得到的值；如果该基本放置方案在该样本可行放置信息中不是可行放置方案，则该基本放置方案对应的概率被设置为预定值；在一组指定放置方案中选择样本最终放置方案，其中，所述一组指定放置方案包括所述一组基本放置方案中的概率不等于所述预定值的放置方案；在针对所述多组样本数据分别得到相应的样本最终放置方案之后，对所述多组样本数据分别对应的样本最终放置方案进行整体评估，并基于评估结果来调整所述初始drl算法的参数，以获得所述训练好的drl算法。

5、可见，在这样的实施例中，由于在一组基本放置方案中的概率不等于预定值的放置方案中选择样本最终放置方案，因此无效动作(即不可行的放置方案)将不会被选择(或称为采样)。这样，采用drl算法的网络架构(这样的网络架构也可以被称为drl智能体)将能够学习从有效动作(即可行放置方案中)进行选择，从而使得网格架构在探索和利用之间进行平衡并且在训练过程中能够更加快速地收敛。

6、另一方面，本公开内容的实施例提供了一种用于确定对象的放置方案的装置，包括：获取单元，被配置为获取对象信息和容器状态信息，其中，所述对象信息用于表示待放置到容器中的当前对象的尺寸，所述容器状态信息用于表示所述容器中的对象放置状态；第一确定单元，被配置为基于所述对象信息和所述容器状态信息，采用drl算法确定初始放置信息，其中，所述初始放置信息用于表示所述当前对象的一组初始放置方案，每个初始放置方案包括所述当前对象的相应初始放置位置和相应初始放置姿态；第二确定单元，被配置为基于所述容器状态信息，采用与所述drl算法不同的另一算法确定可行放置信息，其中，所述可行放置信息用于表示所述当前对象的一组可行放置方案，每个可行放置方案包括所述当前对象的相应可行放置位置和相应可行放置姿态；第三确定单元，被配置为基于所述初始放置信息和所述可行放置信息，确定所述当前对象的最终放置方案，其中，所述最终放置方案是所述一组初始放置方案与所述一组可行放置方案之间共有的放置方案。

7、另一方面，本公开内容的实施例提供了一种用于确定对象的放置方案的装置，包括：至少一个处理器；与所述至少一个处理器进行通信的存储器，其上存储有可执行代码，所述可执行代码在被所述至少一个处理器执行时使得所述至少一个处理器执行上述方法。

8、另一方面，本公开内容的实施例提供了一种计算机可读存储介质，其存储有可执行代码，所述可执行代码在被执行时使得计算机执行上述方法。

本文档来自技高网...

【技术保护点】

1.一种用于确定对象的放置方案的方法，包括：

2.根据权利要求1所述的方法，其中，基于所述对象信息和所述容器状态信息，采用深度强化学习算法确定初始放置信息，包括：

3.根据权利要求2所述的方法，其中，所述容器状态信息包括所述容器的高度图，其中，所述高度图包括与所述容器的底面上的多个区域对应的多个网格，每个网络具有相应的高度值，每个网格的高度值用于表示该网格所对应的区域被占用的总高度；

4.根据权利要求2所述的方法，其中，所述对象信息包括所述当前对象的长度、宽度和高度；

5.根据权利要求4所述的方法，其中，将所述对象信息进行维度变换，包括：

6.根据权利要求2所述的方法，其中，基于所述对象特征信息和所述容器特征信息，采用所述深度强化学习算法确定所述初始放置信息，包括：

7.根据权利要求1所述的方法，其中，基于所述容器状态信息，采用所述另一算法确定所述可行放置信息，包括：

8.根据权利要求1所述的方法，其中，所述初始放置信息包括一组初始放置方案以及每个初始放置方案对应的概率；

9.根据权利

10.根据权利要求1所述的方法，其中，所述另一算法包括以下各项中的至少一项：角点算法、极值点算法、最大剩余空间算法、内部角点算法。

11.一种根据权利要求1至10中任一项所述的方法中采用的深度强化学习算法的训练方法，包括：

12.根据权利要求11所述的训练方法，其中，基于所述多组样本数据对初始深度强化学习算法进行训练，包括：

13.一种用于确定对象的放置方案的系统，包括：

14.根据权利要求13所述的系统，包括：容器编码器(301)、对象编码器(302)、状态卷积神经网络(303)、深度强化学习模块(304)、候选图模块(305)和最终方案确定模块(306)；

15.根据权利要求14所述的系统，其中，所述对象编码器(302)包括：

16.一种用于确定对象的放置方案的装置，包括：

17.一种计算机可读存储介质，其存储有可执行代码，所述可执行代码在被执行时使得计算机执行根据权利要求1至10中任一项所述的方法。

...

【技术特征摘要】