智能体的控制方法、装置、电子设备及存储介质制造方法及图纸

技术编号：33081011 阅读：14 留言：0更新日期：2022-04-15 10:34

本发明专利技术实施例涉及智能控制领域，公开了一种智能体的控制方法、装置、电子设备及存储介质。本发明专利技术中，获取目标任务；根据数字孪生世界的环境数据、智能体的位姿和强化学习网络，生成用于控制数字孪生体完成目标任务的控制指令；其中，数字孪生世界通过对物理世界的仿真映射得到，数字孪生体位于数字孪生世界内，智能体位于物理世界，且与数字孪生体相对应；根据完成目标任务的控制指令，控制智能体执行目标任务。能够降低数据处理的复杂程度，从而提高对智能体的控制效率。高对智能体的控制效率。高对智能体的控制效率。

全部详细技术资料下载

【技术实现步骤摘要】
智能体的控制方法、装置、电子设备及存储介质

[0001]本专利技术实施例涉及智能控制领域，特别涉及智能体的控制方法、装置、电子设备及存储介质。

技术介绍

[0002]人工智能领域通常以智能设备采集的数据为输入进行学习训练，输出用于控制智能体的动作。例如通过采集RGBD(RGB
‑
Depth Map，RGB色彩模式和深度图)信息作为输入数据。
[0003]对于RGBD信息，通常需要摄像头进行图像获取和识别来得到。但摄像头获取的数据不仅包括RGBD信息，还包括多种不必要的参数，例如：光影条件、旁边障碍物体的图像数据等，也就是为了得到目标RGBD信息，在摄像头采集到图像后，还需要对于图像数据进行筛选处理，其中不免会需要大量的数据计算过程，即，在将RGBD信息作为输入数据进行学习训练时，存在数据采集困难的问题，并且对于数据计算设备的对运算能力要求高，由于需要处理的数据量大导致训练收敛慢，在一些执行过程中还会存在虚实数据在计算过程中迁移复杂的问题。由于数据处理过程复杂，该训练学习过程对智能体的控制效率低。

技术实现思路

[0004]本专利技术实施方式的目的在于提供一种智能体的控制方法、装置、电子设备及存储介质，降低数据处理的复杂程度，从而提高对智能体的控制效率。
[0005]为解决上述技术问题，本专利技术的实施方式提供了一种智能体的控制方法，包括以下步骤：获取目标任务；根据数字孪生世界的环境数据、智能体的位姿和强化学习网络，生成用于控制数字孪生体完成所述目标任务的控制指令；其中...

【技术保护点】

【技术特征摘要】
1.一种智能体的控制方法，其特征在于，包括：获取目标任务；根据数字孪生世界的环境数据、智能体的位姿和强化学习网络，生成用于控制数字孪生体完成所述目标任务的控制指令；其中，所述数字孪生世界通过对物理世界的仿真映射得到，所述数字孪生体位于所述数字孪生世界内，所述智能体位于所述物理世界，且与所述数字孪生体相对应；根据所述完成目标任务的控制指令，控制所述智能体执行所述目标任务。2.根据权利要求1所述的智能体的控制方法，其特征在于，所述根据数字孪生世界的环境数据、智能体的位姿和强化学习网络，生成用于控制数字孪生体完成所述目标任务的控制指令，包括：将所述智能体的位姿和用于表征所述环境数据的空间语义地图，输入所述强化学习网络，所述强化学习网络输出用于控制所述数字孪生体的动作的控制指令；所述强化学习网络根据所述数字孪生体执行所述控制指令的结果，训练得到完成所述目标任务的控制指令。3.根据权利要求2所述的智能体的控制方法，其特征在于，所述强化学习网络包括：深度Q值网络DQN网络模型；所述DQN网络模型的输入为包括所述智能体的位姿和所述空间语义地图的RGBD图像，所述DQN网络模型的输出为机械臂各关节的动作。4.根据权利要求2所述的智能体的控制方法，其特征在于，所述强化学习网络输出的初始控制指令根据先验数据生成；其中，所述先验数据根据用户通过交互设备控制所述数字孪生体的动作获取得到。5.根据权利要求4所述的智能体的控制方法，其特征在于，所述先验数据通过以下方式获取得到：通过交互设备接收用户基于采集得到的RGBD图像输入的用于控制机械臂的操作指令；记录所述机械臂执行所述操作指令过程中的机械臂各关节的动作；将所述RGBD图像和所述机械臂各关节的动作作为先验数据进行保存。6.根据权利要求4所述的智能体的控制方法，其特征在于，在所述根据所述完成目标任务的控制指令，控制所述智能体执行所述目标任务之后，还包括：在所述智能体执行所述目标任务失败的情况下，接收用户通过交互设备输入的辅助指令，所述辅助指令用于控制所述智能体成功执行所述目标任务；在成功执行所述目标任务后，根据执行所...

【专利技术属性】
技术研发人员：黄晓庆，马世奎，彭飞，
申请(专利权)人：达闼科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人