智能体的控制方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33081011 阅读:14 留言:0更新日期:2022-04-15 10:34
本发明专利技术实施例涉及智能控制领域,公开了一种智能体的控制方法、装置、电子设备及存储介质。本发明专利技术中,获取目标任务;根据数字孪生世界的环境数据、智能体的位姿和强化学习网络,生成用于控制数字孪生体完成目标任务的控制指令;其中,数字孪生世界通过对物理世界的仿真映射得到,数字孪生体位于数字孪生世界内,智能体位于物理世界,且与数字孪生体相对应;根据完成目标任务的控制指令,控制智能体执行目标任务。能够降低数据处理的复杂程度,从而提高对智能体的控制效率。高对智能体的控制效率。高对智能体的控制效率。

【技术实现步骤摘要】
智能体的控制方法、装置、电子设备及存储介质


[0001]本专利技术实施例涉及智能控制领域,特别涉及智能体的控制方法、装置、电子设备及存储介质。

技术介绍

[0002]人工智能领域通常以智能设备采集的数据为输入进行学习训练,输出用于控制智能体的动作。例如通过采集RGBD(RGB

Depth Map,RGB色彩模式和深度图)信息作为输入数据。
[0003]对于RGBD信息,通常需要摄像头进行图像获取和识别来得到。但摄像头获取的数据不仅包括RGBD信息,还包括多种不必要的参数,例如:光影条件、旁边障碍物体的图像数据等,也就是为了得到目标RGBD信息,在摄像头采集到图像后,还需要对于图像数据进行筛选处理,其中不免会需要大量的数据计算过程,即,在将RGBD信息作为输入数据进行学习训练时,存在数据采集困难的问题,并且对于数据计算设备的对运算能力要求高,由于需要处理的数据量大导致训练收敛慢,在一些执行过程中还会存在虚实数据在计算过程中迁移复杂的问题。由于数据处理过程复杂,该训练学习过程对智能体的控制效率低。

技术实现思路

[0004]本专利技术实施方式的目的在于提供一种智能体的控制方法、装置、电子设备及存储介质,降低数据处理的复杂程度,从而提高对智能体的控制效率。
[0005]为解决上述技术问题,本专利技术的实施方式提供了一种智能体的控制方法,包括以下步骤:获取目标任务;根据数字孪生世界的环境数据、智能体的位姿和强化学习网络,生成用于控制数字孪生体完成所述目标任务的控制指令;其中,所述数字孪生世界通过对物理世界的仿真映射得到,所述数字孪生体位于所述数字孪生世界内,所述智能体位于所述物理世界,且与所述数字孪生体相对应;根据所述完成目标任务的控制指令,控制所述智能体执行所述目标任务。
[0006]本专利技术的实施方式还提供了一种智能体的控制装置,包括:获取模块,用于获取目标任务;生成模块,用于根据数字孪生世界的环境数据、智能体的位姿和强化学习网络,生成用于控制数字孪生体完成所述目标任务的控制指令;其中,所述数字孪生世界通过对物理世界的仿真映射得到,所述数字孪生体位于所述数字孪生世界内,所述智能体位于所述物理世界,且与所述数字孪生体相对应;执行模块,用于根据所述完成目标任务的控制指令,控制所述智能体执行所述目标任务。
[0007]本专利技术的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的智能体的控制方法。
[0008]本专利技术的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述
计算机程序被处理器执行时实现上述的智能体的控制方法。
[0009]在本申请的实施方式中,通过数字孪生世界对物理世界进行模拟,并在数字孪生世界中存在与物理世界中智能体对应的数字孪生体;在数字孪生世界中通过控制指令操作数字孪生体,能够模拟控制指令操作智能体的结果,通过训练获取合适的控制指令以使得智能体执行目标任务。不需要考虑对RGBD等输入参数进行预处理的过程,也降低对智能体输出的控制指令的数据计算的复杂度,提高对于智能体的控制效率。
[0010]另外,所述根据数字孪生世界的环境数据、智能体的位姿和强化学习网络,生成用于控制数字孪生体完成所述目标任务的控制指令,包括:将所述智能体的位姿和用于表征所述环境数据的空间语义地图,输入所述强化学习网络,所述强化学习网络输出用于控制所述数字孪生体的动作的控制指令;所述强化学习网络根据所述数字孪生体执行所述控制指令的结果,训练得到完成所述目标任务的控制指令。即,通过环境数据、智能体的位姿和强化学习网络在数字孪生世界中进行模拟训练,根据反馈结果不断调整,直至得到完成所述目标任务的控制指令。
[0011]另外,所述强化学习网络输出的初始控制指令根据先验数据生成;其中,所述先验数据根据用户通过交互设备控制所述数字孪生体的动作获取得到。先验数据为能够实现目标任务或者接近实现目标任务的数据,采用先验数据作为初始控制指令,能够减少训练次数,降低数据处理的复杂度。
[0012]另外,所述数字孪生世界加载于云端服务器;所述根据数字孪生世界的环境数据、智能体的位姿和强化学习网络,生成用于控制数字孪生体完成所述目标任务的控制指令,包括:通过与所述云端服务器的交互,根据数字孪生世界的环境数据、智能体的位姿和强化学习网络,生成用于控制数字孪生体完成所述目标任务的控制指令。将数字孪生世界加载于云端,极大程度上降低对于智能体自身的数据计算要求,减少设备设置的复杂度,同时云端服务器的数据处理能力普遍较高,能够进一步提高获取完成所述目标任务的控制指令的效率。
[0013]另外,在所述获取目标任务后,所述生成用于控制数字孪生体完成所述目标任务的控制指令之前,还包括:关闭渲染功能;在所述生成用于控制数字孪生体完成所述目标任务的控制指令后,还包括:开启所述渲染功能。渲染功能用于向用户进行展示,且普遍占用计算资源较多;在生成完成所述目标任务的控制指令之前的数据对于用户一般不具有实际作用,所以在该时间段取消渲染功能,将设备的数据处理资源均应用于生成控制指令,能够提高控制指令的生成效率。在得到控制指令后,开启渲染功能,使得数字孪生体执行控制指令的过程对于用户呈可视化,用户可获知控制指令的模拟执行过程。
附图说明
[0014]一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
[0015]图1是根据本申请的一个实施方式所提供的智能体的控制方法的流程图;
[0016]图2是根据本申请的一个实施方式所提供的智能体的控制装置的示意图;
[0017]图3是根据本申请的一个实施方式所提供的电子设备的示意图。
具体实施方式
[0018]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本专利技术各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本专利技术的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
[0019]本申请实施例中的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列部件或单元的系统、产品或设备没有限定于已列出的部件或单元,而是可选地还包括没本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种智能体的控制方法,其特征在于,包括:获取目标任务;根据数字孪生世界的环境数据、智能体的位姿和强化学习网络,生成用于控制数字孪生体完成所述目标任务的控制指令;其中,所述数字孪生世界通过对物理世界的仿真映射得到,所述数字孪生体位于所述数字孪生世界内,所述智能体位于所述物理世界,且与所述数字孪生体相对应;根据所述完成目标任务的控制指令,控制所述智能体执行所述目标任务。2.根据权利要求1所述的智能体的控制方法,其特征在于,所述根据数字孪生世界的环境数据、智能体的位姿和强化学习网络,生成用于控制数字孪生体完成所述目标任务的控制指令,包括:将所述智能体的位姿和用于表征所述环境数据的空间语义地图,输入所述强化学习网络,所述强化学习网络输出用于控制所述数字孪生体的动作的控制指令;所述强化学习网络根据所述数字孪生体执行所述控制指令的结果,训练得到完成所述目标任务的控制指令。3.根据权利要求2所述的智能体的控制方法,其特征在于,所述强化学习网络包括:深度Q值网络DQN网络模型;所述DQN网络模型的输入为包括所述智能体的位姿和所述空间语义地图的RGBD图像,所述DQN网络模型的输出为机械臂各关节的动作。4.根据权利要求2所述的智能体的控制方法,其特征在于,所述强化学习网络输出的初始控制指令根据先验数据生成;其中,所述先验数据根据用户通过交互设备控制所述数字孪生体的动作获取得到。5.根据权利要求4所述的智能体的控制方法,其特征在于,所述先验数据通过以下方式获取得到:通过交互设备接收用户基于采集得到的RGBD图像输入的用于控制机械臂的操作指令;记录所述机械臂执行所述操作指令过程中的机械臂各关节的动作;将所述RGBD图像和所述机械臂各关节的动作作为先验数据进行保存。6.根据权利要求4所述的智能体的控制方法,其特征在于,在所述根据所述完成目标任务的控制指令,控制所述智能体执行所述目标任务之后,还包括:在所述智能体执行所述目标任务失败的情况下,接收用户通过交互设备输入的辅助指令,所述辅助指令用于控制所述智能体成功执行所述目标任务;在成功执行所述目标任务后,根据执行所...

【专利技术属性】
技术研发人员:黄晓庆马世奎彭飞
申请(专利权)人:达闼科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1