System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及人工智能 ,尤其涉及一种具身智能控制方法、装置、设备、存储介质及程序产品。
技术介绍
1、具身智能(embodied ai)是一种以物理机器人身体为基础的智能系统,通过与环境的互动实现感知和行动,该系统通过机器人智能体与周围环境的交互,获取信息、理解问题、做出决策并执行相应行动,从而展现出智能行为和适应性。具身智能控制是指将感知到的信息,包括任务指令、目标物体和当前场景,转化为适当的决策,并制定步骤规划,这一过程需要考虑机器人的执行能力以及环境中的变化,以确保规划的行动能够在实施中顺利执行。
2、机器人主要分为工业机器人和服务机器人。工业机器人主要用于工业制造场景,比如汽车制造、零部件加工等,其工作环境是结构化的,通常在一个固定且适合机器人手臂开展工作的空间。服务机器人主要用于人们的工作和生活场景,工作环境较为复杂,比如酒店、餐厅、写字楼等,且服务机器人的控制精度和重复精度也低于工业机器人。随着机器人在生活中愈加广泛的应用,如何控制机器人更高效快速地完成复杂任务成为了亟需解决的问题。
3、在一些相关技术中,具身智能控制方案主要基于运动学原理,通常依赖于预设规则和有限的反应模式。但是,现有的具身智能控制方案的适用性差,难以在多变的现实环境中实现任务的执行。
技术实现思路
1、本申请实施例提供一种具身智能控制方法、装置、设备、存储介质及程序产品,用以解决现有的具身智能控制方案的适用性差,难以在多变的现实环境中实现任务的执行的技术问题。
2、
3、在一个实施例中,高阶目标规划网络包括特征融合解码器,特征融合解码器包括多个神经网络层,每一神经网络层包括依次连接的transformer解码器层和交叉注意力层;高阶目标规划网络,用于对图像特征和文本特征进行特征融合处理,生成多模态特征;基于多模态特征,生成多个子任务的高阶目标;基于高阶目标,生成目标隐变量;输出目标隐变量和多模态特征。
4、在一个实施例中,低阶执行网络包括依次连接的长短期记忆网络和多层感知机;将目标隐变量和多模态特征输入至低阶执行网络,获得低阶执行网络输出的当前子任务对应的动作序列,包括:将目标隐变量和多模态特征输入至低阶执行网络的长短期记忆网络,获得长短期记忆网络输出的中间信息;将中间信息输入至低阶执行网络的多层感知机,获得多层感知机输出的当前子任务对应的动作序列。
5、在一个实施例中,获取图像特征和文本特征,包括:基于机器人的视觉传感器,采集环境图像;将环境图像输入至图像编码器,获得图像编码器输出的图像特征;获取用户的语音指令;将语音指令转换成文本数据;对文本数据进行特征提取,获得文本特征。
6、在一个实施例中,环境图像包括第一图像和第二图像,第一图像为机器人的全局视角图像,第二图像为机器人的夹爪视角图像,图像编码器包括依次连接的transformer层和重采样器;将环境图像输入至图像编码器,获得图像编码器输出的图像特征,包括:将第一图像和第二图像输入至图像编码器的transformer层,获得transformer层输出的图像特征序列;将图像特征序列输入至图像编码器的重采样器,获得重采样器输出的图像特征。
7、在一个实施例中,对文本数据进行特征提取,获得文本特征,包括:对文本数据进行数据预处理,获得待处理文本;数据预处理包括数据清洗处理、分词处理、词形还原处理和去停用词处理;将待处理文本输入至文本编码器,获得文本编码器输出的文本特征。
8、第二方面,本申请实施例提供一种具身智能控制装置,包括:获取模块,用于获取图像特征和文本特征;图像特征是基于机器人采集的环境图像确定的,文本特征是基于用户的语音指令确定的;第一生成模块,用于将图像特征和文本特征输入至高阶目标规划网络,获得高阶目标规划网络输出的目标隐变量和多模态特征; 目标隐变量是基于多个子任务的高阶目标确定的,所有子任务具有相同的高阶目标,高阶目标是基于多模态特征确定的;第二生成模块,用于将目标隐变量和多模态特征输入至低阶执行网络,获得低阶执行网络输出的当前子任务对应的动作序列;执行模块,用于控制机器人执行动作序列,获得动作序列的执行结果,并基于执行结果,判断当前子任务是否完成;若当前子任务已完成,则基于低阶执行网络生成下一个子任务对应的动作序列,直至所有子任务均完成。
9、第三方面,本申请实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述任一种具身智能控制方法。
10、第四方面,本申请实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种具身智能控制方法。
11、第五方面,本申请实施例提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现如上述任一种具身智能控制方法。
12、本申请实施例提供的具身智能控制方法、装置、设备、存储介质及程序产品,采用高阶规划和低阶执行的层级策略,先基于采集的环境图像确定图像特征,基于用户的语音指令确定文本特征,将图像特征和文本特征输入至高阶目标规划网络,获得高阶目标规划网络输出的目标隐变量和多模态特征,再将目标隐变量和多模态特征输入至低阶执行网络,目标隐变量的传递使得高阶目标规划网络和低阶执行网络之间实现了有效的信息交互,可确保机器人能够准确理解并执行每一个子任务,提高控制效率,同时,在具身智能控制的过程中充分考虑现实环境的变化,在多模态特征中融合了当前环境信息,使得低阶执行网络可根据目标隐变量和多模态特征中融合的当前环境信息生成当前子任务对应的动作序列,并根据当前子任务对应的动作序列的执行情况逐步完成每一个子任务, 使得机器人能够在多变的现实环境中完成复杂任务的执行,具身智能控制方法适用性强,且控制效率高。
本文档来自技高网...【技术保护点】
1.一种具身智能控制方法,其特征在于,包括:
2.根据权利要求1所述的具身智能控制方法,其特征在于,所述高阶目标规划网络包括特征融合解码器,所述特征融合解码器包括多个神经网络层,每一所述神经网络层包括依次连接的Transformer解码器层和交叉注意力层;
3.根据权利要求1所述的具身智能控制方法,其特征在于,所述低阶执行网络包括依次连接的长短期记忆网络和多层感知机;
4.根据权利要求1所述的具身智能控制方法,其特征在于,所述获取图像特征和文本特征,包括:
5.根据权利要求4所述的具身智能控制方法,其特征在于,所述环境图像包括第一图像和第二图像,所述第一图像为所述机器人的全局视角图像,所述第二图像为所述机器人的夹爪视角图像,所述图像编码器包括依次连接的Transformer层和重采样器;
6.根据权利要求4所述的具身智能控制方法,其特征在于,所述对所述文本数据进行特征提取,获得所述文本特征,包括:
7.一种具身智能控制装置,其特征在于,包括:
8.一种电子设备,包括存储器、处理器及存储在所述存储器
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述具身智能控制方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述具身智能控制方法。
...【技术特征摘要】
1.一种具身智能控制方法,其特征在于,包括:
2.根据权利要求1所述的具身智能控制方法,其特征在于,所述高阶目标规划网络包括特征融合解码器,所述特征融合解码器包括多个神经网络层,每一所述神经网络层包括依次连接的transformer解码器层和交叉注意力层;
3.根据权利要求1所述的具身智能控制方法,其特征在于,所述低阶执行网络包括依次连接的长短期记忆网络和多层感知机;
4.根据权利要求1所述的具身智能控制方法,其特征在于,所述获取图像特征和文本特征,包括:
5.根据权利要求4所述的具身智能控制方法,其特征在于,所述环境图像包括第一图像和第二图像,所述第一图像为所述机器人的全局视角图像,所述第二图像为所述机器人的夹爪视角图像,所述图像编码器包括依次连接的tr...
【专利技术属性】
技术研发人员:唐婧尧,温明潼,张刚,蒲琪然,
申请(专利权)人:中移杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。