System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及机器人控制和人工智能,尤其涉及一种机器人技能学习方法、装置、机械臂机器人及存储介质。
技术介绍
1、在机器人技术迅猛进步的今天,机械臂机器人因其卓越的灵活性和适应性,在多个领域如制造业、服务业和物流业等,已经展现出了其巨大的应用前景。业界正致力于提升这些机械臂机器人在各自应用场景中的专业技能,并增强它们在实际操作中的精准操作能力。
2、机械臂机器人主要依赖预设的运动路径来执行一些简单的、重复性任务,其缺乏感知和适应环境的能力,即缺乏技能学习能力,无法自主地规划行动路径,而传统模仿学习模型每一时刻的预测结果都需要前一时刻计算而来,这种迭代预测方式,在长时程预测时会积累误差,复合误差的增大导致技能学习效果差,控制精度较差。
技术实现思路
1、本申请提供了一种机器人技能学习方法、装置、机械臂机器人及存储介质,用于解决传统模仿学习模型在长时程预测时复合误差增大,技能学习效果不佳以及控制精度低的问题。
2、本申请第一方面提供了一种机器人技能学习方法,包括:通过预设的机器人控制策略采集原始机器人执行待学习任务时的机器人控制训练数据;
3、根据所述机器人控制训练数据对预设的初始块时序模仿学习模型进行训练,得到目标块时序模仿学习模型;
4、将所述原始机器人当前时刻的第一机器人控制数据输入所述目标块时序模仿学习模型,并根据输出的每个动作时序块进行机器人控制,直至所述待学习任务执行完成;
5、根据预设的奖励函数每个动作时序块进行评估
6、本申请第二方面提供了一种机器人技能学习装置,包括:获取模块,用于通过预设的机器人控制策略采集原始机器人执行待学习任务时的机器人控制训练数据;
7、训练模块,用于根据所述机器人控制训练数据对预设的初始块时序模仿学习模型进行训练,得到目标块时序模仿学习模型;
8、执行模块,用于将所述原始机器人当前时刻的第一机器人控制数据输入所述目标块时序模仿学习模型,并根据输出的每个动作时序块进行机器人控制,直至所述待学习任务执行完成;
9、优化模块,用于根据预设的奖励函数对所述待学习任务的执行结果进行评估,并根据评估结果对所述原始机器人进行模型优化,得到目标机器人。
10、本申请第三方面提供了一种机械臂机器人,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述机械臂机器人执行上述的机器人技能学习方法。
11、本申请的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的机器人技能学习方法。
12、本申请提供的技术方案中,通过强化学习环境交互技术采集原始机器人执行待学习任务时的机器人控制训练数据,提高了机器人对环境感知程度,通过块时序模仿学习模型进行待学习任务的学习解决传统模仿学习模型在长时程预测时复合误差增大的问题,确保了机器人对新任务的技能学习的质量和效率,提高了控制精度。
本文档来自技高网...【技术保护点】
1.一种机器人技能学习方法,其特征在于,所述机器人技能学习方法包括:
2.根据权利要求1所述的机器人技能学习方法,其特征在于,所述机器人控制训练数据包括关节控制样本数据和所述视觉图像样本数据,
3.根据权利要求2所述的机器人技能学习方法,其特征在于,所述初始块时序模仿学习模型包括第一编码器、特征提取网络、第二编码器和解码器,
4.根据权利要求3所述的机器人技能学习方法,其特征在于,所述通过所述解码器对每个时序块对应的综合特征和上一时序块的动作预测结果进行解码,得到每个时序块的动作预测结果,包括:
5.根据权利要求1所述的机器人技能学习方法,其特征在于,所述将所述原始机器人当前时刻的第一机器人控制数据输入所述目标块时序模仿学习模型,并根据输出的每个动作时序块进行机器人控制,直至所述待学习任务执行完成,包括:
6.根据权利要求1-5中任一项所述的机器人技能学习方法,其特征在于,所述根据预设的奖励函数每个动作时序块进行评估,并根据评估结果对所述原始机器人进行模型优化,得到目标机器人,包括:
7.根据权利要求1所述的
8.一种机器人技能学习装置,其特征在于,所述机器人技能学习装置包括:
9.一种机械臂机器人,其特征在于,所述机械臂机器人包括:存储器和至少一个处理器,所述存储器中存储有指令;
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令在被读取并运行时执行如权利要求1-7中任一项所述机器人技能学习方法。
...【技术特征摘要】
1.一种机器人技能学习方法,其特征在于,所述机器人技能学习方法包括:
2.根据权利要求1所述的机器人技能学习方法,其特征在于,所述机器人控制训练数据包括关节控制样本数据和所述视觉图像样本数据,
3.根据权利要求2所述的机器人技能学习方法,其特征在于,所述初始块时序模仿学习模型包括第一编码器、特征提取网络、第二编码器和解码器,
4.根据权利要求3所述的机器人技能学习方法,其特征在于,所述通过所述解码器对每个时序块对应的综合特征和上一时序块的动作预测结果进行解码,得到每个时序块的动作预测结果,包括:
5.根据权利要求1所述的机器人技能学习方法,其特征在于,所述将所述原始机器人当前时刻的第一机器人控制数据输入所述目标块时序模仿学习模型,并根据输出的每个动作时序块进行机器人控制,直至所述待学...
【专利技术属性】
技术研发人员:马宏军,李伟昌,赵明扬,康浩博,李佩,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。