System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及智能导航,更具体地说,本专利技术涉及低置信度与特征相似环境下的导航避障方法及系统。
技术介绍
1、在移动机器人和自动驾驶车辆的导航系统中,避障识别技术是保障系统安全性和稳定性的重要组成部分。然而,在低置信度环境(如光线不足、传感器噪声干扰、数据缺失等复杂场景)下,传统的避障方法往往难以准确感知障碍物的位置和动态信息,从而导致路径规划失误甚至引发碰撞风险。
2、公开号为cn119088030a的中国专利申请公开了一种用于人形机器人避障的路径规划方法及系统:包括获取人形机器人的环境图像,使用自适应阈值分割法对所述环境图像进行处理,得到障碍物区域和无障碍区域;使用基于区域增长的障碍物分割算法,识别得到障碍物轮廓框;使用双视角单目视觉定位方法,计算得到障碍物在空间中的位置坐标;使用动态探测与分支扩展路径规划算法,得到路径规划结果。该专利技术保证了人形机器人在复杂环境中的高效避障和路径规划能力。
3、上述方法虽能满足大部分场景,但对上述方法以及现有技术进行研究和实际应用发现,上述方法以及现有技术至少存在以下部分缺陷:
4、在光线不足、传感器噪声较大或数据缺失等低置信度环境中,环境中的特征信息易变得极为相似,无法准确确定阈值,导致障碍物区域分割错误或不完整,影响后续识别和路径规划;双视角单目视觉定位方法在计算障碍物位置坐标时,易存在深度感知误差。对于距离较远或处于复杂空间结构中的障碍物,定位精度较低,使机器人对障碍物的实际位置判断不准确,影响避障路径规划的安全性。
5、鉴于此,本
技术实现思路
1、为了克服现有技术的上述缺陷,为实现上述目的,本专利技术提供如下技术方案:低置信度与特征相似环境下的导航避障方法,包括如下步骤:
2、使用传感器采集预设低置信度环境下检测区域内障碍物的多模态传感器数据,多模态传感器数据包括原始图像数据、原始激光雷达点云和原始惯性测量单元信息;
3、对多模态传感器数据进行预处理,获得去噪多模态传感器数据;去噪多模态传感器数据包括去噪图像、激光雷达点云和惯性测量单元信息;
4、引入生成对抗网络对去噪图像进行图像增强处理,获得图像数据;
5、利用变换器架构对图像数据、激光雷达点云和惯性测量单元信息进行跨域融合,获得融合的多模态数据;
6、将融合的多模态数据作为深度神经网络的输入,获得障碍物位置、障碍物类型及置信度分布值,构建获得障碍物置信度图;
7、基于实时获得的障碍物置信度图,结合深度强化学习算法动态规划避障路径,并基于mpc模型进行避障路径的辅助规划。
8、进一步地,结合深度强化学习算法动态规划避障路径的方法包括:
9、步骤1、定义状态空间,状态空间包括机器人当前位置、速度、障碍物置信度图以及全局路径规划信息;
10、步骤2、定义动作空间,动作空间包括基本动作与避障动作序列的并集;
11、步骤3、设计奖励函数;
12、步骤4、基于dqn构建一个q网络,其中,为状态,为动作,为网络的参数;用于学习最优的q函数,使累计奖励函数的值最大化;利用经验回放机制,将每次决策过程中的四元组存储到预设的经验回放缓冲区中,所述四元组包括当前时刻对应的状态、动作和奖励,以及下一时刻对应的状态;
13、定义q网络的损失函数;以损失函数值最小为优化目标对q网络进行优化,获得对应的最佳q网络,当需要规划避障路径时,根据当前状态,使用最佳q网络选择并执行最优动作,将所述最优动作作为动态规划的避障路径。
14、进一步地,获得奖励函数的方法包括:
15、步骤3.1、基于机器人当前位置与目标点坐标的欧式距离设计到达目标点的距离奖励;
16、步骤3.2、基于预设机器人安全避障距离获得机器人当前位置的周围区域的置信度总和设计避障安全性奖励;
17、步骤3.3、基于当前采取的动作与上一个动作的动作差异设计路径平滑性奖励;
18、步骤3.4、基于深度强化学习算法决策时间设计时效性奖励;
19、步骤3.5、基于距离奖励、避障安全性奖励、路径平滑性奖励和时效性奖励计算奖励函数。
20、进一步地,基于所述mpc模型进行避障路径的辅助规划的方法包括:
21、基于在时刻绕x轴、y轴和z轴的欧拉角、机器人在时刻绕x轴、y轴和z轴的角速度分量和机器人在下一时刻绕x轴、y轴和z轴的欧拉角建立机器人的运动模型;
22、预测未来个时间步的状态,基于当前状态和动作序列,通过迭代运动模型得到未来状态序列;设预测时域为,预测的状态序列为;其中,为时刻预测未来时刻的状态向量;
23、以最小化机器人到目标点的距离和置信度总和为mpc模型的优化目标函数;
24、通过自然启发优化算法求解优化目标函数获得最优的动作序列,在低置信度环境下,若深度强化学习算法未能在预设时间内输出避障路径,则使用mpc模型得到的最优动作序列作为辅助规划的避障路径。
25、进一步地,将基于所述动态规划避障路径时产生的状态信息和动作信息反馈至深度神经网络,用于更新深度神经网络输出的障碍物位置、障碍物类型及置信度分布值;
26、设计联合训练损失函数,以最小化联合训练损失函数为目标对深度神经网络和深度强化学习算法进行联合优化;
27、获得联合训练损失函数的方法包括:
28、分别计算障碍物识别损失、距离损失、计算避障损失和路径规划损失;
29、对障碍物识别损失、距离损失、避障损失和路径规划损失进行综合计算得到联合训练损失函数。
30、进一步地,获得障碍物置信度图的方法包括:
31、步骤1、将整个检测区域的空间坐标按照预设维度进行离散化划分,形成w个空间网格;
32、步骤2、逐个读取获得的障碍物位置、障碍物类型及置信度分布值,对障碍物类型进行障碍物类型编码获得编码,根据每个障碍物位置,确定障碍物对应的空间网格位置;
33、步骤3、对所述空间网格位置,若同一个空间网格位置仅包含一个障碍物,则根据障碍物类型编码以及对应的置信度分布值对仅包含一个障碍物的空间网格位置进行赋值操作;若同一个空间网格位置包含一个以上的障碍物,则取所有包含的障碍物中最大置信度分布值以及对应的障碍物类型编码对包含一个以上的障碍物的空间网格位置进行赋值操作;
34、步骤4、对所有空间网格赋值完成后获得障碍物置信度图。
35、进一步地,深度神经网络的训练方法包括:
36、步骤1、将包含融合的多模态数据的训练集数据按照预设批次大小进行划分,每次抽取一个批次的融合的多模态数据进行训练;
37、步骤2、选择反卷积神经网络作为生成器,生成器的输入为随机噪声向量,输出为与融合的多模态数据具有相似分布的合成多模态数据;本文档来自技高网...
【技术保护点】
1.低置信度与特征相似环境下的导航避障方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的低置信度与特征相似环境下的导航避障方法,其特征在于,结合深度强化学习算法动态规划避障路径的方法包括:
3.根据权利要求2所述的低置信度与特征相似环境下的导航避障方法,其特征在于,获得奖励函数的方法包括:
4.根据权利要求3所述的低置信度与特征相似环境下的导航避障方法,其特征在于,基于所述MPC模型进行避障路径的辅助规划的方法包括:
5.根据权利要求4所述的低置信度与特征相似环境下的导航避障方法,其特征在于,将基于所述动态规划避障路径时产生的状态信息和动作信息反馈至深度神经网络,用于更新深度神经网络输出的障碍物位置、障碍物类型及置信度分布值;
6.根据权利要求1所述的低置信度与特征相似环境下的导航避障方法,其特征在于,获得障碍物置信度图的方法包括:
7.根据权利要求1所述的低置信度与特征相似环境下的导航避障方法,其特征在于,深度神经网络的训练方法包括:
8.根据权利要求7所述的低置信度与特征相似环境下的导
9.根据权利要求1所述的低置信度与特征相似环境下的导航避障方法,其特征在于,获得融合的多模态数据的方法包括:
10.根据权利要求9所述的低置信度与特征相似环境下的导航避障方法,其特征在于,添加位置编码的方法包括:
11.根据权利要求1所述的低置信度与特征相似环境下的导航避障方法,其特征在于,获得图像数据的方法包括:
12.低置信度与特征相似环境下的导航避障系统,实施权利要求1-11任一项所述的低置信度与特征相似环境下的导航避障方法,其特征在于,包括:
...【技术特征摘要】
1.低置信度与特征相似环境下的导航避障方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的低置信度与特征相似环境下的导航避障方法,其特征在于,结合深度强化学习算法动态规划避障路径的方法包括:
3.根据权利要求2所述的低置信度与特征相似环境下的导航避障方法,其特征在于,获得奖励函数的方法包括:
4.根据权利要求3所述的低置信度与特征相似环境下的导航避障方法,其特征在于,基于所述mpc模型进行避障路径的辅助规划的方法包括:
5.根据权利要求4所述的低置信度与特征相似环境下的导航避障方法,其特征在于,将基于所述动态规划避障路径时产生的状态信息和动作信息反馈至深度神经网络,用于更新深度神经网络输出的障碍物位置、障碍物类型及置信度分布值;
6.根据权利要求1所述的低置信度与特征相似环境下的导航避障方法,其特征...
【专利技术属性】
技术研发人员:郭峰,吴桐,刘辉彬,陈华强,
申请(专利权)人:江苏海之隅智慧科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。