【技术实现步骤摘要】
基于轻量化强化学习的城市多径环境下北斗卫星定位方法
[0001]本专利技术涉及卫星定位
,尤其涉及一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法。
技术介绍
[0002]精准卫星导航定位技术是智能网联汽车的核心技术之一,在当前的车载定位和导航功能已经普遍应用,现有的全球卫星导航系统(GNSS)能得到车辆所处的经纬度信息和当前的姿态信息,能够准确反映出车辆在地球坐标系中的绝对位置。
[0003]目前高精度车规级定位技术在宽广开阔路面的定位精度已经能达到分米及甚至厘米级,但是在城市峡谷环境、立体高架桥、城市森林等复杂环境下,由于全球卫星信号被遮挡、建筑物反射等引起的多径效应,使得卫星定位发生十几米的偏移,不能满足车道级导航的精度要求。
[0004]斯坦福团队在导航领域顶级2021GNSS+会议和2022GNSS+会议上首次提出一种静态学习模型——深度神经网络的定位校正模型,但静态学习模型普遍存在需要依赖于初始位置信息的传统缺陷,难以适应在城市的复杂环境中,车载动态变化定位的校正。
技术实现思路
[0005]本专利技术提供一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法,用于解决车载动态变化定位精度低的问题。
[0006]本专利技术提供一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法,具体包括以下步骤:X1:引入部分可观测马尔可夫决策过程建立环境交互模型,通过将过往预测信息作为置信状态,定义相应的动作空间,观测状态空间,信念状态空间,奖励函数,其中:动作空间 ...
【技术保护点】
【技术特征摘要】
1.一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法,其特征在于,具体包括以下步骤:X1:引入部分可观测马尔可夫决策过程建立环境交互模型,通过将过往预测信息作为置信状态,定义相应的动作空间 ,观测状态空间,信念状态空间,奖励函数,其中:动作空间;式中:为校正动作参数,m为纬度校正步长,n为经度校正步长;通过所述环境交互模型的控制策略输出相应的定位校正动作,对定位设备播报的定位信息进行校正,动作空间定义为标量矩阵;观测状态空间;式中:为t
‑
N
‑
1时刻的定位预测校正信息,为t
‑
1时刻的定位预测校正信息,为t时刻的所述定位设备播报的定位信息;信念状态空间;通过与观测状态空间的定位信息对比,在所述环境交互模型的定位信息做出预测校正后,利用当前的预测校正定位信息来替换 ,更新信念状态空间;奖励函数;式中:为状态值,为校正动作参数;所述奖励函数定义为环境交互模型校正的定位信息与实际地图匹配定位信息的欧几里得距离;X2:使用异步优势策略价值A3C算法,构建包括一个主智能体及多个子智能体的模型框架,通过每个所述子智能体并行探索环境信息后,对每个所述子智能体探索的环境信息的权值参数求解得到梯度信息上传至所述主智能体,通过所述梯度信息异步更新所述主智能体参数,并不断迭代探索过程和异步更新过程,进而得到高性能主智能体作为深度强化学习教师模型;X3:通过策略剪枝方法对所述深度强化学习教师模型进行修剪,得到稀疏化学生模型,测量所述稀疏化学生模型的冗余度后对所述稀疏化学生模型进行重构,并重新训练重构后的所述稀疏化学生模型,进而获得高性能学生轻量化模型;X4:获取北斗卫星定位参数,将所述高性能学生轻量化模型部署在车载定位设备上,对所述北斗卫星定位参数实时定位校正,得到校正后的定位信息;X5:将所述校正后的定位信息按照时间序列依次输出到真实的路面上。2.根据权利要求1所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法,其特征在于,所述主智能体和所述子智能体均包括:策略网络与价值网络;所述策略网络用于更新主智能体和所述子智能体的动作策略,通过寻找一个最优动作策略来最大化期望回报值;所述智能体的价值网络用来评价动作策略的优劣,通过输出状态价值为策略网络提供反馈。
3.根据权利要求2所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法,其特征在于,步骤X2中,所述通过每个所述子智能体并行探索环境信息后,对每个所述子智能体探索的环境信息的权值参数求解得到梯度信息上传至所述主智能体,具体为:引入部分可观测的马尔科夫决策过程,将历史定位观测值作为置信状态,通过每个所述子智能体并行与环境交互得到滑动窗口观测缓冲区,每当定位设备播报一个新的定位观测值时,将所述新的定位观测值与所述历史定位观测值加入子智能体进行一次训练并将滑动窗口移动到下一个观察缓冲区,直至所述子智能体训练结束,得到定位纬度与经度的原始特征参数;对定位纬度与经度的原始特征参数进行归一化处理,减小所述原始特征参数之间的数量级,将所述原始特征参数转换成取值范围在[0,1]之间的归一化特征参数;将归一化的特征参数的定位观测值输入到子智能体的价值网络中,通过折扣率、时刻的奖励值、以及n步价值估计函数构建时序差分误差,并通过t时刻的信念状态值、一段时间内子智能体与环境交互得到的折扣奖励、以及真实的价值函数构建优势函数;通过所述时序差分误差和子智能体个数得到多个子智能体的价值网络的总目标函数;通过所述优势函数和所述策略网络输出的策略构建包括多个子智能体的策略网络的总目标函数;根据多个子智能体的价值网络的总目标函数和策略网络的总目标函数,使用随机梯度算法来计算价值网络和策略网络的权值参数的梯度信息,并上传到主智能体更新模型参数。...
【专利技术属性】
技术研发人员:唐健浩,李珍妮,马垣德,郑咏雯,王千明,谢胜利,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。