基于轻量化强化学习的城市多径环境下北斗卫星定位方法技术

技术编号:36934858 阅读:6 留言:0更新日期:2023-03-22 18:56
本发明专利技术涉及一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法。具体包括以下步骤:引入部分可观测马尔可夫决策过程建立环境交互模型;构建包括一个主智能体及多个子智能体的模型框架,得到高性能主智能体作为深度强化学习教师模型;对教师模型策略剪枝,得到稀疏化学生模型,测量冗余度后对稀疏化学生模型进行重构并重新训练,得到高性能学生轻量化模型;将高性能学生轻量化模型部署在车载定位设备上,实时定位校正卫星参数并获取校正后的定位信息;将校正后的定位信息按照时间序列输出到真实路面;本发明专利技术能够实现对城市复杂环境的动态学习,并能够设置于车载定位设备上,大幅提升车载动态变化定位精度。幅提升车载动态变化定位精度。幅提升车载动态变化定位精度。

【技术实现步骤摘要】
基于轻量化强化学习的城市多径环境下北斗卫星定位方法


[0001]本专利技术涉及卫星定位
,尤其涉及一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法。

技术介绍

[0002]精准卫星导航定位技术是智能网联汽车的核心技术之一,在当前的车载定位和导航功能已经普遍应用,现有的全球卫星导航系统(GNSS)能得到车辆所处的经纬度信息和当前的姿态信息,能够准确反映出车辆在地球坐标系中的绝对位置。
[0003]目前高精度车规级定位技术在宽广开阔路面的定位精度已经能达到分米及甚至厘米级,但是在城市峡谷环境、立体高架桥、城市森林等复杂环境下,由于全球卫星信号被遮挡、建筑物反射等引起的多径效应,使得卫星定位发生十几米的偏移,不能满足车道级导航的精度要求。
[0004]斯坦福团队在导航领域顶级2021GNSS+会议和2022GNSS+会议上首次提出一种静态学习模型——深度神经网络的定位校正模型,但静态学习模型普遍存在需要依赖于初始位置信息的传统缺陷,难以适应在城市的复杂环境中,车载动态变化定位的校正。

技术实现思路

[0005]本专利技术提供一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法,用于解决车载动态变化定位精度低的问题。
[0006]本专利技术提供一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法,具体包括以下步骤:X1:引入部分可观测马尔可夫决策过程建立环境交互模型,通过将过往预测信息作为置信状态,定义相应的动作空间,观测状态空间,信念状态空间,奖励函数,其中:动作空间;式中:为校正动作参数,m为纬度校正步长,n为经度校正步长;通过所述环境交互模型的控制策略输出相应的定位校正动作,对定位设备播报的定位信息进行校正,动作空间定义为标量矩阵;观测状态空间;式中:为t

N

1时刻的定位预测校正信息,为t

1时刻的定位预测校正信息,为t时刻的所述定位设备播报的定位信息;信念状态空间;通过与观测状态空间的定位信息对比,在所述环境交互模型的定位信息做出预测校正后,利用当前的预测校正定位信息来替换,更新信念状态空间;
奖励函数;式中:为状态值,为校正动作参数;所述奖励函数定义为环境交互模型校正的定位信息与实际地图匹配定位信息的欧几里得距离;X2:使用异步优势策略价值A3C算法,构建包括一个主智能体及多个子智能体的模型框架,通过每个所述子智能体并行探索环境信息后,对每个所述子智能体探索的环境信息的权值参数求解得到梯度信息上传至所述主智能体,通过所述梯度信息异步更新所述主智能体参数,并不断迭代探索过程和异步更新过程,进而得到高性能主智能体作为深度强化学习教师模型;X3:通过策略剪枝方法对所述深度强化学习教师模型进行修剪,得到稀疏化学生模型,测量所述稀疏化学生模型的冗余度后对所述稀疏化学生模型进行重构,并重新训练重构后的所述稀疏化学生模型,进而获得高性能学生轻量化模型;X4:获取北斗卫星定位参数,将所述高性能学生轻量化模型部署在车载定位设备上,对所述北斗卫星定位参数实时定位校正,得到校正后的定位信息;X5:将所述校正后的定位信息按照时间序列依次输出到真实的路面上。
[0007]具体的,所述主智能体和所述子智能体均包括:策略网络与价值网络;所述策略网络用于更新主智能体和所述子智能体的动作策略,通过寻找一个最优动作策略来最大化期望回报值;所述智能体的价值网络用来评价动作策略的优劣,通过输出状态价值为策略网络提供反馈。
[0008]具体的,步骤X2中,所述通过每个所述子智能体并行探索环境信息后,对每个所述子智能体探索的环境信息的权值参数求解得到梯度信息上传至所述主智能体,具体为:引入部分可观测的马尔科夫决策过程,将历史定位观测值作为置信状态,通过每个所述子智能体并行与环境交互得到滑动窗口观测缓冲区,每当定位设备播报一个新的定位观测值时,将所述新的定位观测值与所述历史定位观测值加入子智能体进行一次训练并将滑动窗口移动到下一个观察缓冲区,直至所述子智能体训练结束,得到定位纬度与经度的原始特征参数;对定位纬度与经度的原始特征参数进行归一化处理,减小所述原始特征参数之间的数量级,将所述原始特征参数转换成取值范围在[0,1]之间的归一化特征参数;将归一化的特征参数的定位观测值输入到子智能体的价值网络中,通过折扣率、时刻的奖励值、以及n步价值估计函数构建时序差分误差,并通过t时刻的信念状态值、一段时间内子智能体与环境交互得到的折扣奖励、以及真实的价值函数构建优势函数;通过所述时序差分误差和子智能体个数得到多个子智能体的价值网络的总目标函数;通过所述优势函数和所述策略网络输出的策略构建包括多个子智能体的策略网络的总目标函数;根据多个子智能体的价值网络的总目标函数和策略网络的总目标函数,使用随机梯度算法来计算价值网络和策略网络的权值参数的梯度信息,并上传到主智能体更新模型
参数。
[0009]具体的,步骤X2中,所述通过梯度信息异步更新主智能体参数,具体为:通过随机梯度下降迭代更新主智能体的价值网络的权值参数矩阵,并通过随机梯度上升迭代更新主智能体策略网络的权值参数矩阵。
[0010]具体的,步骤X2中,所述不断迭代探索过程和异步更新过程,具体为:所述子智能体通过异步并行的方式与环境不断交互,利用并行计算资源积累经验参数,加速所述主智能体通过异步更新模型参数的训练迭代过程,直至所述主智能体训练收敛。
[0011]具体的,步骤X3中,所述通过策略剪枝方法对所述深度强化学习教师模型进行修剪,得到稀疏化学生模型,具体为:对策略网络中每一个要修剪的网络层,均添加一个大小和形状与对应所述网络层的权值张量相同的二进制掩码向量;按照对应所述网络层权值的绝对值大小对所述权值进行排序,并将最小的权值屏蔽置零,直到达到期望的稀疏度,以确定这个二进制掩码向量的每一元素;如果某一权值被屏蔽置零,则其对应的二进制掩码向量中的元素为0,否则为1,通过二进制掩码向量确定网络层中参与前向传播和后向传播的权值;根据所述网络层中参与前向传播和后向传播的权值从初始时刻迭代修剪所述策略网络以及所述价值网络,直至网络稀疏度达到最终稀疏值。
[0012]具体的,为了恢复稀疏化学生模型损失的性能,每对策略网络和价值网络进行N次裁剪,便对所述稀疏化学生模型进行评估,如果评估信息低于预设阈值,便使用知识蒸馏对所述稀疏化学生模型进行性能恢复训练,以恢复所述稀疏化学生模型的性能。
[0013]具体的,所述使用知识蒸馏对所述稀疏化学生模型进行性能恢复训练,具体为:定义所述教师模型状态价值的经验回放对,用于存储教师模型的状态价值信息;定义所述学生模型的状态价值作为学生模型的状态值,用于存储学生模型的状态价值信息;通过调整所述学生模型中策略网络的权值参数矩阵,使得所述学生模型的状态价值接近所述教师模型的状态价值。
[0014]具体的,步骤X3中,所述测量所述稀疏化学生模型的冗余度后对所述稀疏化学生模型进行重构,并重新训练重构后的所述稀疏化学生模型,进而获得高性能学生轻量化模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法,其特征在于,具体包括以下步骤:X1:引入部分可观测马尔可夫决策过程建立环境交互模型,通过将过往预测信息作为置信状态,定义相应的动作空间 ,观测状态空间,信念状态空间,奖励函数,其中:动作空间;式中:为校正动作参数,m为纬度校正步长,n为经度校正步长;通过所述环境交互模型的控制策略输出相应的定位校正动作,对定位设备播报的定位信息进行校正,动作空间定义为标量矩阵;观测状态空间;式中:为t

N

1时刻的定位预测校正信息,为t

1时刻的定位预测校正信息,为t时刻的所述定位设备播报的定位信息;信念状态空间;通过与观测状态空间的定位信息对比,在所述环境交互模型的定位信息做出预测校正后,利用当前的预测校正定位信息来替换 ,更新信念状态空间;奖励函数;式中:为状态值,为校正动作参数;所述奖励函数定义为环境交互模型校正的定位信息与实际地图匹配定位信息的欧几里得距离;X2:使用异步优势策略价值A3C算法,构建包括一个主智能体及多个子智能体的模型框架,通过每个所述子智能体并行探索环境信息后,对每个所述子智能体探索的环境信息的权值参数求解得到梯度信息上传至所述主智能体,通过所述梯度信息异步更新所述主智能体参数,并不断迭代探索过程和异步更新过程,进而得到高性能主智能体作为深度强化学习教师模型;X3:通过策略剪枝方法对所述深度强化学习教师模型进行修剪,得到稀疏化学生模型,测量所述稀疏化学生模型的冗余度后对所述稀疏化学生模型进行重构,并重新训练重构后的所述稀疏化学生模型,进而获得高性能学生轻量化模型;X4:获取北斗卫星定位参数,将所述高性能学生轻量化模型部署在车载定位设备上,对所述北斗卫星定位参数实时定位校正,得到校正后的定位信息;X5:将所述校正后的定位信息按照时间序列依次输出到真实的路面上。2.根据权利要求1所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法,其特征在于,所述主智能体和所述子智能体均包括:策略网络与价值网络;所述策略网络用于更新主智能体和所述子智能体的动作策略,通过寻找一个最优动作策略来最大化期望回报值;所述智能体的价值网络用来评价动作策略的优劣,通过输出状态价值为策略网络提供反馈。
3.根据权利要求2所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法,其特征在于,步骤X2中,所述通过每个所述子智能体并行探索环境信息后,对每个所述子智能体探索的环境信息的权值参数求解得到梯度信息上传至所述主智能体,具体为:引入部分可观测的马尔科夫决策过程,将历史定位观测值作为置信状态,通过每个所述子智能体并行与环境交互得到滑动窗口观测缓冲区,每当定位设备播报一个新的定位观测值时,将所述新的定位观测值与所述历史定位观测值加入子智能体进行一次训练并将滑动窗口移动到下一个观察缓冲区,直至所述子智能体训练结束,得到定位纬度与经度的原始特征参数;对定位纬度与经度的原始特征参数进行归一化处理,减小所述原始特征参数之间的数量级,将所述原始特征参数转换成取值范围在[0,1]之间的归一化特征参数;将归一化的特征参数的定位观测值输入到子智能体的价值网络中,通过折扣率、时刻的奖励值、以及n步价值估计函数构建时序差分误差,并通过t时刻的信念状态值、一段时间内子智能体与环境交互得到的折扣奖励、以及真实的价值函数构建优势函数;通过所述时序差分误差和子智能体个数得到多个子智能体的价值网络的总目标函数;通过所述优势函数和所述策略网络输出的策略构建包括多个子智能体的策略网络的总目标函数;根据多个子智能体的价值网络的总目标函数和策略网络的总目标函数,使用随机梯度算法来计算价值网络和策略网络的权值参数的梯度信息,并上传到主智能体更新模型参数。...

【专利技术属性】
技术研发人员:唐健浩李珍妮马垣德郑咏雯王千明谢胜利
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1