一种基于视觉大语言模型的自动驾驶决策规划方法及系统技术方案

技术编号：44933063 阅读：11 留言：0更新日期：2025-04-08 19:15

本发明专利技术提供一种基于视觉大语言模型的自动驾驶决策规划方法，所述方法包括：步骤1，获取传感器输出的视频数据和感知数据，将其上传至云平台；步骤2，将障碍物信息、道路信息、车辆自身数据转换为矢量数据，进行矢量编码，将车辆状态信息转换成文本数据，进行文本编码，将视频数据进行视觉编码，提取环境特征；步骤3，根据矢量数据、文本数据和环境特征，通过视觉大语言模型思考链生成待行驶的轨迹点坐标；步骤4，根据行为决定和轨迹点坐标，进行轨迹拟合平滑，再检测合理性和安全性，将检测通过的轨迹与上一帧轨迹进行拼接，以供车辆行驶使用。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及自动驾驶计算领域，尤其涉及一种基于视觉大语言模型的自动驾驶决策规划方法及系统。

技术介绍

1、随着当今时代自动驾驶技术的迅猛发展，如何在极为复杂且多变的环境当中切实实现安全而又高效的路径规划，已然成为相关研究领域的重点关注问题。传统的路径规划方法通常主要依赖于高精度地图以及传感器数据。高精度地图能够提供详细的道路信息，传感器数据则可以实时感知周围环境。然而，这些方法在处理动态环境以及进行实时决策时，不可避免地存在着一定的局限性。例如，高精度地图可能无法及时反映道路的临时变化，而传感器数据在复杂环境下可能会受到干扰，导致不准确的感知结果。

2、现有的技术方案直接使用结果级的数据，丢失了驾驶环境中丰富的语言信息，且很大程度上依赖于实时数据的准确性，包括车辆自身状态和道路状态信息。传感器误差或数据延迟可能会影响规划的准确性。另外基于当前行驶状态信息和预先构建的车辆运动学模型，通过函数映射关系确定目标车辆行驶规划信息的方法，难以处理复杂多变的交通环境和非结构化道路，其泛化能力也有待提高。还有的技术方案使用栅格化的鸟瞰图对场景中的动静态目标进行表示，由于鸟瞰图分辨率的限制，造成环境信息的精度损失，同时栅格化的表达方式数据冗余大，计算效率低下，也不利于道路结构和拓扑关系的表示。另外端到端的模型缺乏透明度和可解释性，且紧靠模型的输出而没有基于规则的安全判断和后处理，可能存在不确定性的风险。

技术实现思路

1、有鉴于此，本专利技术提供一种基于视觉大语言模型的自动驾驶决策规划方

2、本专利技术提供一种基于视觉大语言模型的自动驾驶决策规划方法，所述方法包括：步骤1，获取传感器输出的视频数据和感知数据，将其上传至云平台，所述感知数据包括障碍物信息、道路信息、车辆自身数据、车辆状态信息；步骤2，将障碍物信息、道路信息、车辆自身数据转换为矢量数据，进行矢量编码，将车辆状态信息转换成文本数据，进行文本编码，将视频数据进行视觉编码，提取环境特征；步骤3，根据矢量数据、文本数据和环境特征，通过视觉大语言模型思考链生成待行驶的轨迹点坐标；步骤4，根据行为决定和轨迹点坐标，通过以下函数进行轨迹拟合平滑：x＝f(t)＝a0+a1t+a2t2+a3t3+a4t4+a5t5，y＝g(t)＝b0+b1t+b2t2+b3s3+b4t4+b5t5，t＝argmin(w0cost″+w1cost″′)，其中，a0,a1,a2,a3,a4,a5和b0,b1,b,b3,b4,b5分别为f(t)和g(t)的系数，w0，w1分别为二阶导代价函数cost″和三阶导代价函数cost″′的权重系数，再检测合理性和安全性，将检测通过的轨迹与上一帧轨迹进行拼接，以供车辆行驶使用。

3、进一步的，所述步骤1包括：步骤11，将多路图像数据实时上传至云平台；步骤12，识别障碍物信息和道路信息，将识别结果上传至云平台；步骤13，车辆自身数据上传至云平台。

4、进一步的，所述步骤2包括：步骤21，将障碍物信息、车辆自身数据进行矢量化转换，表示为：a＝[a0,a1,...,an]，其中a0表示自车的信息，a1,...,an表示其他障碍物的信息，n为障碍物的总数；步骤22，将历史多帧的移动目标信息转换到当前帧的参考坐标系下；步骤23，将目标信息进行矢量转化，表示为：ai＝[c,x,y,z,θ,l,w,h,v]i,i＝0,1,...,n其中，c表示目标的类型，x,y,z为目标中心点的位置坐标，θ为方向角，l,w,h分别为长宽高，v为速度；步骤24，采用循环神经网络对目标信息进行编码：fa＝lstm(af,af-1,af-2,...,af-t)，其中f表示当前帧，t为考虑的历史帧数；步骤25，将传感器获取的地图元素信息进行矢量化，表示为：mi＝[c,x1,y1,x2,y2,...,xl,yl]i,i＝1,2,...,m，其中，m为地图元素的总数，c表示地图元素的类型，如车道线、道路边沿线、停止线、人行横道线等，[x1,y1,x2,y2...,xl,yl]为该地图元素上的所有点，l为点的总个数；步骤26，地图元素通过全连接层进行编码得到地图特征：fm＝fc(m)；步骤27，对视觉传感器获取的图像进行空间维度上的拼接，采用预训练的视觉编码器提取图像特征fi；步骤28，将导航信息转换成文本数据，采用字节级别的编码方法对文本数据进行分词和编码，得到ft；步骤29，使用线性网络将目标特征fa、地图特征fm和图像特征fi转换到与文本编码特征ft相同的空间维度上，实现多模态的特征对齐：f＝linear(fa)+linear(fm)+linear(fi)+ft，所有特征在统一的表示空间中进行融合和处理。

5、进一步的，所述步骤3包括：步骤31，视觉大语言模型根据输入矢量数据、文本数据和环境特征，分析驾驶场景，根据当前道路情况和周围其它交通参与者的交互关系，筛选出对自车驾驶策略有影响的关键障碍物；步骤32，根据场景理解和关键障碍物的预判，结合车辆自身数据，进行行为决策；步骤33，根据行为决策生成待行驶的轨迹点坐标。

6、进一步的，所述步骤31包括：步骤311，视觉大语言模型根据输入的矢量数据、文本数据和环境特征，从交通参与者中识别出对驾驶行为有影响的关键障碍物；步骤312，按照对驾驶行为的影响程度进行排序；步骤313，按照排序预测关键障碍物将产生的影响结果。

7、进一步的，所述步骤32包括：步骤321，根据场景理解和关键障碍物的预判，结合车辆自身数据，进行行为决策；步骤322，将行为决策结果分解为横向决策和纵向决策；步骤323，通过横向决策和纵向决策的组合，形成最终的行为决策，以供车辆使用。

8、进一步的，所述横向决策包括保持车道、左右换道、本车道避让，所述纵向决策包括停车、匀速行驶、加速行驶、减速行驶。

9、进一步的，所述步骤33具体为：根据行为决策，按照t0的时间间隔，生成未来t时间段内的n个轨迹点坐标：tego＝[(x1,y1),(x2,y2),(x3,y3),(x4,y4),(x5,y5),……(xn,yn)]。

10、进一步的，所述步骤4包括：步骤41，视觉大语言模型对生成的轨迹坐标进行拟合平滑，形成待行驶轨迹；步骤42，对轨迹按进行采样，以采样点的坐标和方向，结合车辆自身数据构建未来各个时刻的自车包围盒，并膨胀出安全距离，判断同一时刻自车包围盒与其他障碍物包围盒是否有重叠，如果所有时刻自车和所有的障碍物都没有重叠，则该轨迹不存在碰撞风险，计算未来各个时刻的自车包围盒是否与车道边界线存在交叉，如果不存在，则该轨迹不存在超出道路边界的风险；步骤43，计算轨迹是否存在超出车辆限制的加速度accmax和减速度decmax，以及小于车辆转弯半径r本文档来自技高网...

【技术保护点】

1.一种基于视觉大语言模型的自动驾驶决策规划方法，其特征在于，所述方法包括：

2.根据权利要求1所述一种基于视觉大语言模型的自动驾驶决策规划方法，其特征在于，所述步骤1包括：

3.根据权利要求1所述一种基于视觉大语言模型的自动驾驶决策规划方法，其特征在于，所述步骤2包括：

4.根据权利要求1所述一种基于视觉大语言模型的自动驾驶决策规划方法，其特征在于，所述步骤3包括：

5.根据权利要求4所述一种基于视觉大语言模型的自动驾驶决策规划方法，其特征在于，所述步骤31包括：

6.根据权利要求4所述一种基于视觉大语言模型的自动驾驶决策规划方法，其特征在于，所述步骤32包括：

7.根据权利要求6所述一种基于视觉大语言模型的自动驾驶决策规划方法，其特征在于，所述横向决策包括保持车道、左右换道、本车道避让，所述纵向决策包括停车、匀速行驶、加速行驶、减速行驶。

8.根据权利要求4所述一种基于视觉大语言模型的自动驾驶决策规划方法，其特征在于，所述步骤33具体为：根据行为决策，按照T0的时间间隔，生成未来T时间段内的N

9.根据权利要求1所述一种基于视觉大语言模型的自动驾驶决策规划方法，其特征在于，所述步骤4包括：

10.一种用于实施权利要求1-9所述的基于视觉大语言模型的自动驾驶决策规划方法的系统，其特征在于，所述系统包括：

...

【技术特征摘要】

1.一种基于视觉大语言模型的自动驾驶决策规划方法，其特征在于，所述方法包括：

2.根据权利要求1所述一种基于视觉大语言模型的自动驾驶决策规划方法，其特征在于，所述步骤1包括：

3.根据权利要求1所述一种基于视觉大语言模型的自动驾驶决策规划方法，其特征在于，所述步骤2包括：

4.根据权利要求1所述一种基于视觉大语言模型的自动驾驶决策规划方法，其特征在于，所述步骤3包括：

5.根据权利要求4所述一种基于视觉大语言模型的自动驾驶决策规划方法，其特征在于，所述步骤31包括：

6.根据权利要求4所述一种基于视觉大语言模型的自动驾驶决策规划方法，其特征在于，所述步骤32包括：

7.根据权利要求6所述一种基于视觉大...

【专利技术属性】
技术研发人员：章品，严君，邝勇，梁飞，周尚谕，郭珣，姜成杰，于欢，
申请(专利权)人：东风悦享科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人