基于多模态大语言模型的交通事故识别方法及装置制造方法及图纸

技术编号：42501703 阅读：11 留言：0更新日期：2024-08-22 14:14

本申请提供了一种基于多模态大语言模型的交通事故识别方法及装置，其方法包括：获取目标车辆行驶状态下的多模态数据，其中，所述多模态数据包括视频数据、音频数据和传感器数据；将所述多模态数据输入至基于多模态大语言模型训练得到的事故识别模型中进行多模态信息挖掘，基于挖掘到的多模态信息确定所述目标车辆是否发生交通事故；若所述目标车辆发生交通事故，发出报警信息。上述方法通过基于多模态大语言模型训练得到的事故识别模型可以提高对目标车辆行驶过程中的全局信息进行有效捕捉，增强不同场景下的交通事故识别，提高不同场景下的交通事故识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本申请涉及交通事故识别，尤其涉及一种基于多模态大语言模型的交通事故识别方法及装置，还涉及用于执行该基于多模态大语言模型的交通事故识别方法的电子设备及存储介质。

技术介绍

1、随着人们生活水平的提升，城市交通环境日趋复杂，交通事故的发生率居高不下。交通事故不但会造成交通拥堵、个人和公共财产损失，甚至危及到生命安全，给人们带来严重的生理和心理创伤。因此，交通事故的准确识别对于车队管理和社会安全日益重要，及时准确的识别出交通事故有利于将车队损失降到最低。目前，传统的事故识别算法，受限于设备端算力等因素，模型参数量小、结构简单、多模态特征对齐均有限，而且学习到的表示信息存在泛化能力不足、无法捕捉复杂的数据模式、关系准确率不高，容易过多误报或漏报等问题。

技术实现思路

0、专利技术概述

1、技术问题

2、有鉴于此，本申请实施例提供了一种基于多模态大语言模型的交通事故识别方法及装置，以及用于执行该基于多模态大语言模型的交通事故识别方法的电子设备及存储介质，旨在更好地挖掘多模态信息，提高不同场景下的交通事故识别的准确性。

3、技术解决方案

4、本申请实施例的第一方面提供了一种基于多模态大语言模型的交通事故识别方法，包括：获取目标车辆行驶状态下的多模态数据，其中，所述多模态数据包括视频数据、音频数据和传感器数据；将所述多模态数据输入至基于多模态大语言模型训练得到的事故识别模型中进行多模态信息挖掘，基于挖掘到的多模态信息确定所述目标车辆是否发生交通事故

5、在一种可能的实现方式中，所述将所述多模态数据输入至基于多模态大语言模型训练得到的事故识别模型中进行多模态信息挖掘，基于挖掘到的多模态信息确定所述目标车辆是否发生交通事故的步骤之前，还包括：搭建多模态大语言模型框架；采用多种不同描述形式的训练数据集对所述多模态大语言模型框架进行训练，以获得所述事故识别模型，其中，所述多种不同描述形式的训练数据集包括对话形式的训练数据集、细节描述形式的训练数据集以及推理形式的训练数据集。

6、在一种可能的实现方式中，所述多模态大语言模型框架包括：视觉编码模块、视频适配器模块、音频编码模块、音频适配器模块、gsensor编码模块、transformer模块以及大语言模型模块，其中：所述视觉编码模块，用于对所述视频数据中的所有视频帧进行特征提取，获得每个视频帧对应的二维嵌入向量；所述视频适配器模块，用于根据所述每个视频帧对应的二维嵌入向量以及每个视频帧对应的位置编码信息，生成所述视频数据对应的视频编码向量；所述音频编码模块，用于对所述音频数据进行特征提取，获得若干个音频片段对应的稠密向量；所述音频适配器模块，用于根据所述每个音频片段对应的稠密向量以及每个音频片段对应的位置编码信息，生成所述音频数据对应的音频编码向量；所述gsensor编码模块，用于对所述传感器数据进行采样，获得若干个传感器读数值，对每个传感器读数值进行一维卷积投影，获得读数序列；所述transformer模块，用于对所述读数序列进行transformer编码处理，获得所述传感器数据对应的transformer编码向量；所述大语言模型模块，用于根据所述视频编码向量、所述音频编码向量以及所述transformer编码向量，生成还原车辆行驶过程的文本描述信息。

7、在一种可能的实现方式中，所述视频适配器模块中设置有第一线性投影层，所述音频适配器模块中设置有第二线性投影层，其中：所述第一线性投影层用于将所述视频编码向量转换为视频查询向量，以使视频特征与语言模型空间对齐；所述第二线性投影层用于将所述音频编码向量转换为音频查询向量，以使音频特征与语言模型空间对齐。

8、在一种可能的实现方式中，所述多模态大语言模型框架还包括prompts模块，所述prompts模块用于引导所述大语言模型模块生成文本描述信息。

9、在一种可能的实现方式中，所述采用多种不同描述形式的训练数据集对所述多模态大语言模型框架进行训练，以获得所述事故识别模型的步骤，包括：冻结所述视觉编码模块、所述音频编码模块以及所述大语言模型模块，并对所述视频适配器模块中的第一线性投影层及所述音频适配器模块中的第二线性投影层进行训练。

10、在一种可能的实现方式中，所述冻结所述视觉编码模块、所述音频编码模块以及所述大语言模型模块，并对所述视频适配器模块中的第一线性投影层及所述音频适配器模块中的第二线性投影层进行训练的步骤之后，还包括：基于下游任务对所述多模态大语言模型框架中第一线性投影层、第二线性投影层以及大语言模型模块的参数进行端对端调整，其中，所述下游任务包括多模态聊天任务。

11、本申请实施例的第二方面提供了一种基于多模态大语言模型的交通事故识别装置，包括：获取单元，用于获取目标车辆行驶状态下的多模态数据，其中，所述多模态数据包括视频数据、音频数据和传感器数据；识别单元，用于将所述多模态数据输入至基于多模态大语言模型训练得到的事故识别模型中进行多模态信息挖掘，基于挖掘到的多模态信息确定所述目标车辆是否发生交通事故；报警单元，用于若所述目标车辆发生交通事故，发出报警信息。

12、本申请实施例的第三方面提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在电子设备上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面提供的基于多模态大语言模型的交通事故识别方法的各步骤。

13、本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方面提供的基于多模态大语言模型的交通事故识别方法的各步骤。

14、有益效果

15、本申请实施例与现有技术相比存在的有益效果是：通过获取目标车辆行驶状态下的多模态数据，其中，所述多模态数据包括视频数据、音频数据和传感器数据；将所述多模态数据输入至基于多模态大语言模型训练得到的事故识别模型中进行多模态信息挖掘，基于挖掘到的多模态信息确定所述目标车辆是否发生交通事故；若所述目标车辆发生交通事故，发出报警信息。上述方法通过基于多模态大语言模型训练得到的事故识别模型可以提高对目标车辆行驶过程中的全局信息进行有效捕捉，增强不同场景下的交通事故识别，提高不同场景下的交通事故识别的准确性。

本文档来自技高网...

【技术保护点】

1.一种基于多模态大语言模型的交通事故识别方法，其特征在于，包括：

2.根据权利要求1所述的基于多模态大语言模型的交通事故识别方法，

3.根据权利要求2所述的基于多模态大语言模型的交通事故识别方法，

4.根据权利要求3所述的基于多模态大语言模型的交通事故识别方法，

5.根据权利要求3所述的基于多模态大语言模型的交通事故识别方法，

6.根据权利要求3-5任意一项所述的基于多模态大语言模型的交通事故识别方法，其特征在于，所述采用多种不同描述形式的训练数据集对所述多模态大语言模型框架进行训练，以获得所述事故识别模型的步骤，包括：

7.根据权利要求6所述的基于多模态大语言模型的交通事故识别方法，

8.一种基于多模态大语言模型的交通事故识别装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可

...

【技术特征摘要】
【国外来华专利技术】

1.一种基于多模态大语言模型的交通事故识别方法，其特征在于，包括：

2.根据权利要求1所述的基于多模态大语言模型的交通事故识别方法，

3.根据权利要求2所述的基于多模态大语言模型的交通事故识别方法，

4.根据权利要求3所述的基于多模态大语言模型的交通事故识别方法，

5.根据权利要求3所述的基于多模态大语言模型的交通事故识别方法，

6.根据权利要求3-5任意一项所述的基于多模态大语言模型的交通事故识别方法，其特征在于，所述采用多种不同描述形式的训练数据集对所述多模态大语言模型框架进行训练，...

【专利技术属性】
技术研发人员：林旭南，
申请(专利权)人：深圳市锐明技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人