一种面向车辆碰撞检测的ViViT模型高效压缩方法技术

技术编号：44057946 阅读：20 留言：0更新日期：2025-01-17 15:59

本发明专利技术涉及一种面向车辆碰撞检测的ViViT模型高效压缩方法，包括：获取原始ViViT模型；对所述原始ViViT模型按照层级结构进行划分，并进行自动化层级剪枝；基于剪枝后的ViViT模型中不同层的敏感性，设计动态混合精度量化方案；采用基于成本敏感学习的知识蒸馏策略，对量化后的ViViT模型进行知识蒸馏训练，获取压缩ViViT模型。本发明专利技术的有益效果是：本发明专利技术在显著降低模型复杂度的同时，保持了ViViT模型的高精度。特别是采用成本敏感的损失函数，有效降低了漏报率，增强了模型在车辆碰撞检测任务中的可靠性和准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及智能交通系统领域，更确切地说，它涉及一种面向车辆碰撞检测的vivit模型高效压缩方法。

技术介绍

1、随着智能交通和自动驾驶技术的快速发展，实时检测交通视频数据中的车辆碰撞事件变得愈发重要。这对于提高道路安全、减少交通事故具有重大意义。然而，传统的车辆碰撞检测方法主要依赖于手工设计的特征提取和简单的分类算法，如基于光流、背景建模和基于规则的方法。这些方法在复杂的交通场景中（如光照变化、遮挡、视角变化等）往往难以取得理想的效果，存在检测精度低、鲁棒性差的问题。

2、近年来，基于深度学习的车辆碰撞检测方法逐渐受到关注。其中，卷积神经网络（cnn）被广泛应用于图像和视频的特征提取，但传统的 cnn 在处理视频数据时，主要侧重于空间特征的提取，难以有效捕获视频的时间动态信息。为此，三维卷积神经网络（3d cnn）和长短期记忆网络（lstm）等模型被引入，以同时处理视频的空间和时间特征。然而，这些模型往往存在参数量大、计算复杂度高的问题，不利于在资源受限的边缘设备上进行实时部署。近期，transformer 模型在自然语言处理和计算机视觉领域取得了显著成果。vivit（video vision transformer）作为一种视觉 transformer 架构，利用自注意力机制，能够有效捕获视频中的时空信息，在视频分类和动作识别等任务中表现优异。

3、然而，vivit 模型的高计算复杂度和庞大的参数量，使其在资源受限的环境中部署面临巨大挑战。

技术实现思路

<p>1、本专利技术的目的是针对现有技术的不足，提出了一种面向车辆碰撞检测的vivit模型高效压缩方法。

2、第一方面，提供了一种面向车辆碰撞检测的vivit模型高效压缩方法，包括：

3、步骤1、获取原始vivit模型；

4、步骤2、对所述原始vivit模型按照层级结构进行划分，并进行自动化层级剪枝；所述自动化层级剪枝包括：通过评估每层权重参数的重要性，移除原始vivit模型中的冗余权重参数；

5、步骤3、基于剪枝后的vivit模型中不同层的敏感性，设计动态混合精度量化方案；所述动态混合精度量化方案包括：针对剪枝后的vivit模型不同层设置不同的量化精度，对剪枝后的vivit模型进行量化；

6、步骤4、采用基于成本敏感学习的知识蒸馏策略，对量化后的vivit模型进行知识蒸馏训练，获取压缩vivit模型。

7、作为优选，步骤2包括：

8、步骤2.1、对原始vivit模型按照层级结构进行划分，并将原始vivit模型中每一层的权重参数进行自动化层级搜索，计算各层权重参数的绝对值，并根据预设的阈值进行剪枝；

9、步骤2.2、对原始vivit模型进行稀疏正则化训练，获取第一损失函数。

10、作为优选，步骤3包括：

11、步骤3.1、采用熵值或梯度敏感性分析方法评估各层的重要性，并对重要性较高的层分配较高位宽，对重要性较低的层分配较低位宽；

12、步骤3.2、设计量化函数，并根据所述位宽，计算各层的量化步长；

13、步骤3.3、根据所述量化函数和量化步长，对剪枝后的vivit模型进行量化感知训练。

14、作为优选，步骤3.3中，所述量化感知训练包括：在前向传播中，插入量化和反量化操作，模拟量化对模型的影响；在反向传播中，使用直通估计器方法，使梯度能够传递过不可导的量化函数；并获取第二损失函数。

15、作为优选，步骤4包括：

16、步骤4.1、构建教师模型与学生模型；所述教师模型为原始vivit模型，所述学生模型为量化后的 vivit 模型；

17、步骤4.2、根据漏报成本和误报成本，构建成本敏感损失函数；

18、步骤4.3、利用教师模型的软标签和学生模型的输出，定义蒸馏损失函数，并对量化后的 vivit 模型进行知识蒸馏训练，获取压缩vivit模型。

19、第二方面，提供了一种车辆碰撞检测方法，由第一方面任一所述的压缩vivit模型执行，包括：

20、步骤1、获取车辆视频数据；

21、步骤2、将所述车辆视频数据输入压缩vivit模型；

22、步骤3、所述压缩vivit模型输出碰撞检测结果。

23、第三方面，提供了一种面向车辆碰撞检测的vivit模型高效压缩系统，用于执行第一方面任一所述的方法，包括：

24、获取模块，用于获取原始vivit模型；

25、剪枝模块，用于对所述原始vivit模型按照层级结构进行划分，并进行自动化层级剪枝；所述自动化层级剪枝包括：通过评估每层权重参数的重要性，移除原始vivit模型中的冗余权重参数；

26、量化模块，用于基于剪枝后的vivit模型中不同层的敏感性，设计动态混合精度量化方案；所述动态混合精度量化方案包括：针对剪枝后的vivit模型不同层设置不同的量化精度，对剪枝后的vivit模型进行量化；

27、知识蒸馏模块，用于采用基于成本敏感学习的知识蒸馏策略，对量化后的vivit模型进行知识蒸馏训练，获取压缩vivit模型。

28、第四方面，提供了一种计算机存储介质，所述计算机存储介质内存储有计算机程序；所述计算机程序在计算机上运行时，使得计算机执行第一方面任一所述的方法。

29、第五方面，提供了一种电子设备，包括：

30、存储器，用于保存计算机程序；

31、处理器，用于执行所述计算机程序以实现如第一方面任一所述的方法。

32、本专利技术的有益效果是：

33、1.本专利技术通过综合利用自动化层级剪枝、混合精度量化和基于成本敏感学习的知识蒸馏技术，本专利技术在显著降低模型复杂度的同时，保持了 vivit 模型的高精度。特别是采用成本敏感的损失函数，有效降低了漏报率，增强了模型在车辆碰撞检测任务中的可靠性和准确性。

34、2.本专利技术不仅适用于车辆碰撞检测任务，也可推广应用于其他基于 transformer的视频分析模型，为深度学习模型的压缩和部署提供了新的解决方案。

35、3.本专利技术通过引入知识蒸馏和成本敏感学习，模型能够更有效地学习车辆碰撞的关键特征，提高了在复杂交通场景下的检测性能，减少了由于环境干扰、光照变化等因素导致的误报和漏报。

本文档来自技高网...

【技术保护点】

1.一种面向车辆碰撞检测的ViViT模型高效压缩方法，其特征在于，包括：

2.根据权利要求1所述的面向车辆碰撞检测的ViViT模型高效压缩方法，其特征在于，步骤2包括：

3.根据权利要求2所述的面向车辆碰撞检测的ViViT模型高效压缩方法，其特征在于，步骤3包括：

4.根据权利要求3所述的面向车辆碰撞检测的ViViT模型高效压缩方法，其特征在于，步骤3.3中，所述量化感知训练包括：在前向传播中，插入量化和反量化操作，模拟量化对模型的影响；在反向传播中，使用直通估计器方法，使梯度能够传递过不可导的量化函数；并获取第二损失函数。

5.根据权利要求4所述的面向车辆碰撞检测的ViViT模型高效压缩方法，其特征在于，步骤4包括：

6.一种车辆碰撞检测方法，其特征在于，由权利要求1至5任一所述的压缩ViViT模型执行，包括：

7.一种面向车辆碰撞检测的ViViT模型高效压缩系统，其特征在于，用于执行权利要求1至5任一所述的方法，包括：

8.一种计算机存储介质，其特征在于，所述计算机存储介质内存储有计算机程序；

9.一种电子设备，其特征在于，包括：

...

【技术特征摘要】

1.一种面向车辆碰撞检测的vivit模型高效压缩方法，其特征在于，包括：

2.根据权利要求1所述的面向车辆碰撞检测的vivit模型高效压缩方法，其特征在于，步骤2包括：

3.根据权利要求2所述的面向车辆碰撞检测的vivit模型高效压缩方法，其特征在于，步骤3包括：

4.根据权利要求3所述的面向车辆碰撞检测的vivit模型高效压缩方法，其特征在于，步骤3.3中，所述量化感知训练包括：在前向传播中，插入量化和反量化操作，模拟量化对模型的影响；在反向传播中，使用直通估计器方法，使梯度能够传递过不可导的量化函数；并获取第二损失...

【专利技术属性】
技术研发人员：郑增威，李彦臻，孙霖，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人