一种改进slowfast双帧速率的暴力行为识别分析方法技术

技术编号：42996332 阅读：3 留言：0更新日期：2024-10-15 13:25

本发明专利技术涉及深度学习视频识别技术，尤其涉及一种改进slowfast双帧速率的暴力行为识别分析方法，其包括以下步骤：获取待检测的视频数据集；将视频数据输入经训练的改进slowfast双帧速率的暴力行为识别模型，模型给出预测结果；所述的改进slowfast双帧速率的暴力行为识别模型，包括将slow支路输入的相邻帧之间的像素值进行线性计算，生成介于两帧之间的新帧，接着平滑地插入新生成的帧，使slow支路可以更好的进行动态信息捕捉并减少信息的丢失。同时，将slow支路结构改成与fast支路相同的结构，可以减少计算成本、简化模型设计；此外，为使构建的改进slowfast模型更快更号的收敛，本发明专利技术设计并优化了slowfast网络模型的损失函数，采用Focal Loss与交叉熵损失(Cross Entropy Loss)结合的损失函数，提高了模型的精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度学习视频识别技术，尤其涉及一种改进slowfast双帧速率的暴力行为识别分析方法。

技术介绍

1、近年来，基于视频的暴力行为识别越来越受到关注。视频中的暴力行为识别是识别视频中的人群是否发生暴力行为，它是人类行为识别的一个子集，旨在识别常见的人类行为。与静止图像相比，视频数据具有额外的时间序列。视频序列中一组连续的视频帧表示一个连续的运动状态，视频帧之间相邻的部分具有较强的相关性，而同时又包含冗余信息。

2、传统的视频识别方法通常需要先手动设计特征提取器，例如使用sift、hog等手工设计的特征描述符。这些特征提取器往往需要人工经验来选择和调整，可能无法捕捉到视频中的丰富信息，导致特征的不完备性和不适应性，并且传统方法往往只考虑了静态帧之间的空间信息，而忽略了时间序列中的动态变化，导致在处理运动、行为等动态信息时效果不佳。

3、目前，随着深度学习在各个领域都展现出优越的性能表现，暴力行为检测领域也由传统方法逐渐转变基于计算机视觉等方法。本专利技术旨在结合深度学习视频识别技术和暴力行为识别，利用深度学习模型和先进的网络结构，提出一种改进的暴力行为识别方法。

技术实现思路

1、针为了改进现有技术存在的不足，本专利技术提出了一种改进slowfast双帧速率的暴力行为识别分析方法，该改进方法可以简化模型、降低计算成本、提高效率，进行更好的动态信息捕捉以及减少信息的丢失，使网络训练的模型分类精度更高。本专利技术采取的技术方案如下：

2、获

3、构建多特征融合的改进slowfast双帧速率网络模型，包括slow支路和fast支路；

4、所述的slow支路中包含了三个依次连接的第一卷积块，第1个卷积块的输入为在64帧的视频帧图像的基础上并通过线性插值得到127帧的视频帧图像，第1个卷积块的输出同时作为第2、3个卷积块的输入，第2个卷积块的输出也作为第3个卷积块的输入，在第3个卷积块中实现多特征融合；

5、所述的fast支路中包含三个依次连接的第二卷积块，第1个卷积块的输入为64帧的视频帧图像，同时将前一个卷积块的输出作为下一个卷积块的输入；并且将fast支路中第一个卷积块的输出与slow支路的第一个卷积块的输出侧向连接；

6、slow支路和fast支路结构保持一致；

7、slow支路的最后一个卷积块与fast支路的最后一个卷积块的输出结果连接后通过softmax函数进行行为类别的预测；

8、利用待检测的视频数据集以及优化的损失函数，对建立的多特征融合的改进slowfast双帧速率网络模型进行训练；

9、利用训练好的多特征融合的改进slowfast双帧速率网络模型进行视频行为检测。

10、所述的视频数据集由十个动作组成，包括六个暴力动作(拳击，脚踢，抓头发，扼杀，推和拍打)和四个友好动作(握手，猜手指，问候和步行)。

11、所述的改进的slow支路进行插值以增加时间分辨率可以带来更细致的时间分辨率、更好的动态信息捕捉、减少信息丢失。

12、所述的插值是通过对相邻帧之间的像素值进行线性计算，生成介于两帧之间的新帧。这种方法利用了两帧之间的关系，根据它们之间的像素值差异来推断新帧的像素值，从而平滑地插入新的帧。

13、所述的侧向连接为将fast支路的第1个卷积块的输出与slow支路的第1个卷积块的输出融合后作为slow支路的第2个卷积块的输入，将fast支路的第2个卷积块的输出与slow支路的第2个卷积块的输出融合后作为slow支路的第3个卷积块的输入。

14、所述的构建的模型是多特征融合的改进slowfast双帧速率网络，网络以3d卷积神经网络3d resnet为主体，模型将输入视频片段进行帧提取，两条支路并行计算帧信息并提取特征，经过一系列卷积运算，将包含特征参数的向量串联后输入全连接层，全连接层进一步将计算后的特征向量输入sigmoid回归层进行回归计算，得到分类结果。

15、所述的损失函数为：

16、total_loss＝cross_entropy_loss+αfocal_loss

17、其中，α是一个可调节参数，用于平衡两个损失函数的权重。

18、与现有技术相比，本专利技术具备的有益效果是：

19、本专利技术使用改进的slowfast双帧速率模型对暴力行为进行识别分析，由于暴力行为视频是通过利用动态视觉传感器(dvs)摄像头来捕获像素亮度变化获取的，故不存在背景信息的影响，因此将slow路径的输入通过插值来增加时间分辨率，同时统一两个路径的结构，可以减少模型的复杂度差异，从而提高模型的整体稳定性和精度。因为两个路径的结构相同，模型更容易学习到相似的特征表示，减少了由于结构差异而可能引入的错误或不稳定性。此外由于没有背景信息的影响，slow路径也可以进行更好的动态信息捕捉并减少信息的丢失，使网络训练的模型分类精度更高。

20、由于动作类别的样本数量分布不均衡，本专利技术提供了一种focal loss损失函数，该损失函数的思想是根据不同类别的情况，在训练中给予每个类别的损失不同的权重，调整总损失中每部分的占比，使模型优化时更注重损失值更大的类别，同时还能提高模型在训练过程中的稳定性。

本文档来自技高网...

【技术保护点】

1.一种改进slowfast双帧速率的暴力行为识别分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种改进slowfast双帧速率的暴力行为识别分析方法，其特征在于，所述的视频数据集由十个动作组成，包括六个暴力动作(拳击，脚踢，抓头发，扼杀，推和拍打)和四个友好动作(握手，猜手指，问候和步行)。

3.根据权利要求1所述的一种改进slowfast双帧速率的暴力行为识别分析方法，其特征在于，所述的改进的slow支路进行插值以增加时间分辨率可以带来更细致的时间分辨率、更好的动态信息捕捉、减少信息丢失。

4.根据权利要求1所述的一种改进slowfast双帧速率的暴力行为识别分析方法，其特征在于，所述的插值是通过对相邻帧之间的像素值进行线性计算，生成介于两帧之间的新帧。这种方法利用了两帧之间的关系，根据它们之间的像素值差异来推断新帧的像素值，从而平滑地插入新的帧。

5.根据权利要求1所述的一种改进slowfast双帧速率的暴力行为识别分析方法，其特征在于，所述的侧向连接为将fast支路的第1个卷积块的输出与slow支路的第1个卷

6.根据权利要求1所述的一种改进slowfast双帧速率的暴力行为识别分析方法，其特征在于，所述的构建的模型是多特征融合的改进slowfast双帧速率网络，网络以3D卷积神经网络3D ResNet为主体，模型将输入视频片段进行帧提取，两条支路并行计算帧信息并提取特征，经过一系列卷积运算，将包含特征参数的向量串联后输入全连接层，全连接层进一步将计算后的特征向量输入sigmoid回归层进行回归计算，得到分类结果。

7.根据权利要求1所述的一种改进slowfast双帧速率的暴力行为识别分析方法，其特征在于，所述的损失函数为：

...

【技术特征摘要】

1.一种改进slowfast双帧速率的暴力行为识别分析方法，其特征在于，包括以下步骤：

5.根据权利要求1所述的一种...

【专利技术属性】
技术研发人员：邵允学，李敏，
申请(专利权)人：南京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人