一种基于TSN模型的群体-个体多人视频行为识别方法技术

技术编号：43036500 阅读：18 留言：0更新日期：2024-10-18 17:39

本发明专利技术提出了一种基于TSN模型的群体‑个体多人视频行为识别方法，包括：采用TSN稀疏采样的策略对公共数据集中的视频数据进行分割；采用预设注意机制网络，分别学习分割后的视频数据的视频级特征和图像帧特征；将所述视频级特征和图像帧特征进行融合，获取时空特征；利用CNN模型提取所述视频数据中的全局运动特征；将全局运动特征与时空特征进行融合，获取个体‑群体行为所属类别。本发明专利技术提高了视频行为识别的性能，为视频监控、智能分析等领域带来了更精准和可靠的应用前景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉，尤其涉及一种基于tsn模型的群体-个体多人视频行为识别方法。

技术介绍

1、行为识别是计算机视觉领域的研究热点，在实际场景中，个体的行为或动作通常相互影响，且在群体层面共同构成了群体活动。群体行为识别研究在这类场景下准确识别群体行为(group activities)及个体动作(individual actions)。在视频监控分析、体育视频分析和社交行为理解等领域具有许多实际应用。

2、在人类行为识别中，视频被分为空间和时间信息，simonyan等人在《two-streamconvolutional networks for action recognition in videos》提出双流cnn网络，其由两条分支组成，分别处理空间的rgb图像帧信息和时间维度的若干个图像帧之间的光流场信息；wang等人在《temporal segment networks:towards good practices for deepaction recognition》中提出在双流网络的基础上加入分段和稀疏化采样的思想，提出具有四种输入模态的时域段网络；但在二维卷积神经网络中，2d特征图仅仅处理视频当中的空间信息，丢失了动作之间的关联性，而捕获视频的时间特征尤为重要，zhao等人在《two-stream rnn/cnn for action recognition in 3d videos》中提出结合rnn和cnn的优势，提出基于门控循环单元的双流神经网络，空间分支采用3d cnn网络，时间分支采用rn

3、根据查阅，目前已有专利技术的方法有：①李岩山等人专利技术了一种视频行为识别方法：利用深度全卷积网络对目标对象的roi进行初检测再利用马尔科夫随机场进行roi的微调，获得最终目标对象的roi集合，最后基于最终目标对象的roi集合分别同时进行单人行为识别和群体行为识别；②李玲等人在《一种基于级联transformer的视频群体行为识别方法》提出使用基于级联transformer的方法进行行为识别，将视频经过三维骨干网络提取三维时空特征，选取关键帧图像空间特征图；对关键帧图像空间特征图进行预处理后送入人体目标检测transformer，输出关键帧图像中的人体目标框；然后映射筛选后人体目标框在关键帧图像特征图上所对应的子特征图，结合关键帧图像周围帧特征图计算query/key/value，输入群体行为识别transfomer，输出群体级别时空编码特征图，最后，经过多层感知机对群体行为进行分类；③李楠楠等人在《一种基于关系图分析的群体行为识别方法》中首先使用目标检测网络检测人体目标，通过卷积网络提取单帧人体目标特征，再根据单个个体之间外貌和位置关系构建图模型，利用图卷积神经网络提取单帧群体行为表示特征，最后对多帧群体行为特征进行融合得到视频群体行为表征特征。但缺点在于图卷积网络提取单帧群体空间特征时，未对群体中具有判别性的个体特征进行突出，且在视频时间特征维度仅进行简单的加权融合，无法较好的提取视频时序特征。

4、现有基于深度学习的视频行为识别方法，在深度学习过程中存在信息量稀缺、信息重复度高以及类间相似性大等不足，从而导致动作类表达能力弱和行为识别中错误分类，针对目前基于双流网络的群体行为识别无法充分提取视频级特征问题，亟需提出一种基于tsn模型为基本架构的群体-个体多人视频行为识别模型。

技术实现思路

1、本专利技术的目的在于提出一种基于tsn模型的群体一个体多人视频行为识别方法，进一步提升了识别效果。

2、为实现上述目的，本专利技术提供了一种基于tsn模型的群体一个体多人视频行为识别方法，包括：

3、采用tsn稀疏采样的策略对公共行为识别视频数据集中的视频数据进行分割；

4、采用预设注意机制网络，分别学习分割后的视频数据的视频级特征和图像帧特征；

5、将所述视频级特征和图像帧特征进行融合，获取时空特征；

6、利用cnn模型提取所述视频数据中的全局运动特征；

7、将全局运动特征与时空特征进行融合，获取个体-群体行为所属类别。

8、可选地，采用tsn稀疏采样的策略对公共数据集中的视频数据进行分割包括：

9、在对视频进行分割后，随机抽取一些帧，然后综合各个采样段的信息，获取整个视频的预测结果；

10、所述整个视频的预测结果为：

11、tsn(t1，t2，...，tk)＝h(g(f(t1，w)，f(t2，w)，...，f(tk，w)))

12、其中，(t1，t2，...，tk)为一个片段序列集，tk为片段序列集中随机选择的片段序列，f(tk，w)为一个参数为w的卷积网络，h为一个得到整个视频的各种行为的预测概率的softmax函数，g为综合各段预测分数的函数；

13、函数g的交叉熵损失定义为：

14、

15、其中，c为行为分类的个数，yi是实际的类别标签，l(y，g)为函数g的交叉熵损失，i和j均为索引变量，gi为某个行为类别的预测分数，gj为片段tk的预测分数。

16、可选地，所述预设注意机制网络包括：空间卷积网络和时间卷积网络；

17、所述空间卷积网络，通过输入在分割后的视频数据的每一段中随机选取的红外图像和相应的光流图像，学习视频图像的静态内容信息，提取所述视频级特征；

18、所述时间卷积网络，通过输入所述视频级特征，提取所述图像帧特征。

19、可选地，所述空间卷积网络包括：两个bn-incision子网络；

20、第一个bn-incision子网络的输入为分割视频中的红外图像是红外图像，通过多层卷积核和池化操作，从红外图像中提取出与行为识别相关的静态内容信息，即图像帧特征；

21、第二个bn-incision子网络的输入为与红外图像对应的光流图像，通过多层卷积核和池化操作，从光流图像中提取出与行为识别相关的运动信息，即视频级特征；

22、在两个子网络分别提取出红外图像和光流图像的特征信息后，将提取的特征信息在网络的预设节点处进行融合，获取所述视频级特征；其中，预设节点处进行融合是在bn-inception子网络处理完各自输入之后，在它们的输出节点处进行的。

23、可选地，所述视频级特征为：

24、

25、其中，分别表示红外图像网络流和光流图像网络流第l层的输入，分别表示各自网络流的学习权参数，表示融合红外图像内容特征和光流图像运动特征得到红外图像网络流本文档来自技高网...

【技术保护点】

1.一种基于TSN模型的群体-个体多人视频行为识别方法，其特征在于，包括：

2.根据权利要求1所述的基于TSN模型的群体-个体多人视频行为识别方法，其特征在于，采用TSN稀疏采样的策略对公共数据集中的视频数据进行分割包括：

3.根据权利要求1所述的基于TSN模型的群体-个体多人视频行为识别方法，其特征在于，所述预设注意机制网络包括：空间卷积网络和时间卷积网络；

4.根据权利要求3所述的基于TSN模型的群体-个体多人视频行为识别方法，其特征在于，所述空间卷积网络包括：两个BN-Incision子网络；

5.根据权利要求4所述的基于TSN模型的群体-个体多人视频行为识别方法，其特征在于，所述视频级特征为：

6.根据权利要求4所述的基于TSN模型的群体-个体多人视频行为识别方法，其特征在于，所述时间卷积网络包括：小尺度LSTM子网络、时间权值生成层和时间特征融合层；

7.根据权利要求6所述的基于TSN模型的群体-个体多人视频行为识别方法，其特征在于，所述时间特征融合层的表达式为：

8.根据权利要求7所述

9.根据权利要求1所述的基于TSN模型的群体-个体多人视频行为识别方法，其特征在于，利用CNN提取所述视频数据中的全局运动特征包括：

...

【技术特征摘要】

1.一种基于tsn模型的群体-个体多人视频行为识别方法，其特征在于，包括：

2.根据权利要求1所述的基于tsn模型的群体-个体多人视频行为识别方法，其特征在于，采用tsn稀疏采样的策略对公共数据集中的视频数据进行分割包括：

3.根据权利要求1所述的基于tsn模型的群体-个体多人视频行为识别方法，其特征在于，所述预设注意机制网络包括：空间卷积网络和时间卷积网络；

4.根据权利要求3所述的基于tsn模型的群体-个体多人视频行为识别方法，其特征在于，所述空间卷积网络包括：两个bn-incision子网络；

5.根据权利要求4所述的基于tsn模型的群体-个体多人视...

【专利技术属性】
技术研发人员：谢剑斌，陈永超，
申请(专利权)人：湖南中科助英智能科技研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人