当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于视频的多人行为分析方法技术

技术编号:36444924 阅读:24 留言:0更新日期:2023-01-25 22:38
本发明专利技术提出了一种基于视频的多人行为分析方法,主要涉及深度学习中提取和融合多方面特征进行个体行为和群组行为识别的问题。此方法在分析个体外观和位置信息的基础上,使用加权融合的方法将场景信息纳入行为分析,同时添加了注意力机制模块,提升了行为识别的准确度。首先,使用两个通道分别提取个体与场景特征。在个体通道中,使用了注意力机制。其次,将提取的个体外观及位置特征输入图卷积网络进行推理。其中,使用了余弦相似性的方法来计算外观相似性。最后,使用加权融合的方法进行场景特征的融合,得到行为识别结果。本发明专利技术充分考虑到行为识别相关的特征,引入图卷积网络进行关系推理,解决了行为识别中特征提取不充分的问题。的问题。

【技术实现步骤摘要】
一种基于视频的多人行为分析方法


[0001]本专利技术涉及深度学习领域中的个体行为以及群组行为识别问题,尤其是涉及一种基于视频的多人行为分析方法。

技术介绍

[0002]随着计算机视觉领域的蓬勃发展,越来越多的学者展开了相关研究。而人体行为识别作为其中的一个热门课题,同样受到了很大的关注。现有研究大多通过提取RGB图片的外观信息、光流图像的运动信息或是人体骨架信息等相关特征来进行行为识别,并且都达到了不错的效果。近年来,随着图神经网络的发展,行为识别领域也开始引入相关思想,来模拟人脑对人体之间的交互性进行推理,从而提升行为识别的准确率。目前,基于视频的多人行为分析在智能视频监控、视频检索、智能驾驶等领域都有着深远的研究意义与广阔的应用前景。
[0003]现有的行为识别方法较少考虑到场景信息的作用,实际上,不管是个体还是群组行为都和他们所处的场景有关。因此,本专利在分析人的外观信息和位置信息的基础上,使用加权融合方式来融合场景信息,同时添加了注意力机制模块,提升了行为识别的准确度。首先,使用两个通道分别提取个体特征与场景特征:对于个体通道,使用Inception

v3网络进行全局特征提取,再使用RoIAlign模块以及注意力机制提取每个个体的特征;对于场景通道,在使用在place365数据集上预训练的ResNet

50进行场景特征提取。其次,将提取的个体外观特征以及位置特征输入图卷积网络进行进一步的关系推理,以此来学习个体间的交互性。其中,使用了余弦相似性的方法来判断个体之间外观的相似性。最后,将场景特征进行尺寸调整并与经过图卷积网络推理的特征进行加权融合,输入分类器后得到群组行为以及所有个体的行为识别结果。

技术实现思路

[0004]本专利技术的目的是提供一种基于视频的多人行为分析方法,它考虑到行为识别相关的特征,采取加权融合方式融合场景特征,并引入注意力机制模块对不同的位置或通道赋予不同的权重,同时使用图卷积网络进行关系推理,解决了行为识别中特征提取不充分的问题。
[0005]为了方便说明,首先引入一下概念:
[0006]图(Graph):由结点(Node)和连接结点的边(Edge)构成图结构。
[0007]图卷积网络(GraphConvolutionalNetwork,GCN):GCN的目的是用于提取拓扑图的空间特征,处理的数据是图结构,即非欧几里得结构(NonEuclideanStructure)。
[0008]Inception网络:它是一个多分支结构,使用不同尺寸的卷积核来捕获不同深度的特征,最后进行拼接得到多尺度的特征。常见的版本有Inception

v1、Inception

v2、Inception

v3、Inception

v4等。
[0009]RoIAlign模块:使用了双线性插值的方法来计算每个感兴趣区域
(RegionofInterest,RoI)中特征的准确值,并使用池化操作得到输出结果,解决了RoI

Pooling中量化误差的问题。
[0010]残差网络(ResNets):通过引入恒等映射来解决网络的退化问题。常见的网络类型有ResNet

18、ResNet

34、ResNet

50、ResNet

101以及ResNet

152。
[0011]Squeeze

and

excitation网络:它是一种通道注意力机制,可以自动捕获每个通道的重要程度,以此来放大有用特征,抑制无用特征。
[0012]迁移学习:指的是将预先训练好的模型用到另一个任务中,通过一些改动来辅助训练新的模型,这种方式大大提升了模型训练的效率。
[0013]本专利技术具体采用如下技术方案:
[0014]一种基于视频的多人行为分析方法,其特征在于:
[0015]a.通过卷积神经网络、全连接网络以及图卷积网络提取与个体行为和群组行为识别相关的特征;
[0016]b.使用了注意力机制Squeeze

and

excitationNetworks对不同的通道给予不同程度的关注,以此来重标定行为特征;
[0017]c.在使用外观信息和位置信息构建图结构的基础上,采用了余弦相似性的判断方法计算个体之间外观的相似性;
[0018]d.采用了加权融合的方式融合场景信息;
[0019]该方法主要包括以下步骤:
[0020](1)数据预处理:对连续视频帧进行抽帧,将抽样后的视频帧直接输入网络;
[0021](2)特征提取:采用了Inception

v3网络、ResNet

50网络提取个体全局特征以及场景特征,再通过RoIAlign模块以及注意力机制模块得到每个个体的特征信息,并使用全连接层综合所得信息;
[0022](3)结点生成:将经过步骤(2)提取的外观特征结合每个个体的位置特征,形成行为特征结点;
[0023](4)图构建与推理:根据步骤(3)生成的行为特征结点来构建个体行为关系图,并通过图卷积网络对图进行推理,充分挖掘个体之间行为的交互性;
[0024](5)融合场景信息:将通过步骤(4)推理的特征图与场景特征图进行加权融合;
[0025](6)个体行为以及群组行为的分类:将融合场景后的特征输入分类层,得到最终的个体以及群组行为的类别;
[0026](7)模型训练:通过(2)

(6)构建的模型训练分为两步,第一步对用于生成行为外观特征结点的网络做整体训练,保存模型参数后输入第二步的网络模型;第二步添加了个体的位置信息,再结合第一步的外观特征结点,构建图卷积网络并对其进行推理,再通过加权融合场景特征的方式,得到最终的分类结果。
[0027]本专利技术的有益效果是:
[0028](1)以加权融合的方式融合场景特征,提升了群组以及个体行为识别的准确率。
[0029](2)利用迁移学习的方式进行场景特征提取,节约了大量的训练时间和计算资源。
[0030](3)采用图卷积网络来推理个体之间的交互性,同时采用了余弦相似性的方法来计算个体之间外观的相似性,从而更好地对个体行为以及群组行为进行判断。
[0031](4)使用了通道注意力机制,重标定所有特征,放大重要特征,抑制用处小的特征。
附图说明
[0032]图1为加权融合框架图。
具体实施方式
[0033]下面结合附图及实施例对本专利技术作进一步的详细说明,有必要指出的是,以下的实施例只用于对本专利技术做进一步的说明,不能理解为对本专利技术保护范围的限制,所属领域技术熟悉人员根据上述
技术实现思路
,对本专利技术做出一些非本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视频的行为分析方法,其特征在于:a.通过卷积神经网络、全连接网络以及图卷积网络提取与个体行为和群组行为识别相关的特征;b.使用了注意力机制Squeeze

and

excitation Networks对不同的通道给予不同程度的关注,以此来重标定行为特征;c.在使用外观信息和位置信息构建图结构的基础上,采用了余弦相似性的判断方法计算个体之间外观的相似性;d.采用了加权融合的方式融合场景信息;该方法主要包括以下步骤:(1)数据预处理:对连续视频帧进行抽帧,将抽样后的视频帧直接输入网络;(2)特征提取:采用了Inception

v3网络、ResNet

50网络提取个体全局特征以及场景特征,再通过RoIAlign模块以及注意力机制模块得到每个个体的特征信息,并使用全连接层综合所得信息;(3)结点生成:将经过步骤(2)提取的外观特征结合每个个体的位置特征,形成行为特征结点;(4)图构建与推理:根据步骤(3)生成的行为特征结点来构建个体行为关系图,并通过图卷积网络对图进行推理,充分挖掘个体之间行为的交互性;(5)融合场景信息:将通过步骤(4)推理的特征图与场景特征图进行加权融合;(6)个体行为以及群组行为的分类:将融合场景后的特征输入分类层,得到最终的个体以及群组行为的类别;(7)模型训练:通过(2)

(6)构建的模型训练分为两步,第一步对用于生成行为外观特征结点的网络做整体训练,保存模型参数后输入第二步的网络模型;第二步添加了个体的位置信息,再结合第一步的外观特征结点,构建图卷积网络并对其进行推理,再通过加权融合场景特征的方式,得到最终的分类结果。2.如权利要求1所述的基于视频的多人行为分析方法,其特征在于在步...

【专利技术属性】
技术研发人员:卿粼波黄江岚姜雪陈杨陈洪刚吴晓红
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1