基于时空动作检测技术的学习场景实时动作识别方法技术

技术编号:38770626 阅读:16 留言:0更新日期:2023-09-10 10:43
一种基于时空动作检测技术的学习场景实时动作识别方法,包括数据预处理、构建学习场景时空动作检测网络、训练学习场景时空动作检测网络、保存权重文件、测试学习场景时空动作检测网络;本发明专利技术采用了轻量化的shuffernetv2模型,嵌入的DNL自注意力模块可提高通道间特征的依赖性,使得不同分支的特征能够合理、平滑地聚合,从而突出了上下文关系,增强特征的可辨别性。本发明专利技术充分利用视频帧中的2D特征和帧与帧之间的上下文信息,并达到了识别精度和识别速度的平衡。与现有技术相比,本发明专利技术简单、参数量少、速度快和精度高。速度快和精度高。速度快和精度高。

【技术实现步骤摘要】
基于时空动作检测技术的学习场景实时动作识别方法


[0001]本专利技术属于计算机视觉
,具体涉及到一种基于时空动作检测技术的学习场景实时动作识别方法。

技术介绍

[0002]教室、考场等学习场景为了维持良好的学习秩序,需要老师实时的对学习者的动作进行监控,并对异常的动作进行实时的预警。随着深度神经网络和监控设备的发展,降低了获取监控视频的成本。利用监控视频数据和计算机视觉相关技术对学习场景中的学习者实时动作识别是具有挑战性的,有着广泛的应用场景和研究价值,在学术界和工业界均引起了越来越多的关注。
[0003]目前主流的时空动作检测方法发展迅速,在公开数据集上的识别精度越来越高,但却无法做到精度和速度间的平衡。而在学习场景中学习者动作识别的任务中,需要实时的对学习者的动作进行监控,并对异常动作进行及时预警。
[0004]所以在学习场景中,当前需要解决的一个技术问题是提出一种兼顾精度和速度的实时动作识别方法。

技术实现思路

[0005]本专利技术所要解决的技术在于提供一种识别速度快、识别精度高的学习场景中的实时动作识别方法。
[0006]解决上述技术问题所采用的技术方案是:一种基于时空动作检测技术的学习场景实时动作识别方法,包括以下步骤:
[0007]S1.数据预处理
[0008]采集学习场景学习者视频,根据学习场景学习者视频生成学习者动作识别数据集,学习者动作识别数据集由原始图片和图片对应的标签文件组成,从学习者动作识别数据集中提取原始图片,采用双线性插值法将原始图片调整统一大小后按照比例分为训练集和测试集;
[0009]S2.构建学习场景时空动作检测网络
[0010]学习场景时空动作检测网络由2D分支网络、3D分支网络、特征融合网络、分类回归网络连接构成,2D分支网络和3D分支网络并列输出到特征融合网络,特征融合网络输出到分类回归网络;
[0011]所述2D分支网络为ShuffleNetV2网络,用于提取输入图片的2D特征并生成2D基础特征图集{C1,C2,C3},C1为ShuffleNetV2网络中第一个卷积层的2D特征图集,C2为ShuffleNetV2网络中第二个卷积层的2D特征图集,C3为ShuffleNetV2网络中第三个卷积层的2D特征图集;
[0012]所述3D分支网络为3D

ShuffleNetV2网络,用于提取输入图片的3D特征并生成3D基础特征图集,然后对3D基础特征图集进行维度压缩得到3D基础特征压缩图集{D1,D2,
D3},D1为3D

ShuffleNetV2网络中第一个卷积层的3D特征压缩图集,D2为3D

ShuffleNetV2网络中第二个卷积层的3D特征压缩图集,D3为3D

ShuffleNetV2网络中第三个卷积层的3D特征压缩图集;
[0013]所述特征融合网络由两个卷积层和DNL自注意力模块构成,用于将2D基础特征图集{C1,C2,C3}与3D基础特征压缩图集{D1,D2,D3}通过通道堆叠的方式对应叠加,然后经过两个卷积层生成融合特征图集合{E1,E2,E3},最后将融合特征图集合{E1,E2,E3}输入到DNL自注意力模块生成新特征图集G;
[0014]所述分类回归网络由1
×
1卷积层构成,用于处理新特征图集G得到识别结果,具体处理过程为将新特征图集G通过1
×
1卷积层生成特征图大小为(3
×
(NumCls+5))
×
H
′×
W

的识别特征图集,其中3为对应的三个先验锚框、NumCls为分类数目、NumCls为学习场景中动作识别的类别,5为先验锚框的回归值和回归值的置信度分数,H

为特征图的高,W

为特征图的宽;
[0015]S3.训练学习场景时空动作检测网络
[0016]将训练集和训练集对应的标签文件输入到学习场景时空动作检测网络中进行训练,使用SGD优化器和损失函数来不断地迭代优化网络以更新参数,直到达到设定的迭代次数上限,即完成学习场景时空动作检测网络的训练;
[0017]所述损失函数包括CIOU损失函数和交叉熵损失函数,回归任务采用CIOU损失函数L
CIOU
,分类任务采用交叉熵损失函数L;
[0018][0019]L=

[ylogy

+(1

y)log(1

y

)][0020]式中,b、b
gt
为两个矩形框的中心点,ρ为两个矩形框之间的欧氏距离,c为两个矩形框的闭包区域的对角线的距离,α为平衡参数,ν为衡量长宽比一致性的参数,IOU为相交区域与并区域的比值,y为真值,y

为估计值;
[0021]S4.保存权重文件
[0022]学习场景时空动作检测网络在F次迭代后保存优化后的权重文件;
[0023]S5.测试学习场景时空动作检测网络
[0024]将步骤S4保存的权重文件、测试数据集以及其对应的标签文件输入到学习场景时空动作检测网络中进行测试,用非极大值抑制和置信度阈值的方法对检测结果进行后处理,并对检测结果的精度和参数量定量的评价。
[0025]作为一种优选的技术方案,所述步骤S1中,所述学习场景学习者视频的帧率为30FPS;所述学习者动作识别数据集生成方式为从学习场景学习者视频中每隔10帧抽一帧图像作为原始图,对所抽取的图像进行分类标注得到标签文件;所述训练集和测试集数量比为8:2或7:3,所述训练集和测试集中图片大小为448
×
448。
[0026]作为一种优选的技术方案,所述步骤S2中特征融合网络的DNL自注意力模块包括pairwise NL分支、unary NL分支、相加操作单元;
[0027]所述pairwise NL分支包括第一1
×
1卷积块、第二1
×
1卷积块、第一白化操作单元、第二白化操作单元、点乘单元、第一归一化处理单元;
[0028]所述第一1
×
1卷积块用于将输入的特征图转化为大小为C
×
W
×
H的局部信息特征
图θ并输出到第一白化操作单元,C为平面通道数,W为特征图的宽度,H为特征图的高度,第一白化操作单元输出大小为K
×
C的新局部信息特征图θ
/
,K为特征图边长,K=WH;
[0029]所述第二1
×
1卷积块用于将输入的特征图转化为大小为C
×
W
×
H的全局信息特征图φ并输出到第二白化操作单元,第二白化操作单元输出大小为K
×
C的全局信息特征图φ
/
...

【技术保护点】

【技术特征摘要】
1.一种基于时空动作检测技术的学习场景实时动作识别方法,其特征在于,包括以下步骤:S1.数据预处理采集学习场景学习者视频,根据学习场景学习者视频生成学习者动作识别数据集,学习者动作识别数据集由原始图片和图片对应的标签文件组成,从学习者动作识别数据集中提取原始图片,采用双线性插值法将原始图片调整统一大小后按照比例分为训练集和测试集;S2.构建学习场景时空动作检测网络学习场景时空动作检测网络由2D分支网络、3D分支网络、特征融合网络、分类回归网络连接构成,2D分支网络和3D分支网络并列输出到特征融合网络,特征融合网络输出到分类回归网络;所述2D分支网络为ShuffleNetV2网络,用于提取输入图片的2D特征并生成2D基础特征图集{C1,C2,C3},C1为ShuffleNetV2网络中第一个卷积层的2D特征图集,C2为ShuffleNetV2网络中第二个卷积层的2D特征图集,C3为ShuffleNetV2网络中第三个卷积层的2D特征图集;所述3D分支网络为3D

ShuffleNetV2网络,用于提取输入图片的3D特征并生成3D基础特征图集,然后对3D基础特征图集进行维度压缩得到3D基础特征压缩图集{D1,D2,D3},D1为3D

ShuffleNetV2网络中第一个卷积层的3D特征压缩图集,D2为3D

ShuffleNetV2网络中第二个卷积层的3D特征压缩图集,D3为3D

ShuffleNetV2网络中第三个卷积层的3D特征压缩图集;所述特征融合网络由两个卷积层和DNL自注意力模块构成,用于将2D基础特征图集{C1,C2,C3}与3D基础特征压缩图集{D1,D2,D3}通过通道堆叠的方式对应叠加,然后经过两个卷积层生成融合特征图集合{E1,E2,E3},最后将融合特征图集合{E1,E2,E3}输入到DNL自注意力模块生成新特征图集G;所述分类回归网络由1
×
1卷积层构成,用于处理新特征图集G得到识别结果,具体处理过程为将新特征图集G通过1
×
1卷积层生成特征图大小为(3
×
(NumCls+5))
×
H
′×
W

的识别特征图集,其中3为对应的三个先验锚框、NumCls为分类数目、NumCls为学习场景中动作识别的类别,5为先验锚框的回归值和回归值的置信度分数,H

为特征图的高,W

为特征图的宽;S3.训练学习场景时空动作检测网络将训练集和训练集对应的标签文件输入到学习场景时空动作检测网络中进行训练,使用SGD优化器和损失函数来不断地迭代优化网络以更新参数,直到达到设定的迭代次数上限,即完成学习场景时空动作检测网络的训练;所述损失函数包括CIOU损失函数和交叉熵损失函数,回归任务采用CIOU损失函数L
CIOU
,分类任务采用交叉熵损失函数L;L=

[ylogy

+(1

y)log(1

y

)]式中,b、b
gt
为两个矩形框的中心点,ρ为两个矩形框之间的欧氏距离,c为两个矩形框的
闭包区域的对角线的距离,α为平衡参数,ν为衡量长宽比一致性的参数,IOU为相交区域与并区域的比值,y为真值,y

为估计值;S4.保存权重文件学习场景时空动...

【专利技术属性】
技术研发人员:马苗邱佳宝杨云启郭敏
申请(专利权)人:陕西师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1