【技术实现步骤摘要】
基于时空动作检测技术的学习场景实时动作识别方法
[0001]本专利技术属于计算机视觉
,具体涉及到一种基于时空动作检测技术的学习场景实时动作识别方法。
技术介绍
[0002]教室、考场等学习场景为了维持良好的学习秩序,需要老师实时的对学习者的动作进行监控,并对异常的动作进行实时的预警。随着深度神经网络和监控设备的发展,降低了获取监控视频的成本。利用监控视频数据和计算机视觉相关技术对学习场景中的学习者实时动作识别是具有挑战性的,有着广泛的应用场景和研究价值,在学术界和工业界均引起了越来越多的关注。
[0003]目前主流的时空动作检测方法发展迅速,在公开数据集上的识别精度越来越高,但却无法做到精度和速度间的平衡。而在学习场景中学习者动作识别的任务中,需要实时的对学习者的动作进行监控,并对异常动作进行及时预警。
[0004]所以在学习场景中,当前需要解决的一个技术问题是提出一种兼顾精度和速度的实时动作识别方法。
技术实现思路
[0005]本专利技术所要解决的技术在于提供一种识别速度快、识别精度高的学习场景中的实时动作识别方法。
[0006]解决上述技术问题所采用的技术方案是:一种基于时空动作检测技术的学习场景实时动作识别方法,包括以下步骤:
[0007]S1.数据预处理
[0008]采集学习场景学习者视频,根据学习场景学习者视频生成学习者动作识别数据集,学习者动作识别数据集由原始图片和图片对应的标签文件组成,从学习者动作识别数据集中提取原始图片,采用双线性插值法
【技术保护点】
【技术特征摘要】
1.一种基于时空动作检测技术的学习场景实时动作识别方法,其特征在于,包括以下步骤:S1.数据预处理采集学习场景学习者视频,根据学习场景学习者视频生成学习者动作识别数据集,学习者动作识别数据集由原始图片和图片对应的标签文件组成,从学习者动作识别数据集中提取原始图片,采用双线性插值法将原始图片调整统一大小后按照比例分为训练集和测试集;S2.构建学习场景时空动作检测网络学习场景时空动作检测网络由2D分支网络、3D分支网络、特征融合网络、分类回归网络连接构成,2D分支网络和3D分支网络并列输出到特征融合网络,特征融合网络输出到分类回归网络;所述2D分支网络为ShuffleNetV2网络,用于提取输入图片的2D特征并生成2D基础特征图集{C1,C2,C3},C1为ShuffleNetV2网络中第一个卷积层的2D特征图集,C2为ShuffleNetV2网络中第二个卷积层的2D特征图集,C3为ShuffleNetV2网络中第三个卷积层的2D特征图集;所述3D分支网络为3D
‑
ShuffleNetV2网络,用于提取输入图片的3D特征并生成3D基础特征图集,然后对3D基础特征图集进行维度压缩得到3D基础特征压缩图集{D1,D2,D3},D1为3D
‑
ShuffleNetV2网络中第一个卷积层的3D特征压缩图集,D2为3D
‑
ShuffleNetV2网络中第二个卷积层的3D特征压缩图集,D3为3D
‑
ShuffleNetV2网络中第三个卷积层的3D特征压缩图集;所述特征融合网络由两个卷积层和DNL自注意力模块构成,用于将2D基础特征图集{C1,C2,C3}与3D基础特征压缩图集{D1,D2,D3}通过通道堆叠的方式对应叠加,然后经过两个卷积层生成融合特征图集合{E1,E2,E3},最后将融合特征图集合{E1,E2,E3}输入到DNL自注意力模块生成新特征图集G;所述分类回归网络由1
×
1卷积层构成,用于处理新特征图集G得到识别结果,具体处理过程为将新特征图集G通过1
×
1卷积层生成特征图大小为(3
×
(NumCls+5))
×
H
′×
W
′
的识别特征图集,其中3为对应的三个先验锚框、NumCls为分类数目、NumCls为学习场景中动作识别的类别,5为先验锚框的回归值和回归值的置信度分数,H
′
为特征图的高,W
′
为特征图的宽;S3.训练学习场景时空动作检测网络将训练集和训练集对应的标签文件输入到学习场景时空动作检测网络中进行训练,使用SGD优化器和损失函数来不断地迭代优化网络以更新参数,直到达到设定的迭代次数上限,即完成学习场景时空动作检测网络的训练;所述损失函数包括CIOU损失函数和交叉熵损失函数,回归任务采用CIOU损失函数L
CIOU
,分类任务采用交叉熵损失函数L;L=
‑
[ylogy
′
+(1
‑
y)log(1
‑
y
′
)]式中,b、b
gt
为两个矩形框的中心点,ρ为两个矩形框之间的欧氏距离,c为两个矩形框的
闭包区域的对角线的距离,α为平衡参数,ν为衡量长宽比一致性的参数,IOU为相交区域与并区域的比值,y为真值,y
′
为估计值;S4.保存权重文件学习场景时空动...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。