【技术实现步骤摘要】
一种适用于边缘终端的煤矿井下人体动作识别方法
[0001]本专利技术涉及一种适用于边缘终端的煤矿井下人体动作识别方法,尤其适用于计算机图像识别
技术介绍
[0002]规范生产人员的操作,可以在很大程度上减少事故发生的概率,传统的生产监督方式依赖于人,靠专人监督,然而,在长时间的生产作业过程中,人的注意力很难一直集中在某一处上,这种监督方法效率低下而且也容易出现疏忽。即使安装了摄像头,将煤矿井下视频传输到地面的监控室,也需要人力观看监控、手动发出预警。这种监督方式也会存在不足之处:首先,假如生产作业人员存在危险行为,视频图像信息经过传输,到达监控室,监控人员发出预警,预警信号再传输到煤矿井下,这期间的通讯时延、信号丢失等会导致生产作业人员不能及时收到预警信息,规范操作,无法及时阻止安全事故的发生;其次,集中查看监控视频,监控人员很难同时兼顾多个监视器,而安全事故往往发生在一瞬间的疏忽大意。
[0003]煤矿井下动作识别本质上可以看作是计算机图像识别领域的拓展。通过采集数据,提取特征,根据特征判断动作类别。在计算机图像识别领域,深度神经网络经过良好的训练能够识别出人体的各种动作,并展现出极好的性能。目前,通过深度神经网络来实现动作识别大都依赖于卷积神经网络(CNN)和循环神经网络(RNN)或它们的变体。然而,卷积神经网络在池化过程中会损失信息造成局部和整体之间的联系降低。循环神经网络一定程度上提高了局部和整体之间的联系但不能进行并行计算,性能大大降低。现有的动作识别模型较少考虑低照度的应用场景,且模型参 ...
【技术保护点】
【技术特征摘要】
1.一种适用于边缘终端的煤矿井下人体动作识别方法,其特征在于,针对煤矿井下低照度的照明环境,构建在低照度环境下能够对人体动作进行识别的轻量化动作识别模型,利用边缘终端即可识别出人体动作;具体步骤如下:步骤1:利用井下摄像头分别在光照充足条件下与暗光条件下采集矿井下包含工作人员的生产作业的视频,视频中包含煤矿井下人员的生产作业人体动作视频,将采集到的视频数据进行预处理,先按作业场景进行分类,去除不包含任何动作的视频信息,按照每个完整的生产作业动作形成一条视频数据的原则生成视频,并对应生产作业动作添加文字描述标签,得到煤矿井下动作图像序列数据集,并将动作图像序列数据集划分为训练集和测试集;步骤2:利用煤矿井下动作图像序列数据集训练Vision Transformer网络,使Vision Transformer网络在完成训练后能够根据输入视频准确输出井下人员生产作业动作的文字说明,所述Vision Transformer网络为改进损失函数后的Vision Transformer网络,包括嵌入层、编码器层;步骤3:对完成训练的Vision Transformer网络进行情境剪枝使其轻量化,使轻量化后的Vision Transformer网络适应煤矿井下低照度状态下拍摄的视频数据,所述情境剪枝包括神经元剪枝和权重剪枝;步骤4:对轻量化后的Vision Transformer网络进行示教模型蒸馏处理,浓缩后得到最终轻量化模型;步骤5:将最终轻量化模型设置在煤矿井下的边缘终端中,利用边缘终端对实时煤矿井下生产作业视频数据识别;边缘终端将待识别视频数据转化图像序列行动作识别,并输出视频中包含生产作业动作的文字描述。2.根据权利要求1所述的一种适用于边缘终端的煤矿井下人体动作识别方法,其特征在于:对步骤1中获取的视频图像数据中人员和设备边缘信息不清晰的视频图像信息采用空间域图像增强技术将其锐化处理,并将视频图像数据中噪点过多的视频图像信息采用空间域图像增强技术将其平滑处理,之后对裁剪为帧序列的图像使用卷积运算,将每帧图片切割成3
×
3一共9块小图像,形成图像序列,将获得的煤矿井下动作图像序列数据集按8比2的比例分为训练集和测试集。3.根据权利要求2所述的一种适用于边缘终端的煤矿井下人体动作识别方法,其特征在于:所述步骤1中,采集并构建煤矿井下动作图像序列数据集需要对视频数据进行预处理和转为图像序列数据,动作图像序列数据集制作过程如下:步骤1A:将预处理后的视频按照每秒t帧的标准进行裁剪,使其变成帧序列,表示为V={v1,v2,
…
,v
i
,
…
,v
T
};其中T为视频的总帧数,v
i
代表视频的第i帧;帧序列每一帧可以表示为:其中(H,W)为原始图像的高度和宽度,C是通道数;步骤1B:将帧图像v
i
切割成S=(H
×
W)/P2块小图像,形成图像块序列F
i
={f
i1
,f
i2
,
…
,f
ij
,
…
,f
is
},其中每一块小图像表示为f
is
表示第i帧中的第S小块图像,P为每个小图像块的边长,从而获得由图像序列F
i
组成的图像序列数据集:X={F1,F2,
…
,F
i
,
…
,F
n
};
所述的训练集和测试集划分方法为:将获得的煤矿井下动作图像序列数据集按λ、(1
‑
λ)的比例分为训练集和测试集。4.根据权利要求1所述的一种适用于边缘终端的煤矿井下人体动作识别方法,其特征在于:将测试集输入已经训练好的Vision Transformer神经网络模型中,计算Vision Transformer神经网络模型在测试集上的动作识别准确率,将其作为Vision Transformer神经网络模型的评价指标;根据选取的评价指标,以及模型的输出结果,判断是否达到预期,若达到预期,则进入步骤3,若未达预期,则需要调整Vision Transformer神经网络模型的参数及模型输入的序列大小等,调整参数后重复步骤2。5.根据权利要求4所述的一种适用于边缘终端的煤矿井下人体动作识别方法,其特征在于,所述步骤2利用煤矿井下动作图像序列数据集训练Vision Transformer网络,具体过程如下:Vision Transformer神经网络模型结构包括:嵌入层、编码器层;嵌入层输入为x
p
∈R
S
×
(P
×
P
×
C)
,其中x
p
是输入的图像编码的向量值,也就是嵌入块,S是嵌入块的总数;对输入的向量进行线性映射,映射的结果为入块的总数;对输入的向量进行线性映射,映射的结果为表示第i个嵌入块,S是嵌入块的总数,E为全连接层;在嵌入块映射后的矩阵前添加一个可学习的分类向量x
class
,作为类别标识符,添加后的矩阵为:然后添加位置信息E
pos
∈R
(S+1)*D
,输出融合了类别标识符矩阵和位置信息的向量:编码器层由标准化操作层LN、多头自注意力层MSA、多层感知机MLP组成,其中多头自注意力层的输入输出为:Z
′
l
=MSA(LN(Z
l
‑1))+Z
l
‑1其中MSA为多头自注意力层,LN是标准化操作层,Z'
l
为多头自注意力层的输出,Z
l
‑1为多头自注意力层的输入,多头自注意力层的输出会作为多层感知机的输入,多层感知机MLP的输入输出表示为:z
L
=MLP(LN(Z
′
l
))+Z
′
l
最后输出预测结果:训练具体过程如下:步骤2A:将获得的煤矿井下动作图像序列数据按λ、(1
‑
λ)的比例切分为训练集和测试集,其中λ<1,图像序列数据集表示为:X={F1,F2,
…
,F
i
,
…
,F
n
},X由图像序列F
i
组成;步骤2B:定义损失函数Loss:步骤2C:用交叉熵损失函数表示动作识别种类概率和真实动作种类之间的差别,其中N是动作种类数,p
ic
是样本i属于种类c的概率,y
ic
是符号函数,如果样本i的真实种类与种类c一致则取1,否则取0;训练过程中,各个神经元的权重和偏置项的值会不断更新,直到训练次数达到预设值或者模型预测的准确率达到预设值;可经过多次训练,选取精确度最高的
网络模型参数保存下来,此时模型提取的煤矿井下动作特征为多层感知机的最后一层的输出。6.根据权利要求5所述的一种适用于边缘终端的煤矿井下人体动作识别方法,其特征在于,所述的神经元剪枝,将步骤2中得到的Vision Transformer神经网络模型中的神经元和权重的重要性进行评估,确定与光照程度相关性较弱的Vision Transformer神经元集合后,轻量化的过程具体如下:步骤3A:获得充足照明条件下非重要神经元的集合:将充足照明条件下采集的煤矿井下动作图像序列数据集输入神经网络模型进行训练M1次,得到充足照明条件下的神经网络模型;设定变量模型;设定变量是神经元n
i
输出值为非零的次数,设定的阈值为U,计算充足照明条件下神经元n
i
的输出为非零的次数若神经元n
i
输出为非零值的次数输出为非零值的次数则可以认为在充足照明条件下该神经元的作用很小,则将该神经元归纳到集合N
w
中,即:n
i
∈N
w
其中,n
i
为煤矿井下人体动作识别模型中的神经元,集合N
w
...
【专利技术属性】
技术研发人员:刘佰龙,邓宇帆,张磊,梁志贞,胡浩,许昱林,
申请(专利权)人:中国矿业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。