一种适用于边缘终端的煤矿井下人体动作识别方法技术

技术编号:37723495 阅读:18 留言:0更新日期:2023-06-02 00:25
本发明专利技术公开一种适用于边缘终端的煤矿井下人体动作识别方法,属于计算机图像识别领域。通过利用煤矿井下人体动作视频数据设计适用于低照度的轻量化动作识别模型,在边缘终端实现动作识别;首先利用数据采集和预处理模块对煤矿井下人员动作数据集的构建;然后利用动作分类模块实现动作视频特征的分类任务下海量参数网络模型的训练;其次利用情境网络剪枝模块实现适用于低照度视频数据的初步轻量化模型;最后通过示教模型蒸馏模块将初步轻量化模型进一步轻量化,将最终轻量化模型应用在边缘终端上其采用带恢复的剪枝技术,减少低照度对压缩的干扰;采用编码技术,优化存储;在保证识别率前提下,实现复杂模型的井下边缘终端部署。署。署。

【技术实现步骤摘要】
一种适用于边缘终端的煤矿井下人体动作识别方法


[0001]本专利技术涉及一种适用于边缘终端的煤矿井下人体动作识别方法,尤其适用于计算机图像识别


技术介绍

[0002]规范生产人员的操作,可以在很大程度上减少事故发生的概率,传统的生产监督方式依赖于人,靠专人监督,然而,在长时间的生产作业过程中,人的注意力很难一直集中在某一处上,这种监督方法效率低下而且也容易出现疏忽。即使安装了摄像头,将煤矿井下视频传输到地面的监控室,也需要人力观看监控、手动发出预警。这种监督方式也会存在不足之处:首先,假如生产作业人员存在危险行为,视频图像信息经过传输,到达监控室,监控人员发出预警,预警信号再传输到煤矿井下,这期间的通讯时延、信号丢失等会导致生产作业人员不能及时收到预警信息,规范操作,无法及时阻止安全事故的发生;其次,集中查看监控视频,监控人员很难同时兼顾多个监视器,而安全事故往往发生在一瞬间的疏忽大意。
[0003]煤矿井下动作识别本质上可以看作是计算机图像识别领域的拓展。通过采集数据,提取特征,根据特征判断动作类别。在计算机图像识别领域,深度神经网络经过良好的训练能够识别出人体的各种动作,并展现出极好的性能。目前,通过深度神经网络来实现动作识别大都依赖于卷积神经网络(CNN)和循环神经网络(RNN)或它们的变体。然而,卷积神经网络在池化过程中会损失信息造成局部和整体之间的联系降低。循环神经网络一定程度上提高了局部和整体之间的联系但不能进行并行计算,性能大大降低。现有的动作识别模型较少考虑低照度的应用场景,且模型参数量较大,只能部署在高性能计算机上。与常见的应用场景不同,煤矿井下环境黑暗、难以部署高性能计算机,且信号传输容易受到干扰、所需监控节点数量众多,把大规模的煤矿井下视频实时传输到地面不太现实。
[0004]现有同类型技术仍有以下关键局限性:首先现有技术或中能够使用的判断模型体积巨大,对计算和存储资源要求高,难以部署在轻量化终端中;由于煤矿井下光照条件欠佳,常规的剪枝方法容易误剪关键的神经元和权重;现有的深度神经网络模型无法兼顾并行计算以及关注局部和整体信息。

技术实现思路

[0005]针对现有技术的不足之处,提供一种适用于边缘终端的煤矿井下人体动作识别方法,解决现有煤矿井下动作识别存在的无法实时检测以及计算量大、传输不稳定的问题。本专利技术基于轻量级深度学习视频动作识别技术,利用计算机视觉技术和边缘轻量级计算终端的计算能力,对煤矿井下采集到的视频进行实时分析,识别出生产作业人员的动作,并通过与预先设计好的安全生产规范作业流程动作库进行数据分析比对,从而判断生产作业人员的操作是否符合规范。
[0006]为实现上述技术目的,本专利技术的一种适用于边缘终端的煤矿井下人体动作识别方法,针对煤矿井下低照度的照明环境,构建在低照度环境下能够对人体动作进行识别的轻
Transformer神经网络模型的评价指标;根据选取的评价指标,以及模型的输出结果,判断是否达到预期,若达到预期,则进入步骤3,若未达预期,则需要调整Vision Transformer神经网络模型的参数及模型输入的序列大小等,调整参数后重复步骤2。
[0019]进一步,所述步骤2利用煤矿井下动作图像序列数据集训练Vision Transformer网络,具体过程如下:
[0020]Vision Transformer神经网络模型结构包括:嵌入层、编码器层;
[0021]嵌入层输入为x
p
∈R
S
×
(P
×
P
×
C)
,其中x
p
是输入的图像编码的向量值,也就是嵌入块,S是嵌入块的总数;对输入的向量进行线性映射,映射的结果为是嵌入块的总数;对输入的向量进行线性映射,映射的结果为表示第i个嵌入块,S是嵌入块的总数,E为全连接层;在嵌入块映射后的矩阵前添加一个可学习的分类向量x
class
,作为类别标识符,添加后的矩阵为:然后添加位置信息E
pos
∈R
(S+1
)
*D
,输出融合了类别标识符矩阵和位置信息的向量:
[0022][0023]编码器层由标准化操作层LN、多头自注意力层MSA、多层感知机MLP组成,其中多头自注意力层的输入输出为:
[0024]Z

l
=MSA(LN(Z
l
‑1))+Z
l
‑1[0025]其中MSA为多头自注意力层,LN是标准化操作层,Z'
l
为多头自注意力层的输出,Z
l
‑1为多头自注意力层的输入,多头自注意力层的输出会作为多层感知机的输入,多层感知机MLP的输入输出表示为:
[0026]z
L
=MLP(LN(Z

l
))+Z

l
[0027]最后输出预测结果:
[0028][0029]训练具体过程如下:
[0030]步骤2A:将获得的煤矿井下动作图像序列数据按λ、(1

λ)的比例切分为训练集和测试集,其中λ<1,图像序列数据集表示为:X={F1,F2,

,F
i
,

,F
n
},X由图像序列F
i
组成;
[0031]步骤2B:定义损失函数Loss:
[0032][0033]步骤2C:用交叉熵损失函数表示动作识别种类概率和真实动作种类之间的差别,其中N是动作种类数,p
ic
是样本i属于种类c的概率,y
ic
是符号函数,如果样本i的真实种类与种类c一致则取1,否则取0;训练过程中,各个神经元的权重和偏置项的值会不断更新,直到训练次数达到预设值或者模型预测的准确率达到预设值;可经过多次训练,选取精确度最高的网络模型参数保存下来,此时模型提取的煤矿井下动作特征为多层感知机的最后一层的输出。
[0034]进一步,所述的神经元剪枝,将步骤2中得到的Vision Transformer神经网络模型中的神经元和权重的重要性进行评估,确定与光照程度相关性较弱的Vision Transformer神经元集合后,轻量化的过程具体如下:
[0035]步骤3A:获得充足照明条件下非重要神经元的集合:将充足照明条件下采集的煤
矿井下动作图像序列数据集输入神经网络模型进行训练M1次,得到充足照明条件下的神经网络模型;设定变量网络模型;设定变量是神经元n
i
输出值为非零的次数,设定的阈值为U,计算充足照明条件下神经元n
i
的输出为非零的次数若神经元n
i
输出为非零值的次数输出为非零值的次数则可以认为在充足照明条件下该神经元的作用很小,则将该神经元归纳到集合N
w
中,即:
[0036本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种适用于边缘终端的煤矿井下人体动作识别方法,其特征在于,针对煤矿井下低照度的照明环境,构建在低照度环境下能够对人体动作进行识别的轻量化动作识别模型,利用边缘终端即可识别出人体动作;具体步骤如下:步骤1:利用井下摄像头分别在光照充足条件下与暗光条件下采集矿井下包含工作人员的生产作业的视频,视频中包含煤矿井下人员的生产作业人体动作视频,将采集到的视频数据进行预处理,先按作业场景进行分类,去除不包含任何动作的视频信息,按照每个完整的生产作业动作形成一条视频数据的原则生成视频,并对应生产作业动作添加文字描述标签,得到煤矿井下动作图像序列数据集,并将动作图像序列数据集划分为训练集和测试集;步骤2:利用煤矿井下动作图像序列数据集训练Vision Transformer网络,使Vision Transformer网络在完成训练后能够根据输入视频准确输出井下人员生产作业动作的文字说明,所述Vision Transformer网络为改进损失函数后的Vision Transformer网络,包括嵌入层、编码器层;步骤3:对完成训练的Vision Transformer网络进行情境剪枝使其轻量化,使轻量化后的Vision Transformer网络适应煤矿井下低照度状态下拍摄的视频数据,所述情境剪枝包括神经元剪枝和权重剪枝;步骤4:对轻量化后的Vision Transformer网络进行示教模型蒸馏处理,浓缩后得到最终轻量化模型;步骤5:将最终轻量化模型设置在煤矿井下的边缘终端中,利用边缘终端对实时煤矿井下生产作业视频数据识别;边缘终端将待识别视频数据转化图像序列行动作识别,并输出视频中包含生产作业动作的文字描述。2.根据权利要求1所述的一种适用于边缘终端的煤矿井下人体动作识别方法,其特征在于:对步骤1中获取的视频图像数据中人员和设备边缘信息不清晰的视频图像信息采用空间域图像增强技术将其锐化处理,并将视频图像数据中噪点过多的视频图像信息采用空间域图像增强技术将其平滑处理,之后对裁剪为帧序列的图像使用卷积运算,将每帧图片切割成3
×
3一共9块小图像,形成图像序列,将获得的煤矿井下动作图像序列数据集按8比2的比例分为训练集和测试集。3.根据权利要求2所述的一种适用于边缘终端的煤矿井下人体动作识别方法,其特征在于:所述步骤1中,采集并构建煤矿井下动作图像序列数据集需要对视频数据进行预处理和转为图像序列数据,动作图像序列数据集制作过程如下:步骤1A:将预处理后的视频按照每秒t帧的标准进行裁剪,使其变成帧序列,表示为V={v1,v2,

,v
i
,

,v
T
};其中T为视频的总帧数,v
i
代表视频的第i帧;帧序列每一帧可以表示为:其中(H,W)为原始图像的高度和宽度,C是通道数;步骤1B:将帧图像v
i
切割成S=(H
×
W)/P2块小图像,形成图像块序列F
i
={f
i1
,f
i2
,

,f
ij
,

,f
is
},其中每一块小图像表示为f
is
表示第i帧中的第S小块图像,P为每个小图像块的边长,从而获得由图像序列F
i
组成的图像序列数据集:X={F1,F2,

,F
i
,

,F
n
};
所述的训练集和测试集划分方法为:将获得的煤矿井下动作图像序列数据集按λ、(1

λ)的比例分为训练集和测试集。4.根据权利要求1所述的一种适用于边缘终端的煤矿井下人体动作识别方法,其特征在于:将测试集输入已经训练好的Vision Transformer神经网络模型中,计算Vision Transformer神经网络模型在测试集上的动作识别准确率,将其作为Vision Transformer神经网络模型的评价指标;根据选取的评价指标,以及模型的输出结果,判断是否达到预期,若达到预期,则进入步骤3,若未达预期,则需要调整Vision Transformer神经网络模型的参数及模型输入的序列大小等,调整参数后重复步骤2。5.根据权利要求4所述的一种适用于边缘终端的煤矿井下人体动作识别方法,其特征在于,所述步骤2利用煤矿井下动作图像序列数据集训练Vision Transformer网络,具体过程如下:Vision Transformer神经网络模型结构包括:嵌入层、编码器层;嵌入层输入为x
p
∈R
S
×
(P
×
P
×
C)
,其中x
p
是输入的图像编码的向量值,也就是嵌入块,S是嵌入块的总数;对输入的向量进行线性映射,映射的结果为入块的总数;对输入的向量进行线性映射,映射的结果为表示第i个嵌入块,S是嵌入块的总数,E为全连接层;在嵌入块映射后的矩阵前添加一个可学习的分类向量x
class
,作为类别标识符,添加后的矩阵为:然后添加位置信息E
pos
∈R
(S+1)*D
,输出融合了类别标识符矩阵和位置信息的向量:编码器层由标准化操作层LN、多头自注意力层MSA、多层感知机MLP组成,其中多头自注意力层的输入输出为:Z

l
=MSA(LN(Z
l
‑1))+Z
l
‑1其中MSA为多头自注意力层,LN是标准化操作层,Z'
l
为多头自注意力层的输出,Z
l
‑1为多头自注意力层的输入,多头自注意力层的输出会作为多层感知机的输入,多层感知机MLP的输入输出表示为:z
L
=MLP(LN(Z

l
))+Z

l
最后输出预测结果:训练具体过程如下:步骤2A:将获得的煤矿井下动作图像序列数据按λ、(1

λ)的比例切分为训练集和测试集,其中λ<1,图像序列数据集表示为:X={F1,F2,

,F
i
,

,F
n
},X由图像序列F
i
组成;步骤2B:定义损失函数Loss:步骤2C:用交叉熵损失函数表示动作识别种类概率和真实动作种类之间的差别,其中N是动作种类数,p
ic
是样本i属于种类c的概率,y
ic
是符号函数,如果样本i的真实种类与种类c一致则取1,否则取0;训练过程中,各个神经元的权重和偏置项的值会不断更新,直到训练次数达到预设值或者模型预测的准确率达到预设值;可经过多次训练,选取精确度最高的
网络模型参数保存下来,此时模型提取的煤矿井下动作特征为多层感知机的最后一层的输出。6.根据权利要求5所述的一种适用于边缘终端的煤矿井下人体动作识别方法,其特征在于,所述的神经元剪枝,将步骤2中得到的Vision Transformer神经网络模型中的神经元和权重的重要性进行评估,确定与光照程度相关性较弱的Vision Transformer神经元集合后,轻量化的过程具体如下:步骤3A:获得充足照明条件下非重要神经元的集合:将充足照明条件下采集的煤矿井下动作图像序列数据集输入神经网络模型进行训练M1次,得到充足照明条件下的神经网络模型;设定变量模型;设定变量是神经元n
i
输出值为非零的次数,设定的阈值为U,计算充足照明条件下神经元n
i
的输出为非零的次数若神经元n
i
输出为非零值的次数输出为非零值的次数则可以认为在充足照明条件下该神经元的作用很小,则将该神经元归纳到集合N
w
中,即:n
i
∈N
w
其中,n
i
为煤矿井下人体动作识别模型中的神经元,集合N
w
...

【专利技术属性】
技术研发人员:刘佰龙邓宇帆张磊梁志贞胡浩许昱林
申请(专利权)人:中国矿业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1