一种基于属性知识建模的安全状态智能识别方法技术

技术编号:36557136 阅读:55 留言:0更新日期:2023-02-04 17:11
本发明专利技术公开了一种基于属性知识建模的安全状态智能识别方法,首先对监控视频中的工人图片进行提取以及预处理,然后基于骨干网络对图片进行高维特征提取以及属性标签向量的生成,接下来应用Transformer编码器对图像特征与属性标签向量进行关系建模,最终对特征与属性输出的结果进行处理,并计算误差损失、准确率,训练网络,完成对工人安全状态的智能识别。本发明专利技术有效提高了属性识别的准确性和鲁棒性,使人工智能算法在工业安全中更好地发挥作用。使人工智能算法在工业安全中更好地发挥作用。使人工智能算法在工业安全中更好地发挥作用。

【技术实现步骤摘要】
一种基于属性知识建模的安全状态智能识别方法


[0001]本专利技术属于模式识别
,具体涉及一种安全状态智能识别方法。

技术介绍

[0002]近年来,随着人工智能、计算机视觉的不断发展,传统的人工巡查与视频监管已经无法满足事故频发的高危工业生产领域需求,人们越来越关注创新型技术在安全作业状态识别的实际应用。在公开号为“CN110046557A”的中国专利中,公开了一种基于深度神经网络判别的安全帽、安全带检测方法;在公开号为“CN114120237A”的中国专利中,提供了一种建筑工地安全带识别方法和系统。两者都提供了一些安全作业状态识别的方法,但是其都是基于对安全帽或者安全带的检测进行的识别,很难解决实际工业场景存在的遮挡而导致无法检测到的问题,以及未考虑到其他的安全状态,例如对于电力场景所必需的绝缘手套、绝缘鞋的识别,同时也存在精度不足以应用到实际场景以及效率有待提高的问题。
[0003]与此同时随着安防摄像头的广泛部署,如何在监控场景中进行高效的行人属性识别得到广泛的关注。行人属性识别就是利用计算机视觉等技术将行人图片进行智能处理,从而得到某一行人所含有的属性类别,比如年龄,性别,穿着等等。然而目前的行人属性识别技术大多是直接将提取到的高维特征直接进行属性分类,或者使用注意力机制为不同的人体部位提取不同的特征进行识别。这些方法忽略了属性之间存在的关系,不能把属性与更合适的高维特征联系起来。同时这些方法大都是采用卷积神经网络来进行特征提取,丧失了全局信息,对于某些全局特征,例如年龄、性别等识别效果不够理想

技术实现思路

[0004]为了克服现有技术的不足,本专利技术提供了一种基于属性知识建模的安全状态智能识别方法,首先对监控视频中的工人图片进行提取以及预处理,然后基于骨干网络对图片进行高维特征提取以及属性标签向量的生成,接下来应用Transformer编码器对图像特征与属性标签向量进行关系建模,最终对特征与属性输出的结果进行处理,并计算误差损失、准确率,训练网络,完成对工人安全状态的智能识别。本专利技术有效提高了属性识别的准确性和鲁棒性,使人工智能算法在工业安全中更好地发挥作用。
[0005]本专利技术解决其技术问题所采用的技术方案包括如下步骤:
[0006]步骤1:对监控视频中的工人图片进行提取和预处理;
[0007]步骤1

1:从监控长视频中截取监控图片,使用目标检测算法进行工人检测和图片裁剪,得到仅包含工人的图片作为数据集,将数据集按设定比例划分为训练集和测试集;
[0008]步骤1

2:对训练集的图片进行筛选并标注安全作业状态属性标签;
[0009]步骤1

3:对训练集的图片进行预处理以及数据增广;
[0010]步骤2:基于骨干网络对图片进行高维特征提取以及属性标签张量的生成;
[0011]步骤2

1:使用骨干网络进行高维特征提取;
[0012]将训练集的图片输入到骨干网络进行特征提取后输出图像特征张量
其中H、W分别代表输入图片的高度和宽度,h、w、d分别代表输出张量的高度、长度和通道数;并通过一个嵌入层为提取到的图像特征张量初始化生成一个的可学习的位置编码序列P={p1,p2,

,p
h
×
w
},其中:
[0013]p
i
=w0+w1q
s
[0014]w1代表可学习的参数,w0代表偏置,q
s
∈Q;
[0015]步骤2

2:通过一个嵌入层把每张图片的所有属性标签编码为张量l为属性标签的个数,得到一个属性标签张量L代表图片包括的所有属性标签的语义信息;
[0016]步骤3:使用Transformer编码器对图像特征张量与属性标签张量进行关系建模;
[0017]步骤3

1:将图像特征张量Q与位置编码序列P进行融合生成新的特征张量且
[0018]Z=Q+P
[0019]令K={z1,z2,

,z
h
×
w
,l1,l2,

,l
l
}代表特征张量Z与属性标签张量L的集合,一起送入Transformer编码器;
[0020]步骤3

2:在Transformer编码器中,通过自注意力机制学习输入K的每个特征之间的相关权重;
[0021]令α
ij
代表特征k
i
∈K和k
j
∈K之间的相关权重,α
ij
的计算方法如下所示:
[0022][0023]根据α
ij
和一个非线性层ReLU更新特征张量:
[0024][0025]其中,W
Q
、W
K
、W
v
分别代表三个可学习的向量矩阵,b1和b2代表偏置向量,H=h
×
w+l代表输入向量集合的长度;
[0026]最终Transformer编码器的输出为属性与特征之间关系的特征向量K'={z'1,z'2,

,z'
h
×
w
,l'1,l'2,

,l'
l
},其中Z'={z'1,z'2,

,z'
h
×
w
}代表图像特征张量的输出,L'={l'1,l'2,

,l'
l
}代表属性标签张量的输出;
[0027]步骤4:对步骤3的特征与属性输出的结果进行处理,并进行训练;
[0028]步骤4

1:对于图像特征张量Z',通过维度变换为然后通过平均池化层和全连接层激活后得到最终的输出output
f
,如下所示:
[0029]output
f
=σ(FC(avgpool(Z')))
[0030]其中,avgpool代表平均池化层,FC代表全连接层,σ代表sigmoid激活函数;
[0031]步骤4

2:对于属性标签张量L',通过一个独立的前馈网络FFN得到最终的预测概率;FFN包含一个简单的线性层,计算公式如下:
[0032]output
l
=FFN(l'
i
)=σ((w
i
·
l'
i
)+b
i
)
[0033]其中,w
i
代表可学习的权重,b
i
是一个偏置向量,σ代表sigmoid激活函数;
[0034]步骤4

3:在训练过程中采用二元交叉熵损失函数作为安全属性识别的损失函数,公式如下:...

【技术保护点】

【技术特征摘要】
1.一种基于属性知识建模的安全状态智能识别方法,其特征在于,包括如下步骤:步骤1:对监控视频中的工人图片进行提取和预处理;步骤1

1:从监控长视频中截取监控图片,使用目标检测算法进行工人检测和图片裁剪,得到仅包含工人的图片作为数据集,将数据集按设定比例划分为训练集和测试集;步骤1

2:对训练集的图片进行筛选并标注安全作业状态属性标签;步骤1

3:对训练集的图片进行预处理以及数据增广;步骤2:基于骨干网络对图片进行高维特征提取以及属性标签张量的生成;步骤2

1:使用骨干网络进行高维特征提取;将训练集的图片输入到骨干网络进行特征提取后输出图像特征张量其中H、W分别代表输入图片的高度和宽度,h、w、d分别代表输出张量的高度、长度和通道数;并通过一个嵌入层为提取到的图像特征张量初始化生成一个的可学习的位置编码序列P={p1,p2,

,p
h
×
w
},其中:p
i
=w0+w1q
s
w1代表可学习的参数,w0代表偏置,q
s
∈Q;步骤2

2:通过一个嵌入层把每张图片的所有属性标签编码为张量L={l1,l2,

,l
l
},l为属性标签的个数,得到一个属性标签张量L代表图片包括的所有属性标签的语义信息;步骤3:使用Transformer编码器对图像特征张量与属性标签张量进行关系建模;步骤3

1:将图像特征张量Q与位置编码序列P进行融合生成新的特征张量Z={z1,z2,

,z
h
×
w
},且Z=Q+P令K={z1,z2,

,z
h
×
w
,l1,l2,

,l
l
}代表特征张量Z与属性标签张量L的集合,一起送入Transformer编码器;步骤3

2:在Transformer编码器中,通过自注意力机制学习输入K的每个特征之间的相关权重;令α
ij
代表特征k
i
∈K和k
j
∈K之间的相关权重,α
ij
的计算方法如下所示:根据α
ij
和一个非线性层ReLU更新特征张量:其中,W
Q
、W
K
、W
v
分别代表三个可学习的向量矩阵,b1和b2代表偏置向量,H=h
×
w+l代表输入向量集合的长度;最终Transformer...

【专利技术属性】
技术研发人员:张顺李玉鹏梅少辉龙吉晖
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1