一种长尾数据下基于Transformer的采油违章识别方法技术

技术编号：38640977 阅读：15 留言：0更新日期：2023-08-31 18:34

本发明专利技术公开了一种长尾数据下基于Transformer的采油违章识别方法，属于计算机视觉领域，包括如下步骤：采集油田施工作业现场的视频流，制作采油作业现场违章数据集；使用Grabcut

全部详细技术资料下载

【技术实现步骤摘要】
一种长尾数据下基于Transformer的采油违章识别方法

[0001]本专利技术属于计算机视觉领域，具体涉及一种长尾数据下基于Transformer的采油违章识别方法。

技术介绍

[0002]油田施工作业工序复杂、环节众多，因此现场安全生产具有重要意义。传统的采油作业现场监管机制主要是通过摄像头以人工方式远程查看，确保生产作业现场的正常运行，并在一定程度上降低一部分人力物力。随着计算机硬件单位价格算力的增长，以及卷积神经网络和ViT模型等软设施的发展，利用计算机进行自动化的大规模视频监控成为现实。但是未带护目镜、吸烟、使用手机等某些违章项由于目标较小、环境复杂和发生率低，不容易用目标检测、姿态估计或者人员追踪检测出来。因此，处理这一问题成为施工作业现场提升采油现场管理效率、极大减少人工物力开支的一个关键，也是降低施工作业现场生产管理成本和提高管理质量的关键。
[0003]为了训练出良好的模型，需要采集油田施工作业现场的数据形成数据集。但是在现实世界实际应用中，采集的数据集中各个类别往往会表现出自然的不平衡和长尾分布，即其中一小部分类别(头部类别)占据了大部分数据，而大多数类别(中尾部类别)的样本往往很少。这主要是由于某些类别的数据在现实中发生率低、采集难度较大、采集成本较高。为了收集平衡的数据集，会导致整个项目仅仅在收集数据这一环节就要花费巨大的财力和精力。如果直接在这种长尾数据集上训练原始的卷积神经网络或ViT模型，那么模型的整体表现将会偏向于头部类别，尾部类别和整体的识别精度将会明显下降。为了将大多数注...

【技术保护点】

【技术特征摘要】
1.一种长尾数据下基于Transformer的采油违章识别方法，其特征在于，包括如下步骤：步骤1、采集油田施工作业现场的视频流，制作采油作业现场违章数据集；步骤2、使用Grabcut
‑
based增强算法对训练集中的中尾部类数据进行增强；步骤3、构建基于Transformer网络的采油违章识别模型；步骤4、设计采油违章识别模型的整体样本采样策略；步骤5、设计采油违章识别模型的训练权重分配策略；步骤6、对采油违章识别模型进行训练及优化；步骤7、监控实时获取现场工作视频，基于训练完成的采油违章识别模型对现场工作视频进行识别，得到违章识别分类结果，并存储识别及判定信息。2.根据权利要求1所述长尾数据下基于Transformer的采油违章识别方法，其特征在于，所述步骤1的具体过程为：先对油田施工作业现场的视频流进行分帧处理得到分帧图像数据，使用Labelimg工具对得到的分帧图像数据进行违章标注，得到分帧图像及对应的标签文件；再利用python脚本对违章标注数据进行裁切、分类制作违章数据集，并将数据集按照固定比例以随机的形式划分为训练集、验证集与测试集。3.根据权利要求1所述长尾数据下基于Transformer的采油违章识别方法，其特征在于，所述步骤2的具体过程为：步骤2.1、在训练集中尾部类数据上应用Grabcut
‑
based增强算法；首先从相同违章类别采样图像，之后用Grabcut
‑
based增强算法对图像的背景和前景进行建模并提取前景，再采用Border Matting算法对分割的边界信息进行平滑处理操作；最后采用水平翻转、旋转、缩放的数据增强方式对提取出的前景进行增强；Grabcut
‑
based增强算法的具体过程为：首先初始化模型参数，之后使用高斯混合模型对图像进行建模，接下来，使用图割算法对图像进行分割；这个过程中，需要将图像中的每个像素看作一个节点，并且将相邻的像素之间连接起来形成边；然后，根据前面建立的高斯混合模型，计算每个节点属于前景或背景的概率，并将这些概率作为边的权重，并使用最小割算法将图像分成前景和背景两部分；步骤2.2、新采集一部分采油施工作业现场相关背景图像数据，将增强前景后的图像与新的背景图像进行融合得到增强后的训练集，单个背景中随机存放1
‑
3张前景。4.根据权利要求1所述长尾数据下基于Transformer的采油违章识别方法，其特征在于，所述步骤3中，基于Transformer网络的采油违章识别模型的具体内容为：输入尺寸为224
×
224
×
3的RGB图像，采用768个16
×
16的卷积核对输入图像进行卷积操作，输出尺寸为14
×
14
×
768的图像数据；对数据进行展平处理，输出尺寸为196
×
768；拼接一个尺寸为1
×
768的可训练参数Class Token，得到输出数据的尺寸为197
×
768，Class Token存储违章目标的特征信息；之后，与位置编码进行相加处理，输出数据的尺寸为197
×
768；之后通过Dropout层，进入12个Encoder Block层；之后经过Layer Norm层，并提取出Class Token中的违章图像分类特征送入MLP Head分类网络，得到输入图像的最终违章分类结果；其中，单个Encoder Block层的具体内容为：输入到Encoder Block层中的数据首先经过Layer Norm层进行归一化处理，进入多头注意力层，之后经过Dropout层，得到的输出再与最初的输入做一个相加操作；之后再依次进入Layer Norm层、MLP Block层和Dropout层，
得到的输出再次与进入Layer Norm层的输入做一个相加操作，得到最终的输出。5.根据权利要求1所述长尾数据下基于Transformer的采油违章识别方法，其特征在于，所述步骤4的具体过程为：步骤4.1、利用通用...

【专利技术属性】
技术研发人员：梁鸿，曹国庆，张千，钟敏，王风华，
申请(专利权)人：中国石油大学华东，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人