一种基于STN-pan网络的输电铁塔标识牌文本检测识别方法技术

技术编号:37998091 阅读:6 留言:0更新日期:2023-06-30 10:12
本发明专利技术公开了一种基于STN

【技术实现步骤摘要】
一种基于STN

pan网络的输电铁塔标识牌文本检测识别方法


[0001]本专利技术属于计算机视觉和图像检测领域,具体为一种基于STN

pan网络的输电铁塔标识牌文本检测识别方法。

技术介绍

[0002]电力铁塔是铺设输电导线的必要支撑结构,是电网正常运行的重要节点,也是电力公用事业中使用量最大,最重要的商业资产。同时,在铁塔周围往往建有重要的电力设施,因此定期检测铁塔本身的稳固状态,只能在发生严重电网故障时才会发现,传统的人工巡检方式无法准确把握电力线路的状态,存在延迟性,这将严重影响电网的稳定性。随着无人机的广泛应用,使用无人机对输电铁塔,线路进行拍摄,通过以深度学习算法为核心的自动巡检成为了当前电力巡检的新方式,也将成为电力巡检重要的检测手段。
[0003]由无人机拍摄的图像难以确定所拍摄线路中有故障的输电铁塔的具体位置,当前基于RFID的电子标签与基于二维码识别的自动识别技术已经应用到电力自动巡检中,但这两种方式都存在必须要对现有设备进行改造,同时需要投入大量的人工和时间成本。黄肖为等(黄肖为,吴健儿,倪晓璐,周铭权,孟庆铭,陈静怡.基于机器视觉的电力线路杆塔标牌自动识别方法研究[J].科技创新与应用,2018(03):84

85.)考虑到电力线路杆塔都具有标牌,利用输电塔标识牌中的唯一性编号来进行定位,通过传统的图像处理技术进行图像分割与字符提取,然后使用标准字库进行对比来识别光学字符,以此来获得输电铁塔的位置信息。随着深度学习的蓬勃发展,不少学者将深度学习用于文本检测识别中,现有的基于深度学习的文本检测识别模型设计往往都很复杂,需要很深的网络结构去进行特征提取,这造成网络模型的参数规模过大,从而影响了检测识别的性能,增加了训练模型的成本。
[0004]上述的四种方式都可定位到输电铁塔具体位置,却存在改造成本高,计算速度慢,对设备要求高,检测识别精度差等问题。

技术实现思路

[0005]本专利技术的目的是针对现有技术中存在的不足,而提供一种基于STN

pan网络的输电铁塔标识牌文本检测识别方法。这种方法检测识别快,检测难度低,检测精确率高。
[0006]实现本专利技术目的的技术方案是:
[0007]一种基于STN

pan网络的输电铁塔标识牌文本检测识别方法,包括如下步骤:
[0008]步骤1:采集输电铁塔塔牌数据集,将数据集按0.9:0.01:0.09的比例分为训练集、验证集和测试集;
[0009]步骤2:使用带有空洞卷积的迭代FPEM对输入图片进行特征提取:传统的FPEM是基于可分离卷积构建的U形模块,可以以较小的计算开销增强骨干网络提取的多尺度特征,因此pan++的特征提取网络参数规模相比于其他模型较小,但是特征图包含的空间信息也往往比其他方法少,针对此问题,设计一种新的特征提取网络,在FPEM框架的卷积部分加入空洞卷积,增大卷积核的感受野,卷积核感受野大小根据公式(1)计算,以此来增强特征图中
的空间信息,空洞卷积计算如公式(2),同时多增加一层FPEM特征提取层,即对输入图片进行两次特征提取,但并不共享参数,且没有增加网络的深度;与迭代FPN一样,能有效提高特征图中的信息,最终将两次特征提取的特征图根据不同层次经行融合,最终送入检测分支中;
[0010]n=k+(k

1)*(d

1)(1),
[0011]k为卷积核大小,d为空洞因子;
[0012][0013]其中N表示输出大小,W表示输入大小,F表示卷积核大小,P表示填充值的大小,S表示步长大小;
[0014]步骤3:在检测模块加入协调注意力机制,使得网络模型聚焦目标区域;协调注意力机制通过将位置信息嵌入到通道注意力中来做为移动网络中的注意力机,能更加关注坐标信息;而坐标信息将通道注意力分解为两个一维特征编码过程,分别沿两个空间方向聚合特征;通过这种方式沿一个空间方向捕获远程依赖关系,及沿另一个空间方向保留精确的位置信息,然后将得到的特征图单独编码成一对方向感知和位置敏感的注意力图,这些注意力图能互补地应用于输入特征图以增强感兴趣对象的表,同时协调注意力机制的引入没有增加计算开销;然后采用渐进的尺度扩展算法来找到文本区域,即使用模型找到不同文本区域的中心kernel,通过聚类的思想,对kernel周围的像素点进行聚类,计算像素点之间的相似度,将相似度高于阈值的像素点进行合并,即得到需要的文本区域;
[0015]步骤4:对步骤3的文本区域进行文本矫正,然后送入检测网络中;将经过矫正的文本区域输入到一个不规则文字特征提取器Masked RoI和一个基于注意力机制的轻量级识别头;Masked RoI是一个用于为任意形状的文本提取固定大小的特征块的RoI提取器,而轻量级识别头仅包含两层LSTM和两层多头注意力,经过识别模块后,输出识别结果;最终对模型中的参数打包成权重文件。
[0016]所述步骤1的采集过程包括:
[0017]操控无人机用高清摄像机拍摄输电铁塔图像,对原始图像采用镜像翻转、垂直翻转、逆时针45
°
翻转,随机使用4张图片,随机缩放,再随机分布进行拼接、随机的将样本中的部分区域cut掉,并且填充0像素值方法进行图像数据增强,以此构建数据集;再用数据标注工具LabelImg对所有数据集中的图片进行标注,标注图片中的文本区域和文本内容。所述步骤3中协调注意力机制通过精确的位置信息对通道关系和长期依赖性进行编码,具体操作分为Coordinate信息嵌入和Coordinate Attention生成2个步骤:首先通过全局池化进行全局编码,全局池化方法通常用于通道注意编码空间信息的全局编码,由于全局池化方法将全局空间信息压缩到通道描述符中,导致保存位置信息困难,为了促使注意力模块捕捉具有精确位置信息的远程空间交互,按照公式(3)分解全局池化,转化为一对一维特征编码操作:
[0018][0019]即给定输入X,使用尺寸为(H,1)或(1,W)的pooling kernel分别沿着水平坐标和垂直坐标对每个通道进行编码,因此,高度为H的第c通道的输出如公式(4)所示:
[0020][0021]宽度为W的第c通道的输出如公式(5)所示:
[0022][0023]信息嵌入后,使用卷积变换函数,即公式(6)对输入的特征图进行变换操作:
[0024]f=δ(F1([z
h
,z
w
]))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0025]然后生成注意力,输出为其中g
h
=σ(F
h
(f
h
)),g
w
=σ(F
w
(f
w
));然后通过网络模型预测文本中心区域kernel、文本区域和像素间相似度来检测文本;采用渐进的尺度扩展算法,其中kernel作为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于STN

pan网络的输电铁塔标识牌文本检测识别方法,其特征在于,包括如下步骤:步骤1:采集输电铁塔塔牌数据集,将数据集按0.9:0.01:0.09的比例分为训练集、验证集和测试集;步骤2:使用带有空洞卷积的迭代FPEM对输入图片进行特征提取:在FPEM框架的卷积部分加入空洞卷积,增大卷积核的感受野,卷积核感受野大小根据公式(1)计算,以此来增强特征图中的空间信息,空洞卷积计算如公式(2),同时多增加一层FPEM特征提取层,即对输入图片进行两次特征提取,但并不共享参数,且没有增加网络的深度;与迭代FPN一样,能有效提高特征图中的信息,最终将两次特征提取的特征图根据不同层次进行融合,最终送入检测分支中;n=k+(k

1)*(d

1)(1),k为卷积核大小,d为空洞因子;其中N表示输出大小,W表示输入大小,F表示卷积核大小,P表示填充值的大小,S表示步长大小;步骤3:在检测模块加入协调注意力机制,使得网络模型聚焦目标区域:协调注意力机制通过将位置信息嵌入到通道注意力中来做为移动网络中的注意力机,能更加关注坐标信息;而坐标信息将通道注意力分解为两个一维特征编码过程,分别沿两个空间方向聚合特征;通过这种方式沿一个空间方向捕获远程依赖关系,及沿另一个空间方向保留精确的位置信息,然后将得到的特征图单独编码成一对方向感知和位置敏感的注意力图,这些注意力图能互补地应用于输入特征图以增强感兴趣对象的表,同时协调注意力机制的引入没有增加计算开销;然后采用渐进的尺度扩展算法来找到文本区域,即使用模型找到不同文本区域的中心kernel,通过聚类的思想,对kernel周围的像素点进行聚类,计算像素点之间的相似度,将相似度高于阈值的像素点进行合并,即得到需要的文本区域;步骤4:对步骤3的文本区域进行文本矫正,然后送入检测网络中:将经过矫正的文本区域输入到一个不规则文字特征提取器Masked RoI和一个基于注意力机制的轻量级识别头;Masked RoI是一个用于为任意形状的文本提取固定大小的特征块的RoI提取器,而轻量级识别头仅包含两层LSTM和两层多头注意力,经过识别模块后,输出识别结果;最终对模型中的参数打包成权重文件。2.根据权利要求1所述的一种基于STN

pan网络的输电铁塔标识牌文本检测识别方法,其特征在于,所述步骤1的采集过程包括:操控无人机用高清摄像机拍摄输电铁塔图像,对原始图像采用镜像翻转、垂直翻转、逆时针45
°
翻转,随机使用4张图片,随机缩放,再随机分布进行拼接、随机的将样本中的部分区域cut掉,并且采用填充0像素值方法进行图像数据增强,以此构建数据集;再用数据标注工具LabelImg对所有数据集中的图片进行标注,标注图片中的文本区域和文本内容。3.根据权利要求1所述的一种基于STN

pan网络的输电铁塔标识牌文本检测识别方法,其特征在于,所述步骤3中协调注意力机制通过精确的位置信息对通道关系和长期依赖性进行编码,具体操作分为Coordinate信息嵌入和Coordinate Attention生成2个步骤:首先
通过全局池化进行全局编码,全局池化方法通常用于通道注意编码空间信息的全局编码,由于全局池化方法将全局空间信息压缩到通道描述符中,导致保存位置信息困难,为了促使注意力模块捕捉具有精确位置信息的远程空间交互,按照公式(3)分解全局池化,转化为一对一维特征编码操作:即给定输入X,使用尺寸为(H,1)或(1,W)的pooling kernel分别沿着...

【专利技术属性】
技术研发人员:邓珍荣刘宗洋杨睿谢冠鸿蓝如师黄荣
申请(专利权)人:广西景航无人机有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1