当前位置: 首页 > 专利查询>重庆大学专利>正文

一种基于局部特征增强和并行解码器的图像标注方法技术

技术编号:36560793 阅读:10 留言:0更新日期:2023-02-04 17:16
本发明专利技术公开了一种基于局部特征增强和并行解码器的图像标注方法,包括如下步骤:从目标图片数据中提取图像特征;将所述图像特征输入预先训练完成的图像标注模型中;所述图像标注模型包括:局部特征增强的编码器模块、单词组预测模块和并行预测单词的解码器模块;输出所述目标图片数据的图像标注。本发明专利技术基于图像标注模型,通过其构建的局部特征增强的编码器模块、单词组预测模块和并行预测单词的解码器模块,能有效地捕获图像特征和输入标注之间的关系,生成图像标注,从而提高图像标注的速度和灵活性。和灵活性。和灵活性。

【技术实现步骤摘要】
一种基于局部特征增强和并行解码器的图像标注方法


[0001]本专利技术涉及图像处理
,特别涉及一种基于局部特征增强和并行解码器的图像标注方法。

技术介绍

[0002]图像标注由于其在儿童早期教育、盲人援助和智能导航等领域具有广泛的应用前景,因而吸引了越来越多人的关注。同时,在图像标注中,准确率和速度是两个关键的因素。然而,由于产生标注的方式不同,生成的标注同时兼顾这两种指标并不容易。因此,设计一个快速且误差小的图像标注方法仍是一个挑战。现有的图像标注方法可以分为两个方向,一个方向是自回归解码器,另一个方向是非自回归解码器。自回归解码器一般采用逐词生成的方式,其中需要预测的单词需要依靠前面已经生成的句子和图像特征作为输入,每次只能产生一个单词。另一个分支是非自回归解码器,只需要输入图像特征,就可以一次性生成所有的标注。自回归解码器存在计算复杂度非常高的缺点,非自回归解码器能快速生成标注,但是准确率较低,且存在生成的标注会存在重复等问题。
[0003]因此,设计一种快速的图像标注模型并降低误差仍然是图像标注领域的一项紧急的任务。近年来一些有效的算法被陆续提出,但它们仍然存在以下问题。首先,图像特征之间的局部特征往往被忽略,并且通常没有与全局特征有效结合。其次,标注的生成过程中需要删除产生的重复的单词组,通常会带来额外的时间开销。最后,标注生成的过程的灵活性也很重要,近年来一些方法取得了不错的结果,但每一步只能生成固定长度的单词组。因此,在现有图像标注方法的基础上,如何快速灵活准确地生成标注,成为本领域技术人员亟需解决的问题。

技术实现思路

[0004]本专利技术的目的在于提供一种基于局部特征增强和并行解码器的图像标注方法,解决了现有技术中无法对图像快速灵活准确地生成标注的问题。
[0005]为实现上述目的,本专利技术采取的技术方案为:
[0006]本专利技术提供一种基于局部特征增强和并行解码器的图像标注方法,包括如下步骤:
[0007]S1、从目标图片数据中提取图像特征;
[0008]S2、将所述图像特征输入预先训练完成的图像标注模型中;所述图像标注模型包括:局部特征增强的编码器模块、单词组预测模块和并行预测单词的解码器模块;
[0009]S3、输出所述目标图片数据的图像标注。
[0010]进一步地,所述步骤S2中的图像标注模型训练过程包括:
[0011]S21、从训练图片数据中提取图像特征,对所述训练图片数据对应的真实标注进行句法分析,将真实标注划分成不同的单词组,构建训练所需样本数据集;
[0012]S22、将所述图像特征输入到局部特征增强的编码器模块中,利用多头自注意力机
制和残差网络分别提取图像特征之间的全局和局部特征,融合所述全局和局部特征;
[0013]S23、将需要预测的标注分成k个单词组,通过所述编码器输出的特征预测第k个单词组的单词数,根据步骤S21中划分的单词组,结合标注中当前位置的单词是否需要参与下一个单词组的预测,设计解码器的掩码矩阵;
[0014]S24、在并行预测单词的解码器模块中,通过所述编码器输出的特征和对应的真实标注,结合步骤S23中的掩码矩阵,预测每一个单词组中,每一个单词的向量,最终得到解码器的输出向量;
[0015]S25、根据所述解码器的输出向量,针对每一个位置的单词,利用预测概率最大的单词表示当前位置的单词,并连接所有单词形成最终结果,作为所述训练图片数据的预测图像标注;
[0016]S26、通过计算所述训练图片数据的预测图像标注与对应的真实标注的交叉熵损失,以及预测的k个单词组的单词数和划分的单词数之间的均方误差,生成总体损失函数;根据所述总体损失函数对所述图像标注模型进行训练。
[0017]进一步地,所述步骤S1包括:
[0018]采用骨干网络为ResNet101的Faster

RCNN,从目标图片数据中获取图像特征。
[0019]进一步地,所述步骤S22中,利用多头自注意力机制提取图像特征之间的全局特征:
[0020]GF(X)=Attention(XW
q
,XW
k
,XW
v
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0021](1)式中,X表示图像特征;GF(X)表示全局特征;Attention表示自注意力操作,W
q
,W
k
,W
v
分别表示查询、键和值的权重矩阵。
[0022]进一步地,所述步骤S22中,利用残差网络提取图像特征之间的局部特征:
[0023]LF(X)=δ(BN(Conv(X)+X))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0024](2)式中,LF(X)表示经过残差网络计算后的局部特征;Conv和BN分别表示卷积和批归一化操作,δ表示Relu激活函数。
[0025]进一步地,所述步骤S22中,融合所述全局和局部特征,包括:
[0026]1)初次融合所述全局和局部特征:
[0027]X'=GF(X)+LF(X)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0028]上式中,X'表示表示局部特征增强后的全局特征;
[0029]2)二次融合:
[0030]Y=LayerNorm(X'+FFN(X'))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0031]上式中,Y表示编码器的输出;LayerNorm表示层归一化操作,FFN表示前馈神经网络。
[0032]进一步地,所述步骤S23中,通过所述编码器输出的特征预测第k个单词组的单词数,包括:
[0033]采用如下公式对所述编码器输出的特征预测第k个单词组的单词数:
[0034]s
k
=δ(Y'W
l
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0035]上式中,s
k
表示第k个单词组的单词数;δ表示Relu激活函数;Y'表示Y展开后得到的一维向量;W
l
表示投影矩阵,将Y'投影到指定的维度大小。
[0036]进一步地,所述步骤S23中,设计解码器的掩码矩阵,包括:
[0037]修改自注意力机制中的掩码矩阵,替换解码器的掩码矩阵:
[0038][0039]上式中,M
ij
表示修改后的解码器的掩码矩阵,i表示矩阵的第i个单词,j表示矩阵的第j个单词,allow表示当前单词参与预测,disallow表示第i个单词和第j个单词的相似度为

∞,即当前单词不参与预测。
[0040]进一步地,所述步骤S24包括:
[0041]S241、对真实标注进行词向量嵌入和位置编码,将其相加后作为标注向量,输入到解码器中;
[0042]S2本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于局部特征增强和并行解码器的图像标注方法,其特征在于,包括如下步骤:S1、从目标图片数据中提取图像特征;S2、将所述图像特征输入预先训练完成的图像标注模型中;所述图像标注模型包括:局部特征增强的编码器模块、单词组预测模块和并行预测单词的解码器模块;S3、输出所述目标图片数据的图像标注。2.根据权利要求1所述的一种基于局部特征增强和并行解码器的图像标注方法,其特征在于,所述步骤S2中的图像标注模型训练过程包括:S21、从训练图片数据中提取图像特征,对所述训练图片数据对应的真实标注进行句法分析,将真实标注划分成不同的单词组,构建训练所需样本数据集;S22、将所述图像特征输入到局部特征增强的编码器模块中,利用多头自注意力机制和残差网络分别提取图像特征之间的全局和局部特征,融合所述全局和局部特征;S23、将需要预测的标注分成k个单词组,通过所述编码器输出的特征预测第k个单词组的单词数,根据步骤S21中划分的单词组,结合标注中当前位置的单词是否需要参与下一个单词组的预测,设计解码器的掩码矩阵;S24、在并行预测单词的解码器模块中,通过所述编码器输出的特征和对应的真实标注,结合步骤S23中的掩码矩阵,预测每一个单词组中,每一个单词的向量,最终得到解码器的输出向量;S25、根据所述解码器的输出向量,针对每一个位置的单词,利用预测概率最大的单词表示当前位置的单词,并连接所有单词形成最终结果,作为所述训练图片数据的预测图像标注;S26、通过计算所述训练图片数据的预测图像标注与对应的真实标注的交叉熵损失,以及预测的k个单词组的单词数和划分的单词数之间的均方误差,生成总体损失函数;根据所述总体损失函数对所述图像标注模型进行训练。3.根据权利要求2所述的一种基于局部特征增强和并行解码器的图像标注方法,其特征在于,所述步骤S1包括:采用骨干网络为ResNet101的Faster

RCNN,从目标图片数据中获取图像特征。4.根据权利要求2所述的一种基于局部特征增强和并行解码器的图像标注方法,其特征在于,所述步骤S22中,利用多头自注意力机制提取图像特征之间的全局特征:GF(X)=Attention(XW
q
,XW
k
,XW
v
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)(1)式中,X表示图像特征;GF(X)表示全局特征;Attention表示自注意力操作,W
q
,W
k
,W
v
分别表示查询、键和值的权重矩阵。5.根据权利要求4所述的一种基于局部特征增强和并行解码器的图像标注方法,其特征在于,所述步骤S22中,利用残差网络提取图像特征之间的局部特征:LF(X)=δ(BN(Conv(X)+X))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)(2)式中,LF(X)表示经过残差网络计算后的局部特征;Conv和BN分别表示卷积和批归一化操作,δ表示Relu激活函数。6.根据权利要求5所述的一种基于局部特征增强和并行解码器的图像标注方法,其特征在于,所述步骤S22中,融合所述全局和局部特征,包括:1)初次融合所述全局和局部特征:
X'=GF(X)+LF(X)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)上式中,X'表示表示局部特征增强...

【专利技术属性】
技术研发人员:周明亮韦沛浪蒲华燕罗均魏雪凯向涛房斌
申请(专利权)人:重庆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1