一种基于Vision Transformer的图像内容描述方法技术

技术编号：42124724 阅读：5 留言：0更新日期：2024-07-25 00:41

本发明专利技术公开了一种基于Vision Transformer的图像内容描述方法。包括：对输入图像进行等比缩放和通道转换的预处理；将输入图像各通道归一化；使用CNN网络提取图像特征；将特征图切片嵌入并进行二维位置编码；使用Vision Transformer通过自注意力的方式编码图像信息；使用目标检测解码器根据查询嵌入并对图像编码信息施加交叉注意力生成图像物体信息；将图像编码信息和图像物体信息堆叠生成图像综合信息；使用文字解码器根据图像综合信息和右移的描述输出逐步生成图像描述；与现有方法相比，本方法在生成图像描述时对图像细节内容具有更好的捕捉能力并且所生成的描述语言更准确更流畅。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及模式识别与人工智能，具体为一种基于vision transformer的图像内容描述方法。

技术介绍

1、图像描述技术，又称为image captioning，是一项旨在使计算机具备“看图说话”能力的任务。它将图像作为输入，通过数学模型和计算，输出对应图像的自然语言描述文字。这一技术在图像处理领域中属于继图像识别、图像分割和目标跟踪之后的新型任务。实现该技术的难点在于，计算机通常只能提取到数字图像的低层数据特征，无法像人类大脑一样生成高层语义信息，即“语义鸿沟”问题。

2、图像描述技术在多个领域有着广泛的应用，例如在新闻传媒业中图像描述可以用于自动生成新闻报道中的图片说明，提高信息传播的效率和质量；针对视觉障碍人群，图像描述技术可以帮助视障人士理解他们无法看到的图像内容；在医学诊断中，图像描述可以帮助医生快速理解和诊断病变部位。

3、图像描述技术的本质是将计算机提取的图像视觉特征转化为高层语义信息，并采用自然语言模型输出，进而解决“语义鸿沟”问题。通过这一技术，计算机可以生成与人类大脑理解相近的对图像的文字描述。

4、深度学习技术的发展推动了图像描述方法的不断优化。深度学习在图像描述中的应用主要采用图像卷积神经网络(cnn)和长短期记忆(lstm)相结合的编码器-解码器模型。其中，cnn在计算机视觉领域得到了广泛应用，它能够有效地提取局部特征，但由于其感受野的限制，可能会在全局范围内丢失信息。另一方面，lstm凭借其出色的长期依赖关系处理能力和基于时序特征的自回归预测特性，展现出

5、transformer是一种基于多头自注意力机制的神经网络架构，它在自然语言处理任务中效果提升显著。与传统的循环神经网络(rnn)及长短期记忆(lstm)使用串行方式处理输入不同，transformer通过多头自注意力机制对整个输入序列进行并行处理。这种处理方式使得transformer在处理长文本时具有出色的表现和优异的性能，它的自注意力机制允许它捕捉全局上下文信息，从而解决了长期依赖问题。

6、同时，transformer也可用在图像处理模型上，其中的一种应用方式称为visiontransformer(vit)。vision transformer将transformer与卷积神经网络结合用于计算机视觉图像处理时，能够达到捕捉局部特征的同时又保留全局信息的目的，实验证明，当训练数据足够时，vision transformer的表现要显著优于卷积神经网络，同时，由于visiontransformer相对与效果相近的cnn网络层数更少，故其更容易训练。

技术实现思路

1、本专利技术针对采用图像卷积神经网络(cnn)和长短期记忆(lstm)相结合的编码器-解码器模型进行图像描述时的细节缺失、描述错误和语言晦涩生硬等问题，提出了一种基于vision transformer的图像内容描述方法，该方法使用结合cnn的vision transformer图像编码器编码图像，使用transformer文字解码器生成描述语言，并结合基于transformer的目标检测解码器，进而提升模型对图片细节的捕捉能力和描述语言的流畅度。

2、为实现上述目的，本专利技术提供如下技术方案，包含以下步骤：

3、步骤1：判断输入图像是否为单通道的黑白图像，如果为黑白图像则进行步骤2，否则直接进行步骤3。

4、步骤2：将图像通道复制三份，分别作为红、绿、蓝三通道，转化为三通道图像。

5、步骤3：将输入图像在保持宽高比例一致的情况下缩放成大小为384×384，对于缩放后图像中空缺的地方采用纯黑像素填充。

6、步骤4：将图像红、绿、蓝三通道分离，并分将三个通道归一化转换为均值为0.458、0.456、0.406，标准差为0.229、0.224、0.225的张量数组t，张量值取值范围为0到1。

7、步骤5：将t输入预训练cnn网络，得到特征图f，f的尺寸为12×12×2048。

8、步骤6：对cnn特征图进行转换处理，使转换后的数据可以输入到visiontransformer图像编码器中。

9、步骤7：将xin输入vision transformer图像编码器对输入的图像信息进行编码，其中，图像编码器由多个编码器块组成，生成编码后的图像信息hi,hi的尺寸为144×512。

10、步骤8：将类查询嵌入eq和图像编码信息hi输入目标检测解码器生成图像物体信息hq，其中，目标检测解码器由多个解码器块组成，所输出hq的尺寸为24×512。

11、步骤9：将hq和hi连接堆叠，得到图像综合信息h，h的尺寸为168×512。

12、步骤10：将上一时刻的图像文字描述ct-1及h输入transformer文字解码器生成描述的下一个文字。

13、步骤11：使用分词器对词ct进行解码，若解码结果不为词“[eos]”则使用ct重复步骤10，否则使用分词器将描述词序列ct解码，得到图像描述语句。

14、步骤6的具体步骤如下：

15、步骤6-1：将特征图f进行切片处理，本实施例中切片大小为1×1，切片后将特征图序列进行二维正余弦位置编码，编码后将特征图展平，得到fl。

16、步骤6-2：将fl输入一个全连接层映射得到xin，xin的尺寸为144×512。

17、步骤7中每个编码器块的具体计算步骤如下：

18、步骤7-1：对输入进行层归一化。

19、步骤7-2：计算多头注意力。

20、步骤7-3：加入残差连接，并再次进行层归一化。

21、步骤7-4：进行前馈层计算。前馈层为一个多层感知机(mlp)模块包含了两个线性变换层，并加入了gelu激活函数在这两个线性变换层之间，让其具有非线性表达能力。输入和输出的维度都是dmodel，并且内置层的维度为2dmodel。

22、步骤中8每个解码器块的具体计算步骤如下：

23、步骤8-1：对输入进行层归一化。

24、步骤8-2：计算多头注意力。

25、步骤8-3：残差连接与层归一化。

26、步骤8-4：计算多头交叉注意力，相比于编码块，每个解码块增加了对外部信息(此处为图像编码hi)的多头交叉注意力机制。

27、步骤8-5：进行残差连接与层归一化。

28、步骤8-6：进行前馈层计算和残差连接。

29、步骤10的具体步骤如下：

30、步骤10-1：将描述词序列ct本文档来自技高网...

【技术保护点】

1.一种基于Vision Transformer的图像内容描述方法，其特征在于；所示方法包括以下步骤：

2.根据权利要求1所述的一种基于Vision Transformer的图像内容描述方法，其特征在于：步骤1、2、3、4中对图像进行预处理，如果为黑白图像则将图像通道复制三份，分别作为红、绿、蓝三通道，转化为三通道图像；然后将输入图像在保持宽高比例一致的情况下缩放成大小为384×384，对于缩放后图像中空缺的地方采用纯黑像素填充；最后将图像红、绿、蓝三通道分离，并分将三个通道归一化转换为均值为0.458、0.456、0.406，标准差为0.229、0.224、0.225的张量数组T，张量值取值范围为0到1。

3.根据权利要求1所述的一种基于Vision Transformer的图像内容描述方法，其特征在于：步骤6中对CNN特征图进行转换处理的具体步骤为：

4.根据权利要求1所述的一种基于Vision Transformer的图像内容描述方法，其特征在于：步骤7中将Xin输入Vision Transformer图像编码器对输入的图像信息进行编码，

5.根据权利要求1所述的一种基于Vision Transformer的图像内容描述方法，其特征在于：步骤8中将类查询嵌入EQ和图像编码信息HI输入目标检测解码器生成图像物体信息HQ，解码器中每个解码器块的具体计算步骤如下：

6.根据权利要求1所述的一种基于Vision Transformer的图像内容描述方法，其特征在于：步骤10将图像文字描述Ct-1及H输入Transformer文字解码器生成描述的下一个文字的具体步骤如下：

...

【技术特征摘要】

1.一种基于vision transformer的图像内容描述方法，其特征在于；所示方法包括以下步骤：

2.根据权利要求1所述的一种基于vision transformer的图像内容描述方法，其特征在于：步骤1、2、3、4中对图像进行预处理，如果为黑白图像则将图像通道复制三份，分别作为红、绿、蓝三通道，转化为三通道图像；然后将输入图像在保持宽高比例一致的情况下缩放成大小为384×384，对于缩放后图像中空缺的地方采用纯黑像素填充；最后将图像红、绿、蓝三通道分离，并分将三个通道归一化转换为均值为0.458、0.456、0.406，标准差为0.229、0.224、0.225的张量数组t，张量值取值范围为0到1。

3.根据权利要求1所述的一种基于vision transformer的图像内容描述方法，其特征在于：步骤6...

【专利技术属性】
技术研发人员：李昊儒，
申请(专利权)人：河海大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人