一种基于多尺度多头信息聚合的图像描述方法技术

技术编号：41537342 阅读：21 留言：0更新日期：2024-06-03 23:16

本发明专利技术公开了一种基于多尺度多头信息聚合的图像描述方法，从多头注意力的角度引入多尺度视觉特征，提升编码器对图像特征进行高层次语义建模时捕获多样性信息的能力。具体来说，我们提出了一种尺度扩展算法来提取高尺度视觉特征，然后对于不同的注意力头引入不同的高尺度视觉特征，以捕获更加丰富的视觉信息。此外，对于编码器的浅层和深层，引入不同层级的高尺度视觉特征，进一步提升编码器的特征表示能力。本方法可以灵活的与现有的基于多头注意力机制的图像描述模型结合，帮助模型提取更加丰富的图像信息，提升图像描述的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉和自然语言处理两个领域，针对图像描述任务，设计了一种基于多尺度多头信息聚合的图像描述方法。

技术介绍

1、图像描述作为把计算机视觉和自然语言处理相结合的跨模态跨领域的任务。一般地，它将输入的图片通过卷积神经网络提取图像特征并利用循环神经网络等方法生成一段文字的描述，这段描述要求和图片的内容高度相似。这要求计算机利用模型来提取图片内的特征以及一些高层语义信息，然后利用自然语言处理的方法表达图片中的内容。相关研究能推动聊天机器人、医学报告自动生成和幼儿早期教育等信息服务领域的发展，因此该任务具有广泛的科学价值和应用前景。

2、最初，传统的图像描述算法是通过模板填充的方法来生成图像描述，它主要是通过局部二值模式、尺度不变特征转换或者方向梯度直方图等算法提取图像的视觉特征，并根据这些特征检测对应目标、动作及属性对应的单词词汇，最后将这些单词填入到模板中。这样的方法虽然能够保证句型语法的正确性，也有着很大的局限性，由于使用的模板是固定的，它也依赖于硬解码的视觉概念影响，这样生成的语句格式相对固定且形式单一，应用的场景也很局限。还有一种是基于检索的方法，它主要是将大量的图片描述存于一个集合中，然后通过比较有标签图片和训练生成图片描述两者间相似度来生成一个候选描述的集合，再从中选择最符合该图片的描述。这样的方法能保证语句的正确性，但语义的正确性却难以保证，因而对图像描述的正确率较低。得益于深度学习的发展，借助深度学习的方法推进跨模态学习成为当前的主流，这也是目前使用最多的基于生成的方法。这类方法的大致流程是

3、近年来，基于多头注意力机制的transformer模型在视觉语言任务上取得了限制成就，因此被成果应用于图像描述任务。与传统的注意力机制相比，多头注意力机制能使模型在不同的表征子空间关注不同的位置信息，因此更适合建模输入序列之间的内在关系，从而生成更加准确的描述。

4、目前流行的图像描述模型通常使用视觉特征提取器来提取栅格图像特征作为模型的输入。然而，直接将卷积神经网络最后一层的特征图输入模型，限制了现有注意力模型准确学习输入视觉特征之间关系的能力。现有的改进图像特征表示的方法主要是在编码器中引入额外视觉特征和在解码器中使用多层级视觉特征。在编码阶段，将多种类型视觉特征(如语义分割特征和目标检测特征)与栅格图像特征融合已被广泛探索，并取得了出色的性能。在解码阶段，同时利用编码器输出的多层级视觉特征也被广泛用于提升图像描述的性能。尽管这些方法在增强图像特征表示方面取得了显著进展，但也引入了额外的视觉特征提取器来获取语义分割特征或目标检测特征，限制了它们在更广泛任务中的应用。此外，这些方法没有充分利用多头注意力通过多头捕获多样性信息的能力。为了解决上述问题，本专利技术从注意力头的角度引入多尺度视觉特征，帮助图像描述模型捕获更加完整的低尺度和高尺度视觉信息，同时为编码器的浅层和深层引入不同层级的高尺度视觉特征，进一步提升编码器的特征表示能力，从而生成更加准确的图像描述。

技术实现思路

1、当前图像描述模型基本都是在编码器-解码器架构上进行改进，编码器和解码器都是基于多头注意力机制；编码器的输入为栅格图像特征，其通过自注意力机制建模栅格图像特征之间的关系；解码器首先对文本序列进行自注意力建模，然后通过交叉注意力机制以自回归的方式生成图像对应的文本描述。由于栅格图像特征可能无法覆盖图像中重要物体的全部区域，因此从编码器得到的图像特征信息不完整，导致解码器无法生成准确的文本描述。为了挖掘图像特征中所蕴含的丰富信息，提升图像描述准确率，本专利技术探索充分利用多头注意力机制捕获多样性信息的能力提取更加丰富的多尺度视觉信息，提升编码器的特征表示能力。本专利技术实现的具体步骤如下：

2、步骤(1)对自然图像和文本描述数据集进行预处理：

3、步骤(1.1)收集自然图像数据集，对于每一张图像i，使用根据所有图像统计得到的均值和方差进行归一化处理，并进行缩放。

4、步骤(1.2)根据图像对应的文本描述构建词表。

5、步骤(2)构建特征提取器提取视觉特征g＝[g1,g2,…gi,…gn]，其中n表示图像i由n个栅格视觉特征组成，gi表示图像的第i个栅格特征。

6、步骤(3)构建高尺度视觉特征提取模块：多头注意力模块的输入是一维序列。为了提取高尺度的视觉特征，需要重构输入图像特征序列的二维几何关系，然后基于原始的低尺度视觉信息提取高尺度的视觉特征。

7、步骤(4)构建多尺度特征融合模块：高尺度的视觉特征融合了其周围的原始低尺度特征的丰富信息，因此我们将提取到的高尺度视觉特征与原始特征融合以增强特征表征能力。

8、步骤(5)构建尺度扩展注意力模块：为了增强多头注意力从不同的特征子空间学习到的特征的多样性，为每个注意力头都引入不同层级的高尺度视觉特征信息。

9、最终，总的损失函数是首先使用交叉熵损失训练模型，然后采用强化学习训练策略微调模型。

10、与现有方法相比，本专利技术具有以下明显的优势和创新：

11、本专利技术提出一种基于多尺度多头信息聚合的图像描述方法，所述方法具有以下特点：1)提出了一种多尺度多头信息聚合模型，该模型整合了多尺度视觉特征以实现更好的信息聚合。本专利技术所提方法通过多尺度多头注意力增强视觉特征的表达能力，从而生成更加准确的文本描述图像中的主要内容。2)提出了一种通用的尺度扩展算法，该算法可以根据给定的尺度扩展因子将固定尺度的二维视觉特征扩展为高尺度的视觉特征。3)在图像描述数据集上的实验证明了本专利技术所提方法的有效性。更重要的是，本专利技术提出的方法是一种通用方法，可以与基于transformer的模型结合，进一步提升现有模型的性能。

本文档来自技高网...

【技术保护点】

1.一种基于多尺度多头信息聚合的图像描述方法，其特征在于，包括如下步骤，(1)对自然图像和文本描述数据集进行预处理；(2)构建特征提取器提取视觉特征G＝[g1,g2,…gi,…gN]，其中N表示图像I由N个栅格视觉特征组成；(3)构建高尺度视觉特征提取模块：多头注意力模块的输入是一维序列，重构输入图像特征序列的二维几何关系，然后基于原始的低尺度视觉信息提取高尺度的视觉特征；(4)构建多尺度特征融合模块：将提取到的高尺度视觉特征与原始特征融合以增强特征表征能力；(5)构建尺度扩展注意力模块：为每个注意力头都引入不同层级的高尺度视觉特征信息。

2.根据权利要求1所述的一种基于多尺度多头信息聚合的图像描述方法，其特征在于：对自然图像和文本描述数据集进行预处理过程如下，

3.根据权利要求1所述的一种基于多尺度多头信息聚合的图像描述方法，其特征在于：使用基于对比学习构建的CLIP图像编码器提取视觉特征G＝[g1,g2,…gi,…gN]，其中N表示图像I由N个栅格特征组成。

4.根据权利要求1所述的一种基于多尺度多头信息聚合的图像描述方法，其特征在于：多头

5.根据权利要求1所述的一种基于多尺度多头信息聚合的图像描述方法，其特征在于：

6.根据权利要求1所述的一种基于多尺度多头信息聚合的图像描述方法，其特征在于：在根据每个头的尺度扩展因子获得融合的视觉特征后，通过输入代表原始尺度的查询向量Q以及融合的视觉特征K′和V′进行自注意力计算；编码器每一层的多头注意力的计算公式如下：

...

【技术特征摘要】

1.一种基于多尺度多头信息聚合的图像描述方法，其特征在于，包括如下步骤，(1)对自然图像和文本描述数据集进行预处理；(2)构建特征提取器提取视觉特征g＝[g1,g2,…gi,…gn]，其中n表示图像i由n个栅格视觉特征组成；(3)构建高尺度视觉特征提取模块：多头注意力模块的输入是一维序列，重构输入图像特征序列的二维几何关系，然后基于原始的低尺度视觉信息提取高尺度的视觉特征；(4)构建多尺度特征融合模块：将提取到的高尺度视觉特征与原始特征融合以增强特征表征能力；(5)构建尺度扩展注意力模块：为每个注意力头都引入不同层级的高尺度视觉特征信息。

2.根据权利要求1所述的一种基于多尺度多头信息聚合的图像描述方法，其特征在于：对自然图像和文本描述数据集进行预处理过程如下，

3.根据权利要求1所述的一种基于多尺度...

【专利技术属性】
技术研发人员：张晓丹，贾奥哲，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人