基于多层解码器动态融合网络的图像描述生成方法及系统技术方案

技术编号：40082223 阅读：8 留言：0更新日期：2024-01-23 14:54

本发明专利技术公开了基于多层解码器动态融合网络的图像描述生成方法及系统，属于图像识别处理技术领域，包括：S1、采用卷积神经网络对输入图像进行视觉特征和语义特征进行提取；S2、采用标准解码进行特征的融合；S3、将所述图像的视觉特征编码通过联级多层解码器进行提取，得到提取主要重要特征；S4、通过自适应注意力机制和动态融合门机制处理所述主要重要特征，并生成图像描述语句。本发明专利技术通过级联多层解码器来实现注意力机制的逐步精确化，结合融合门机制，动态的自适应融合生成的文本信息，提高图像理解的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像识别处理，具体涉及基于多层解码器动态融合网络的图像描述生成方法及系统。

技术介绍

1、图像转文字的应用在众多领域有着重要的应用，比如屏幕字幕自动生成、基于图像的检索等领域。

2、目前已有的技术和算法，对图像描述生成的处理效果都不理想。随着深度神经网络的发展，给图像转文字领域带来了一线希望。使用卷积神经网络(cnn)来对图像进行特征提取，再使用循环神经网络(rnn)对图像的特征进行描述，这种方式通常称为编码-解码方式。使用编码-解码方式进行图像转文字处理，可以提高图像转文本的转换准确性。但是，虽然可以生成描述，但是描述的内容往往模糊，不够清楚，反应事物真是情况的描述性较差。

3、例如如下申请中：(1)申请专利号：cn110879849a“一种基于图像转文字的相似度比较方法及装置”；(2)申请号：2022116628049“基于transformer的场景图像文字修改方法、装置、电子设备及存储介质”；(3)申请号：2022111491001“基于多尺度特征聚合的场景图像文字检测方法”；(4)申请号：2022109227956“图像文字行检测方法及装置”，上述专利中宣称能够对图像进行语言识别，但是能够达到的效果非常有限；虽然有图像转语言的能力，但是描述的准确度较差，不足以描述图中确实的含义。

4、在图像转语言领域，对一幅图生成的描述好坏可以定义明确的标准，比如mscoco2014数据集就广泛应用于目标检测和图像理解算法使用的通用数据集，该数据集包含80,000多张训练图像和40,0

技术实现思路

1、针对现有技术中存在的图像描述生成的处理效果都不理想等问题，本专利技术提供了基于多层解码器动态融合网络的图像描述生成方法及系统，本专利技术的方法是采用网络模型对mscoco 2014数据集进行训练和测试，解决了传统解码器梯度消失的问题，从而生成更加准确的图像描述；结果表明方法具有较好的预测效果，其中，在ms coco数据集中，bleu-1值提高了0.096，rouge_l值提高了0.153，cider值提高了0.32。其中，bleu指标关注准确率，是一种通过对比预测序列中的n元组在真实标签中出现的次数来分析文本相似性的一种评价指标；rouge指标关注召回率，是一种通过对比真实标签中的n元组未出现在预测序列中的次数来分析文本相似性的一种评价指标；meteor指标是综合考虑召回率和准确率的一种评价指标；spice指标使用probabilistic context-free grammar(pcfg)将预测的序列和真实的标签编码成一种语义依赖树，并通过一定的规则将其进行映射，利用这种方式来获取评价分数。cider指标采用余弦相似度结合的方式来预测描述与参考句子的相似性，更适宜于评价句子描述的好坏，在图像理解领域中使用最多。

2、本专利技术通过如下技术方案实现：

3、基于多层解码器动态融合网络的图像描述生成方法，具体包括如下步骤：

4、s1、采用卷积神经网络对输入图像进行视觉特征和语义特征进行提取；

5、s2、采用标准解码进行特征的融合；

6、s3、将所述图像的视觉特征编码通过联级多层解码器进行提取，得到提取主要重要特征；

7、s4、通过自适应注意力机制和动态融合门机制处理所述主要重要特征，并生成图像描述语句。

8、进一步地，步骤s1具体包括如下内容：

9、s11：将输入图像标准化，即将每一幅输入图像都处理成224×224大小，并将图像中的每一个自然语言描述语句与该图像成对保存，一个图像-自然语言语句作为一个图像理解数据；

10、s12：获取所有图像理解数据中具有最长序列的自然语言语句的长度，然后采用填充符将剩下的自然语言语句的序列填充至该长度，并且重新保存填充完毕的图像理解数据；

11、s13：采用卷积神经网络对输入图像进行特征提取，随后生成一个标注向量组α：

12、α＝[α1,α2,...,αl]；αi∈rd， (1)

13、该向量中αi是标注，d是标注语句的个数，α中每一个向量αi均对应输入图像的一个区域的d维表达。

14、进一步地，步骤s2中，标准解码器结构由1个跨模态注意力模块和1个文本生成模块组成，其中，跨模态注意力模块是通过点乘的注意力机制来建立文本与图像之间的联系，该模块以查询矩阵q∈rm×d、键矩阵k∈rn×d和值矩阵v∈rn×d作为输入；

15、在图像描述的任务当中，将视觉特征编码矩阵x和文本序列编码矩阵y作为输入；标准解码器中的跨模态模块将x和y映射形成查询矩阵q、值矩阵v和键矩阵k；

16、q∈rm×d：查询矩阵，m是采样个数；d是标注向量维数；

17、k∈rn×d：键矩阵，n是采样个数；d是标注向量维数；

18、v∈rn×d：值矩阵，n是采样个数；d是标注向量维数。

19、进一步地，步骤s2具体包括如下内容：

20、s21：计算查询矩阵和键矩阵之间的相似性来进一步推出权重矩阵，公式为：

21、

22、式中，α表示不同值向量对应的注意力权重，ψ(q,k)是计算权重的函数，权重越大表示对应的值向量与查询矩阵的相似性越大；fsoftmax函数是标准归一化函数，定义为：这里表示每一个输出结果对应的概率值；

23、s22：结合权重矩阵和值矩阵，对不同的值向量进行加权融合，经注意力机制聚焦后表示为：

24、z＝fattention(q,k,v)＝ψ(q,k)v (3)

25、fattention是注意力函数，表示ψ(q,k)与值矩阵v的乘积，是注意力机制聚焦后得到的矩阵；

26、s23：通过多头注意力机制预测下一时刻输出单词，再经过前馈神经网络输出最终的特征向量f，具体如下：

27、f＝ffn(z)＝fattention(wqy,wkx,wvx) (4)

28、注意力函数fattention中，wq、wk和wv是自己定义的可学习的参数，x是视觉特征编码矩阵，y是文本序列编码矩阵，因此fnn()代表前馈神经网络的计算函数；

29、文本序列的编码矩阵由前面所有的预测单词y1,t-1经过掩膜化自注意力操作形成编码；

30、y＝samask(y1,t-1) (5)

31、式中，samask()是经过掩膜化的自注意力函数，掩膜化自注意本文档来自技高网...

【技术保护点】

1.基于多层解码器动态融合网络的图像描述生成方法，其特征在于，具体包括如下步骤：

2.如权利要求1所述的基于多层解码器动态融合网络的图像描述生成方法，其特征在于，步骤S1具体包括如下内容：

3.如权利要求1所述的基于多层解码器动态融合网络的图像描述生成方法，其特征在于，步骤S2中，标准解码器结构由1个跨模态注意力模块和1个文本生成模块组成，其中，跨模态注意力模块是通过点乘的注意力机制来建立文本与图像之间的联系，该模块以查询矩阵Q∈RM×d、键矩阵K∈RN×d和值矩阵V∈RN×d作为输入；

4.如权利要求1所述的基于多层解码器动态融合网络的图像描述生成方法，其特征在于，步骤S2具体包括如下内容：

5.如权利要求1所述的基于多层解码器动态融合网络的图像描述生成方法，其特征在于，步骤S3具体包括如下内容：

6.如权利要求1所述的基于多层解码器动态融合网络的图像描述生成方法，其特征在于，步骤S4具体包括如下内容：

7.基于多层解码器动态融合网络的图像描述生成系统，用于实现如权利要求1-6任一项所述的方法，其特征在于，包括：

8.如权利要求1所述的基于多层解码器动态融合网络的图像描述生成系统，其特征在于，所述重要特征提取模块包括联级多层解码器，所述联级多层解码器由多层解码器组成，第一层解码器在t时刻之前输出的单词为{y1,y2,…,yt-1}，t时刻的输出为第s层解码器在t时刻时结合上一层解码器预测的单词和之前所有的预测词y1,t-1，经过掩膜化自注意力操作形成编码；

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1-6任一项所述的基于多层解码器动态融合网络的图像描述生成方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-6任一项所述的基于多层解码器动态融合网络的图像描述生成方法。

...

【技术特征摘要】

1.基于多层解码器动态融合网络的图像描述生成方法，其特征在于，具体包括如下步骤：

2.如权利要求1所述的基于多层解码器动态融合网络的图像描述生成方法，其特征在于，步骤s1具体包括如下内容：

3.如权利要求1所述的基于多层解码器动态融合网络的图像描述生成方法，其特征在于，步骤s2中，标准解码器结构由1个跨模态注意力模块和1个文本生成模块组成，其中，跨模态注意力模块是通过点乘的注意力机制来建立文本与图像之间的联系，该模块以查询矩阵q∈rm×d、键矩阵k∈rn×d和值矩阵v∈rn×d作为输入；

4.如权利要求1所述的基于多层解码器动态融合网络的图像描述生成方法，其特征在于，步骤s2具体包括如下内容：

5.如权利要求1所述的基于多层解码器动态融合网络的图像描述生成方法，其特征在于，步骤s3具体包括如下内容：

6.如权利要求1所述的基于多层解码器动态融合网络的图像描述生成方法，其特征在于，步骤s4具体包括如下内容：...

【专利技术属性】
技术研发人员：古田，杨小杰，王国勇，马天生，姜涛，王洋，唐溟伟，
申请(专利权)人：中国第一汽车股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人