融合集束搜索的图像描述生成方法、系统、介质及设备技术方案

技术编号:32340224 阅读:15 留言:0更新日期:2022-02-16 18:48
本发明专利技术公开了基于神经网络的图像描述生成方法,包括:获取图像标注的数据集并得到训练集、验证集和测试集;根据图像描述的句子生成词汇表与词嵌入矩阵;采用神经网络来提取图像的特征并编码为矩阵;创建长短时记忆网络;在图像特征提取网络和长短时记忆网络之间添加全连接层做特征映射;将提取的图像特征与获取的词嵌入矩阵输入到长短时记忆网络中进行训练;以序列生成的方式作为测试集中图像描述生成的方法;在序列生成中添加集束搜索算法寻找最佳的句子表达方式。本发明专利技术方法融合了神经网络和集束搜索算法,提高了图像特征提取的精确度和语义信息表达的流畅度。确度和语义信息表达的流畅度。确度和语义信息表达的流畅度。

【技术实现步骤摘要】
融合集束搜索的图像描述生成方法、系统、介质及设备


[0001]本专利技术涉及图像处理
,具体涉及一种融合集束搜索的图像描述生成方法、系统、介质及设备。

技术介绍

[0002]随着深度学习在各项领域上取得的巨大进步,而计算机视觉和自然语言处理结合的领域更是引起了更多研究者的关注。图像描述生成在很多领域都有着重要的应用,比如在儿童教育领域中,可以应用在“看图说话”任务中,帮助儿童理解图像内容;在医学影像分析中,可以对输入的医学影像图片生成初步的诊断结果,节省医护人员时间;在智慧城市中,可以对大量的交通图像数据进行集中分析,帮助决策管理部门及时掌握城市的动态信息。图像描述生成涉及计算机视觉和自然语言处理两个领域,需要机器能够精确的提取到图像的特征,并且能够用流畅的自然语言对图像中的内容进行描述。
[0003]近年来,研究学者对提取图像的特征和生成可读性的文本方向进行了大量的研究,也提出了许多性能很好的模型,Encoder

Decoder(编码器

解码器)的生成架构就是一个非常好的选择。该生成架构分为编码器和解码器两个部分,编码器部分可以采用卷积神经网络提取图片的特征并编码成一个固定长度的向量,解码器部分可以采用循环神经网络将编码器传输来的向量解码为一个描述语句。对于编码器和解码器中的网络则可以根据具体的任务来进行选择。
[0004]图像描述生成从最早的基于模板的描述方法,发展到基于检索的描述方法,最后逐步发展到现在比较流行的基于神经网络的描述方法。基于模板的描述方法依赖于人工制定的模板,虽然可以保证语句语法架构的规范性,但是忽略了图像与描述文本之间的联系,所生成的描述语句逻辑混乱,可读性较差;基于检索的描述方法是通过检索和图像库中相似的图像,然后根据检索出的图像以及相应的描述标签去生成相应的描述,这种方法可以避免基于模板的图像描述方法导致的语言主体混乱问题,但却不能保证所生成的图像描述能够概括图像的内容。而基于Encoder

Decoder的图像描述生成方法能够解决图像和生成文本之间的逻辑关系以及所生成文本的语言主题混乱问题,但现有的方法中仍存在所生成的文本可读性低的问题。

技术实现思路

[0005]本专利技术提供了一种融合集束搜索的图像描述生成方法、系统、介质及设备,以解决现有技术中所单位文本语言主题混乱、可读性低的问题。
[0006]本专利技术提供了一种融合集束搜索的图像描述生成方法,包括如下步骤:
[0007]步骤1:获取图像描述生成所需要的图像标注数据集,并对图像标注数据集进行预处理,并将预处理后的图像标注数据集分为训练集和测试集;
[0008]步骤2:获取每个图像所标注的描述文本,根据获取的文本构建词汇表以及词表的词嵌入矩阵;
[0009]步骤3:创建编码器模块中的神经网络VGG16,通过神经网络VGG16对输入该编码器的图像进行处理和特征提取;
[0010]步骤4:创建长短期记忆网络的解码器模块,在编码器模块的卷积神经网络输入端和解码器模块的循环神经网络输入端之间添加一层全连接层;
[0011]步骤5:将所述步骤3中所提取的图像特征和所述步骤2中所获得的图像描述文本的词嵌入矩阵输入到长短期记忆网络中,将图像特征和所对应的图像描述文本在长短期记忆网络中进行训练;
[0012]步骤6:在长短期记忆网络的解码器模块中,从预设起始标志开始对每个语句进行预测生成单词,从预设起标志开始对每个语句进行预测生成单词,选取每个时间步长中概率最大的单词作为最佳候选单词集;
[0013]步骤7:利用beam search算法,在最佳候选单词集中选择最大概率分布的单词构成句子,作为描述文本,具体为:
[0014]在第一个时间步长,选取当前条件概率最大的k个词,将k个词作为候选输出序列,之后每个时间步长,基于上个步长的输出序列,挑选出所有序列中条件概率最大的k个,最后从k个候选中挑选出最优的,组合成为最终的图像描述文本。
[0015]进一步地,所述步骤1具体方法如下:
[0016]从所获取的图像标注数据集中切分出一定数量的图像,每个图像对应5条自然语言描述语句,将图像和对应的自然语言描述语句构成训练集;再从剩下的图像标注数据集中划分出与训练集不重复的一定量数据作为测试集。
[0017]进一步地,所述步骤2中构建词汇表以及词表的词嵌入矩阵的步骤如下:
[0018]步骤21:将图像标注数据集中所有的图像描述文本语料转化为一个细分粒度以单词为单位的词汇表;
[0019]步骤22:统计词汇表中的每个单词的词频,以及根据词汇表将每个单词根据词频数排序给定一个编码,即每个单词的索引编号;
[0020]步骤23:将处理后的词汇表输入到word2vec模型中进行训练,最终获得每个词的词嵌入矩阵。
[0021]进一步地,所述步骤3中通过神经网络VGG16对输入该编码器的图像进行处理和特征提取的步骤如下:
[0022]步骤31:对输入的图像进行预处理,从每个像素中减去在训练集上计算的平均RGB值;
[0023]步骤32:将预处理后的图像输入到卷积层中,对图像进行零填充处理,在图像的周围用0进行相应的填充,使得原始图像扩大;
[0024]输出图像特征尺寸可以按照公式(1)

(4)来求得:
[0025]Output Size=W2×
H2×
D2ꢀꢀ
(1)
[0026][0027][0028]D2=K
ꢀꢀ
(4)
[0029]其中,K为卷积核的数量,W为卷积操作输入图像的尺寸,F为卷积核的尺寸,S为操作步长,P为零填充数量;
[0030]步骤33:对填充后的图像使用3*3大小的卷积核捕获图像左右、上下以及中心的特征,滤波器通过与上一层输出的图像进行点积运算,形成新的特征图像,完成特征提前。
[0031]进一步地,所述步骤7中的通过如下公式逐步获取单词的条件概率:
[0032]P(y
<2>
,y
<1>
|x)=P(y
<2>
|y
<1>
,x)P(y
<1>
|x)
[0033]其中,y
<2>
为第二个单词的条件概率输出;y
<1>
为当前单词;x为上一个时间。
[0034]本专利技术还提供了一种融合集束搜索的图像描述生成系统,包括:
[0035]图像上传识别模块,用于获取待描述的图像并提取图像的特征;
[0036]图像特征表示模块,用于利用预训练的VGG16神经网络模型对图像进行零填充、卷积特征提取、池化后得到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合集束搜索的图像描述生成方法,其特征在于,包括如下步骤:步骤1:获取图像描述生成所需要的图像标注数据集,并对图像标注数据集进行预处理,并将预处理后的图像标注数据集分为训练集和测试集;步骤2:获取每个图像所标注的描述文本,根据获取的文本构建词汇表以及词表的词嵌入矩阵;步骤3:创建编码器模块中的神经网络VGG16,通过神经网络VGG16对输入该编码器的图像进行处理和特征提取;步骤4:创建长短期记忆网络的解码器模块,在编码器模块的卷积神经网络输入端和解码器模块的循环神经网络输入端之间添加一层全连接层;步骤5:将所述步骤3中所提取的图像特征和所述步骤2中所获得的图像描述文本的词嵌入矩阵输入到长短期记忆网络中,将图像特征和所对应的图像描述文本在长短期记忆网络中进行训练;步骤6:在长短期记忆网络的解码器模块中,从预设起始标志开始对每个语句进行预测生成单词,从预设起标志开始对每个语句进行预测生成单词,选取每个时间步长中概率最大的单词作为最佳候选单词集;步骤7:利用beam search算法,在最佳候选单词集中选择最大概率分布的单词构成句子,作为描述文本,具体为:在第一个时间步长,选取当前条件概率最大的k个词,将k个词作为候选输出序列,之后每个时间步长,基于上个步长的输出序列,挑选出所有序列中条件概率最大的k个,最后从k个候选中挑选出最优的,组合成为最终的图像描述文本。2.如权利要求1所述的融合集束搜索的图像描述生成方法,其特征在于,所述步骤1具体方法如下:从所获取的图像标注数据集中切分出一定数量的图像,每个图像对应5条自然语言描述语句,将图像和对应的自然语言描述语句构成训练集;再从剩下的图像标注数据集中划分出与训练集不重复的一定量数据作为测试集。3.如权利要求1所述的融合集束搜索的图像描述生成方法,其特征在于,所述步骤2中构建词汇表以及词表的词嵌入矩阵的步骤如下:步骤21:将图像标注数据集中所有的图像描述文本语料转化为一个细分粒度以单词为单位的词汇表;步骤22:统计词汇表中的每个单词的词频,以及根据词汇表将每个单词根据词频数排序给定一个编码,即每个单词的索引编号;步骤23:将处理后的词汇表输入到word2vec模型中进行训练,最终获得每个词的词嵌入矩阵。4.如权利要求1所述的融合集束搜索的图像描述生成方法,其特征在于,所述步骤3中通过神经网络VGG16对输入该编码器的图像进行处理...

【专利技术属性】
技术研发人员:王东升路曼钟家国赵翠平王奇韩斌
申请(专利权)人:江苏科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1