基于视觉与语义注意力相结合策略的图像描述方法及系统技术方案

技术编号:17008755 阅读:71 留言:0更新日期:2018-01-11 04:47
本发明专利技术公开了基于视觉与语义注意力相结合策略的图像描述方法及系统,步骤:利用卷积神经网络CNN从待生成图像描述的图像中提取图像特征;利用图像的视觉注意力模型对图像特征进行处理,将视觉注意力模型处理过的图像特征送入第一LSTM网络产生单词,然后利用语义注意力模型对产生的单词和预定义的标签进行处理得到语义信息,然后利用第二LSTM网络对语义进行处理得到语义注意力模型生成的单词,重复上述步骤,最后将所有得到的单词进行串联组合,产生图像描述;本发明专利技术的方法不仅利用了输入图像的概述,而且还丰富了视觉语义方面的信息,让生成的句子更能够真实的反应图像的内容。

【技术实现步骤摘要】
基于视觉与语义注意力相结合策略的图像描述方法及系统
本专利技术涉计算机视觉技术和自然语言处理技术,特别是涉及基于视觉与语义注意力相结合策略的图像描述方法及系统。
技术介绍
关于图像描述的研究在机器学习和计算机视觉领域备受关注,这项研究之所以意义重大不仅仅是因为它具有重要的实际应用,最重要的是它还是计算机视觉领域中关于图像理解的一项巨大的挑战。生成对图像有意义的语言描述需要计算机对图像具有一定的理解能力,这远比图像分类和对象检测的任务要复杂的多,图像描述成功的将人工智能领域的两个主要技术自然语言处理和计算机视觉相结合在一起。现有的图像描述方法有两种:自上而下,自下而上。自上而下是从图像的“要点”开始,并将其转化为单词。自下而上则是先从图像入手提取关于图像的单词,然后利用提取的单词来生成描述。语言模型在两种模式中被使用来形成连贯的句子。当前效果比较好的是自上而下的方法,它是基于循环神经网络的一种从图像到句子的端到端的描述,并且这种方法可以从训练数据中学习循环神经网络的所有参数。自上而下的方法的局限性在于它很难看到在图像描述方面很重要的细节问题。自下而上的方法则不会受到此问题的影响。视觉注意力是人类视觉系统中的重要机制,这是一个反馈的过程,它可以将视觉皮层的早期阶段的表示选择性地映射到场景中特定区域这种选择性映射允许大脑在低级图像属性的指导下将计算资源聚焦在对象上。视觉注意机制也在偏向语义的图像的自然语言描述中起着重要的作用。由于在生成句子的过程中当前时刻生成的单词对于上一时刻生成的词的依赖性比较大,当上一时刻生成的单词不准确时,会影响到整个句子的结构与准确性。
技术实现思路
为了解决现有技术的不足,本专利技术提供了基于视觉与语义注意力相结合策略的图像描述方法,提出了新的注意力模型,将自上而下与自下而上的方法有效的串联在一起,具体来讲,本专利技术首先利用图像的视觉注意力模型产生语义,然后将生成的语义与利用图像及对应的描述检测语义概念或属性作为语义注意模型的候选者,最后通过语义模型来预测新词。基于视觉与语义注意力相结合策略的图像描述方法,包括:步骤(1):利用卷积神经网络CNN从待生成图像描述的图像中提取图像特征V;步骤(2):建立视觉注意力模型,判断是否是首次执行,若是,则将步骤(1)的图像特征V输入到视觉注意力模型中,得到经过视觉注意力模型处理后的图像特征Vatt;若不是,则将步骤(1)的图像特征V和t-1时刻语义注意力模型生成的单词Wt-1输入到视觉注意力模型中,得到经过视觉注意力模型处理后的图像特征Vatt;步骤(3):建立第一个LSTM网络,称之为LSTM1网络,LSTM1网络是指供视觉注意力模型使用的LSTM网络;将LSTM1网络的t-1时刻的隐藏层状态和经过视觉注意力模型处理以后的图像特征Vatt送入LSTM1网络,得到视觉注意力模型在t时刻产生的单词Wt';步骤(4):建立语义注意力模型,将视觉注意力模型在t时刻产生的单词Wt'与预定义的标签A一起输入到语义注意力模型中;得到语义注意力模型在t时刻生成的语义信息Et;步骤(5):建立第二个LSTM网络,称之为LSTM2网络,LSTM2网络是指供语义注意力模型使用的LSTM网络;将LSTM2网络在t-1时刻的隐藏层的状态和语义注意力模型在t时刻生成的语义信息Et输入到LSTM2网络中,得到语义注意力模型在t时刻生成的单词Wt;步骤(6):判断是否检测到停止标识,若是,则将得到的所有单词进行串联组合,产生图像描述;若不是,则用步骤(5)得到的单词Wt更新步骤(2)中的Wt-1;同时返回步骤(2),继续执行步骤(2)-(5),直至检测到停止标识。所述步骤(2)的公式:Vatt=fvatt(V),t=0;(1-1)Vatt=fvatt(V,Wt-1),t≥1;(1-2)其中,fvatt(·)表示视觉注意力处理函数,t为整数;所述步骤(2)视觉注意力处理函数:使用卷积神经网络提取的图像特征V是一个LxD维的向量,即将图像划分为L个区域,每个区域用D维的向量表示:V={v1,...,vL},vi∈RD其中,RD表示属于D维度;vi表示第i个图像区域;对于图像的每个区域,视觉注意力分配函数evatt根据图像特征V和语义注意力模型在t-1时刻的生成的单词Wt-1产生一个权重归一化处理:其中,表示视觉注意力模型中第i个图像区域在t时刻的权重;表示视觉注意力模型中第k个图像区域在t时刻的权重;经过视觉注意力模型处理以后的图像特征Vatt:所述步骤(3)的公式为:所述标签是指预先从训练集每幅图像对应的描述图像内容的句子中根据需要提取出的若干个关键词;所述关键词为图像对应的语义信息,所述关键词包括名词和动词;所述步骤(4)的公式为:Et=fsatt(Wt',A);(3)其中,fsatt(·)表示语义注意力处理函数。所述步骤(4)语义注意力处理函数:对视觉注意力模型在t时刻产生的单词Wt'和语义辅助的标签A进行权重β的分配:其中,(Wt',A)表示将Wt'与A连接为一个矩阵;表示语义注意力模型中第i个词在t时刻的权重;对β进行归一化处理:表示语义注意力模型中第k个词在t时刻的权重,z表示标签里的词的个数;生成对当前句子语义的状态Et:所述步骤(5)的公式为:语义注意力模型更加注重于生成的句子的语义结构,因为对于句子的分析单凭视觉概念往往导致语义存在偏差,因此将视觉注意力模型在t时刻产生的单词Wt'与标签A一起传入语义模型中进行语义的完善。对于视觉注意力模型在t时刻产生的单词Wt'与标签A及生成的句子中的单词Wt,本专利技术采用维度为K的one-hot向量来表示:视觉注意力模型在t时刻产生的单词Wt'的向量的维度为1xK。标签用维度为ZxK的向量A来表示:A={A1,..,AZ},Ai∈RK其中K表示词典的大小,Z表示标签的长度,所述标签的长度是固定值。图像生成的句子用维度为C*K的向量W来表示:W={w1,...,wc},wi∈RK其中K表示词典的大小,C表示产生的句子的长度。为了解决现有技术的不足,本专利技术还提供了基于视觉与语义注意力相结合策略的图像描述系统,针对每一时刻生成的词,减小对上一次时刻词的依赖,达到更准确的描述图像的效果。基于视觉与语义注意力相结合策略的图像描述系统,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令在处理器上运行时完成以下步骤:步骤(1):利用卷积神经网络CNN从待生成图像描述的图像中提取图像特征V;步骤(2):建立视觉注意力模型,判断是否是首次执行,若是,则将步骤(1)的图像特征V输入到视觉注意力模型中,得到经过视觉注意力模型处理后的图像特征Vatt;若不是,则将步骤(1)的图像特征V和t-1时刻语义注意力模型生成的单词Wt-1输入到视觉注意力模型中,得到经过视觉注意力模型处理后的图像特征Vatt;步骤(3):建立第一个LSTM网络,称之为LSTM1网络,LSTM1网络是指供视觉注意力模型使用的LSTM网络;将LSTM1网络的t-1时刻的隐藏层状态和经过视觉注意力模型处理以后的图像特征Vatt送入LSTM1网络,得到视觉注意力模型在t时刻产生的单词Wt';步骤(4):建立语义注意力模型,将视觉注意力模型在t时刻产本文档来自技高网
...
基于视觉与语义注意力相结合策略的图像描述方法及系统

【技术保护点】
基于视觉与语义注意力相结合策略的图像描述方法,其特征是,包括:步骤(1):利用卷积神经网络CNN从待生成图像描述的图像中提取图像特征V;步骤(2):建立视觉注意力模型,判断是否是首次执行,若是,则将步骤(1)的图像特征V输入到视觉注意力模型中,得到经过视觉注意力模型处理后的图像特征Vatt;若不是,则将步骤(1)的图像特征V和t‑1时刻语义注意力模型生成的单词Wt‑1输入到视觉注意力模型中,得到经过视觉注意力模型处理后的图像特征Vatt;步骤(3):建立第一个LSTM网络,称之为LSTM1网络,LSTM1网络是指供视觉注意力模型使用的LSTM网络;将LSTM1网络的t‑1时刻的隐藏层状态

【技术特征摘要】
1.基于视觉与语义注意力相结合策略的图像描述方法,其特征是,包括:步骤(1):利用卷积神经网络CNN从待生成图像描述的图像中提取图像特征V;步骤(2):建立视觉注意力模型,判断是否是首次执行,若是,则将步骤(1)的图像特征V输入到视觉注意力模型中,得到经过视觉注意力模型处理后的图像特征Vatt;若不是,则将步骤(1)的图像特征V和t-1时刻语义注意力模型生成的单词Wt-1输入到视觉注意力模型中,得到经过视觉注意力模型处理后的图像特征Vatt;步骤(3):建立第一个LSTM网络,称之为LSTM1网络,LSTM1网络是指供视觉注意力模型使用的LSTM网络;将LSTM1网络的t-1时刻的隐藏层状态和经过视觉注意力模型处理以后的图像特征Vatt送入LSTM1网络,得到视觉注意力模型在t时刻产生的单词Wt';步骤(4):建立语义注意力模型,将视觉注意力模型在t时刻产生的单词Wt'与预定义的标签A一起输入到语义注意力模型中;得到语义注意力模型在t时刻生成的语义信息Et;步骤(5):建立第二个LSTM网络,称之为LSTM2网络,LSTM2网络是指供语义注意力模型使用的LSTM网络;将LSTM2网络在t-1时刻的隐藏层的状态和语义注意力模型在t时刻生成的语义信息Et输入到LSTM2网络中,得到语义注意力模型在t时刻生成的单词Wt;步骤(6):判断是否检测到停止标识,若是,则将得到的所有单词进行串联组合,产生图像描述;若不是,则用步骤(5)得到的单词Wt更新步骤(2)中的Wt-1;同时返回步骤(2),继续执行步骤(2)-(5),直至检测到停止标识。2.如权利要求1所述的基于视觉与语义注意力相结合策略的图像描述方法,其特征是,所述步骤(2)的公式:Vatt=fvatt(V),t=0;(1-1)Vatt=fvatt(V,Wt-1),t≥1;(1-2)其中,fvatt(·)表示视觉注意力处理函数,t为整数。3.如权利要求2所述的基于视觉与语义注意力相结合策略的图像描述方法,其特征是,所述步骤(2)视觉注意力处理函数:使用卷积神经网络提取的图像特征V是一个LxD维的向量,即将图像划分为L个区域,每个区域用D维的向量表示:V={v1,...,vL},vi∈RD其中,RD表示属于D维度;vi表示第i个图像区域;对于图像的每个区域,视觉注意力分配函数evatt根据图像特征V和语义注意力模型在t-1时刻的生成的单词Wt-1产生一个权重归一化处理:其中,表示视觉注意力模型中第i个图像区域在t时刻的权重;表示视觉注意力模型中第k个图像区域在t时刻的权重;经过视觉注意力模型处理以后的图像特征Vatt:4.如权利要求3所述的基于视觉与语义注意力相结合策略的图像描述方法,其特征是,所述步骤(3)的公式为:5.如权利要求1所述的基于视觉与语义注意力相结合策略的图像描述方法,其特征是,所述标签是指预先从训练集每幅图像对应的描述图像内容的句子中根据需要提取出的若干个关键词;所述关键词为图像对应的语义信息,所述关键词包括名词和动词。6.如权利要求4所述的基于视觉与语义注意力相结合策略的图像描述方法,其特征是,所述步骤(4)的公式为:Et=fsatt(Wt',A);(3)其中,fsatt(·)表示语义注意力处理函数。7.如权利要求6所述的基于视觉与语义注意力相结合策略的图像描述方法,其特征是,所述步骤(4)语义注意力处理函数:对视觉注意力模型在t时刻产生的单词Wt'和语义辅助的标签A进行权重β的分配:其中,(Wt',A)表示将Wt'与A连接为一个矩阵;表示语义注意力模型中第i个词在t时刻的权重;对β进行归一化处理:表示语义注意力...

【专利技术属性】
技术研发人员:王雷全褚晓亮魏燚伟吴春雷崔学荣
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1