【技术实现步骤摘要】
一种解决模态缺失问题的多模态图像美学质量评价方法
[0001]本专利技术属于图像
,涉及图像美学质量,具体涉及一种解决模态缺失问题的多模态图像美学质量评价方法。
技术介绍
[0002]随着智能手机的普及和互联网的发展,人们在获得大量图片的同时对图像的内容和美感也有了更高的要求。因此,图像美学质量评价吸引了越来越多的研究兴趣,此任务旨在利用计算机模拟人类对美的感知,自动评价图像的美感,是计算美学与计算机视觉、心理学、虚拟现实等交叉研究方向的新挑战。其在照片排名,图像推荐和图像的检索和编辑等方面都有广泛的应用。
[0003]如何区分专业摄影师拍摄的照片和普通用户拍摄的照片,是研究人员在图像美学质量评价领域的最早尝试。摄影规则给了人们一些启发,人们据此设计了一些手工特征用于对图像进行美学决策。这些方法虽然在当时取得了一些成果,但是无法准确捕捉复杂的审美因素,有一定的局限性。之后,随着卷积神经网络的提出与发展,研究者们发现将其应用于图像美学质量评价任务中,这些深度模型会提取大量的与美学相关的特征,从而显著提高图像美学质量评价任务的性能。但是,这些方法大多数是从经典的图像分类网络改编而来,不特定于图像美学质量评价任务并且往往只关注图像特征而没有考虑其他相关的数据源,因此取得的成功有局限性。
[0004]随着互联网的普及,我们生活的现实数字世界本质上是多模态的:网络上的图像通常伴随着文本信息而出现。例如,在photo.net,Instagram等图片分享网站上,都允许用户对图片进行主观评论。文本信息描述了图 ...
【技术保护点】
【技术特征摘要】
1.一种解决模态缺失问题的多模态图像美学质量评价方法,其特征在于,该方法包括以下步骤:步骤1,获取美学数据集,对数据集进行数据清洗和预处理,获得每张图像的图像ID、文本评论信息和标签;步骤2,使用DPC数据集预训练缺失模态重建网络,利用图像的视觉特征重建缺失的文本模态信息;步骤3,建立多模态美学预测网络,所述的多模态美学预测网络包括图像编码器、embedding模型、多模态编码器和美学评分单元;所述的图像编码器用于提取美学数据集中的图像的特征;所述的embedding模型用于计算多模态编码器的输入;所述的多模态编码器用于多模态特征融合,将视觉特征和文本特征进行融合,得到多模态的联合表示向量;所述的美学评分单元,用于基于多模态的联合表示向量计算美学预测概率分布;步骤4,将美学数据集中每张图像的图像ID、文本评论信息和真实标签作为训练集,对多模态美学预测网络进行训练,训练好的多模态美学预测网络作为美学评分分布预测模型,实现多模态图像美学质量评价。2.如权利要求1所述的解决模态缺失问题的多模态图像美学质量评价方法,其特征在于,步骤2包括以下步骤:步骤2.1,统计DPC数据集中出现的不同的单词的数量,做成词汇表;步骤2.2,对于缺少文本模态数据的美学数据集中的样本,基于可用的图像模态重建缺少的文本模态;给定可观测的图像模态,采用卷积神经网络提取视觉特征集x={x1,x2...,x
L
|x
i
∈R
D
};式中:i表示图像特征的顺序,i=1,2,..,L,L表示总共L个位置;x
i
表示第i个位置的图像特征;L表示总共L个位置;R
D
表示视觉特征的维度为D维向量;步骤2.3,计算第i个位置的注意力权重α
t,i
,注意力权重就是衡量在t时刻生成第t个单词时,第i个位置的图像特征所占的权重;e
ti
=f
att
(x
i
,h
t
‑1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式1;式中:f
att
表示计算位置i和时间t的耦合信息的函数;h
t
‑1表示上一时刻的隐藏状态;e
ti
表示在t时刻i位置上的耦合信息;e
tk
表示计算t时刻和共L个位置上第k个位置的耦合信息,是一个中间变量;k表示第k个位置;
步骤2.4,得到注意力权重之后,进而计算上下文向量,计算方式如下所示:计算方式如下所示:式中:表示上下文向量;ψ表示一个函数,在给定一组标注向量及其相应权值的情况下,返回单个向量;步骤2.5,使用LSTM模型作为解码器,将步骤2.4得到的上下文向量和先前生成的单词还有上一时刻的隐藏状态h
t
‑1输入LSTM网络中,LSTM网络通过在每个时刻生成一个单词来生成文本注释,以重建缺失的文本模态信息y;y={y1,y2,...,y
M
|y
j
∈R
A
};式中:j表示生成文本模态信息中单词的顺序,j=1,2,...,M,M表示生成单词的数量;y
j
表示生成的第j个单词;M表示生成单词的数量;A表示词汇表的大小;R
A
表示生成的单词的维度;所述的LSTM网络中:所述的LSTM网络中:所述的LSTM网络中:式中:i
t
表示LSTM网络的输入状态;f
t
表示LSTM网络的遗忘状态;o
t
表示LSTM网络的输出状态;c
t
表示LSTM网络的记忆状态;h
t
表示LSTM网络的隐藏状态;g
t
表示LSTM网络的输入调制器;σ表示sigmoid激活函数;tanh表示tanh激活函数;T表示维度转换操作;D表示视觉特征的维度;
m表示字嵌入的维度;n表示LSTM的维度,E表示一个嵌入矩阵,E∈R
m
×
A
;A表示词汇表的大小;R
m
×
A
表示嵌入矩阵的维度;y
t
‑1表示上一时刻生成的单词;h
t
‑1表示上一时刻的隐藏状态;为上下文向量是LSTM网络的实际输入,表示每次捕获的相应相关图像位置;表示点乘操作;步骤2.6,使用一个深层输出层,计算生成词汇表中每个单词的概率,计算方法如下所示:式中:p表示生成单词的概率;y
t
表示t时刻生成的单词;x表示图像的视觉特征;y
t
‑1表示t
‑
1时刻生成的单词;h
t
表示t时刻的隐藏状态;L0、L
h
、L
z
和E都是随机初始化的矩阵;L
o
∈R
M
×
m
,R
M
×
m
表示L0的维度;L
h
=R
m
×
n
,R
m
×
n
表示L
h
的维度;Lz∈R
m
×
D
,R
m
×
D
表示L
z
的维度;E∈R
m
×
A
,R
m
×
A
表示E的维度;最后,将概率最高的单词作为当前生成的单词,并作为下一次的输入。3.如权利要求1所述的解决模态缺失问题的多模态图像美学质量评价方法,其特征在于,步骤3包括以下步骤:步骤3.1,所述的图像编码器中,使用美学数据集中的图像作为输入;使用去掉全连接层和池化层的Resnet50模型作为图像编码器,并加入一层自适应池化层,使自适应池化层的输出尺寸为P
×
Q,最终得到N=P
×
Q个独立的图像嵌入作为图像的初始视觉特征向量;f(image,c)={r
c
|r
c
∈R
I
,c=1,2,...,N}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式9;式中:f(image,c)表示图像编码器的最后一层自适应池操作的N个输出中的第c个输出;c表示经过自适应池化层得到的初始视觉特征向量的顺序,c=1,2,...N,N表示初始视觉特征向量的个数;image表示美学数据集中的图像;r
c
表示第c个初始视觉特征向量;R
I
表示初始视觉特征向量的维度;步骤3.2,所述的embedding模型中,当输入为美学数据集中的文本评论信息时包括
segment embedding,position embedding和text embedding,最终的多模态输入为三者的和;或当输入为美学数据集中的图像时包括segment embedding,position embedding和image embedding,最终的多模态输入为三者的和;所述的segment embedding用于区分不同的模态,为图像模态和文本模态分别分配一个segment ID,把图像模态的segment ID即s
v
置为0,文本模态的segment ID即s
t
置为1;所述的position embedding代表每个嵌入在segment中的相对位置信息,对每个segment从0开始计数;所述的text embedding中,对于不存在文本模态缺失的样本,输入的是美学数据集中的文本评论信息,对于存在文本模态缺失的样本,输入的是经过步骤2中的缺失模态重建网络重建的文本模态信息;采用与Bert相同的编码方法来处理输入的文本模态信息,首先将一句文本评论划分为一个单词序列,然后使用WordPiece方法对每个单词进行token化,然后将token嵌入转化为d维的特征向量表示;使用t={t1,t2,...,t
G
}∈R
d
表示输入文本序列,G表示文本评论信息中单词的个数,d表示768维的嵌入维度;然后,与segment embedding和position embedding求和;最终一句输入的文本评论可以表示为第i个单词的最终文本特征向量表示通过以下...
【专利技术属性】
技术研发人员:范建平,宋乔,张晓丹,彭先霖,王珺,赵万青,李斌,彭进业,
申请(专利权)人:西北大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。