当前位置: 首页 > 专利查询>西北大学专利>正文

一种解决模态缺失问题的多模态图像美学质量评价方法技术

技术编号:33632122 阅读:35 留言:0更新日期:2022-06-02 01:37
本发明专利技术提供了一种解决模态缺失问题的多模态图像美学质量评价方法,步骤1,获取美学数据集,对数据集进行数据清洗和预处理,获得每张图像的图像ID、文本评论信息和标签;步骤2,使用DPC数据集预训练缺失模态重建网络,利用图像的视觉特征重建缺失的文本模态信息;步骤3,建立多模态美学预测网络,所述的多模态美学预测网络包括图像编码器、embedding模型、多模态编码器和美学评分单元;步骤4,将美学数据集中每张图像的图像ID、文本评论信息和真实标签作为训练集,对多模态美学预测网络进行训练,训练好的多模态美学预测网络作为美学评分分布预测模型,实现多模态图像美学质量评价。使图像信息和文本信息不同模态的信息在多个不同的层次上相互作用。同的层次上相互作用。同的层次上相互作用。

【技术实现步骤摘要】
一种解决模态缺失问题的多模态图像美学质量评价方法


[0001]本专利技术属于图像
,涉及图像美学质量,具体涉及一种解决模态缺失问题的多模态图像美学质量评价方法。

技术介绍

[0002]随着智能手机的普及和互联网的发展,人们在获得大量图片的同时对图像的内容和美感也有了更高的要求。因此,图像美学质量评价吸引了越来越多的研究兴趣,此任务旨在利用计算机模拟人类对美的感知,自动评价图像的美感,是计算美学与计算机视觉、心理学、虚拟现实等交叉研究方向的新挑战。其在照片排名,图像推荐和图像的检索和编辑等方面都有广泛的应用。
[0003]如何区分专业摄影师拍摄的照片和普通用户拍摄的照片,是研究人员在图像美学质量评价领域的最早尝试。摄影规则给了人们一些启发,人们据此设计了一些手工特征用于对图像进行美学决策。这些方法虽然在当时取得了一些成果,但是无法准确捕捉复杂的审美因素,有一定的局限性。之后,随着卷积神经网络的提出与发展,研究者们发现将其应用于图像美学质量评价任务中,这些深度模型会提取大量的与美学相关的特征,从而显著提高图像美学质量评价任务的性能。但是,这些方法大多数是从经典的图像分类网络改编而来,不特定于图像美学质量评价任务并且往往只关注图像特征而没有考虑其他相关的数据源,因此取得的成功有局限性。
[0004]随着互联网的普及,我们生活的现实数字世界本质上是多模态的:网络上的图像通常伴随着文本信息而出现。例如,在photo.net,Instagram等图片分享网站上,都允许用户对图片进行主观评论。文本信息描述了图像的内容及其给带给人们的感受感受,从而有助于图像审美评价任务。多模态学习利用同一任务来自不同模态的互补信息来提高各种计算机视觉任务的性能。并且随着自然语言处理领域各种表现优异的模型的发布,图像美学质量评价领域图像的文本评论信息也引起了研究人员的注意并进行了一些研究。在多模态学习中,各个模态的信息如何进行有效融合是一个关键点。多模态图像美学评估的最新进展,例如Hii等人直接连接multigap提取的视觉特征和RNN提取的文本特征进行美学预测,Zhang等人提出一个称为MSCAN的模型使用co

attention机制捕获多模态特征之间的内在相关性。虽然上述方法取得了一些有效的结果,但是它们使用后期融合方法来融合多模态输入。此方法通常需要多模态数据在训练阶段同时存在。但是,与图像信息相比,文本信息较难获取,因为需要更多的人力和时间,并且文本评论中可能会包含一些与美学内容无关的无效评论。这些因素会导致数据集中缺少文本评论信息。
[0005]针对模态数据缺失的问题,以往多模态学习方法中常用的方法有:(A)丢弃模态数据缺失的样本或直接用零或平均值填充缺失值。(B)构造隐空间中的多模态联合表示对多模态信息进行编码。然而,这些方法要么会导致样本数量减少和一些重要信息的丢失,要么需要同时更新所有样本,这对于图像美学质量评估任务的大规模数据集是不适用的。所以,如何处理模态缺失的问题是利用多模态信息进行图像美学质量评价的关键。

技术实现思路

[0006]针对现有技术存在的不足,本专利技术的目的在于,提供一种解决模态缺失问题的多模态图像美学质量评价方法,以解决现有技术中的多模态方法对多模态信息仅进行单一层次融合忽略它们在不同层次上的相互作用和文本模态缺失的问题。
[0007]为了解决上述技术问题,本专利技术采用如下技术方案予以实现:
[0008]一种解决模态缺失问题的多模态图像美学质量评价方法,该方法包括以下步骤:
[0009]步骤1,获取美学数据集,对数据集进行数据清洗和预处理,获得每张图像的图像ID、文本评论信息和标签;
[0010]步骤2,使用DPC数据集预训练缺失模态重建网络,利用图像的视觉特征重建缺失的文本模态信息;
[0011]步骤3,建立多模态美学预测网络,所述的多模态美学预测网络包括图像编码器、embedding模型、多模态编码器和美学评分单元;
[0012]所述的图像编码器用于提取美学数据集中的图像的特征;
[0013]所述的embedding模型用于计算多模态编码器的输入;
[0014]所述的多模态编码器用于多模态特征融合,将视觉特征和文本特征进行融合,得到多模态的联合表示向量;
[0015]所述的美学评分单元,用于基于多模态的联合表示向量计算美学预测概率分布;
[0016]步骤4,将美学数据集中每张图像的图像ID、文本评论信息和真实标签作为训练集,对多模态美学预测网络进行训练,训练好的多模态美学预测网络作为美学评分分布预测模型,实现多模态图像美学质量评价。
[0017]本专利技术还具有如下技术特征:
[0018]具体的,步骤2包括以下步骤:
[0019]步骤2.1,统计DPC数据集中出现的不同的单词的数量,做成词汇表;
[0020]步骤2.2,对于缺少文本模态数据的美学数据集中的样本,基于可用的图像模态重建缺少的文本模态;给定可观测的图像模态,采用卷积神经网络提取视觉特征集x={x1,x2...,x
L
|x
i
∈R
D
};
[0021]式中:
[0022]i表示图像特征的顺序,i=1,2,..,L,L表示总共L个位置;
[0023]x
i
表示第i个位置的图像特征;
[0024]L表示总共L个位置;
[0025]R
D
表示视觉特征的维度为D维向量;
[0026]步骤2.3,计算第i个位置的注意力权重α
t,i
,注意力权重就是衡量在t时刻生成第t个单词时,第i个位置的图像特征所占的权重;
[0027]e
ti
=f
att
(x
i
,h
t
‑1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式1;
[0028][0029]式中:
[0030]f
att
表示计算位置i和时间t的耦合信息的函数;
[0031]h
t
‑1表示上一时刻的隐藏状态;
[0032]e
ti
表示在t时刻i位置上的耦合信息;
[0033]e
tk
表示计算t时刻和共L个位置上第k个位置的耦合信息,是一个中间变量;
[0034]k表示第k个位置;
[0035]步骤2.4,得到注意力权重之后,进而计算上下文向量,计算方式如下所示:
[0036][0037][0038]式中:
[0039]表示上下文向量;
[0040]ψ表示一个函数,在给定一组标注向量及其相应权值的情况下,返回单个向量;
[0041]步骤2.5,使用LSTM模型作为解码器,将步骤2.4得到的上下文向量和先前生成的单词还有上一时刻的隐藏状态h
t
‑本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种解决模态缺失问题的多模态图像美学质量评价方法,其特征在于,该方法包括以下步骤:步骤1,获取美学数据集,对数据集进行数据清洗和预处理,获得每张图像的图像ID、文本评论信息和标签;步骤2,使用DPC数据集预训练缺失模态重建网络,利用图像的视觉特征重建缺失的文本模态信息;步骤3,建立多模态美学预测网络,所述的多模态美学预测网络包括图像编码器、embedding模型、多模态编码器和美学评分单元;所述的图像编码器用于提取美学数据集中的图像的特征;所述的embedding模型用于计算多模态编码器的输入;所述的多模态编码器用于多模态特征融合,将视觉特征和文本特征进行融合,得到多模态的联合表示向量;所述的美学评分单元,用于基于多模态的联合表示向量计算美学预测概率分布;步骤4,将美学数据集中每张图像的图像ID、文本评论信息和真实标签作为训练集,对多模态美学预测网络进行训练,训练好的多模态美学预测网络作为美学评分分布预测模型,实现多模态图像美学质量评价。2.如权利要求1所述的解决模态缺失问题的多模态图像美学质量评价方法,其特征在于,步骤2包括以下步骤:步骤2.1,统计DPC数据集中出现的不同的单词的数量,做成词汇表;步骤2.2,对于缺少文本模态数据的美学数据集中的样本,基于可用的图像模态重建缺少的文本模态;给定可观测的图像模态,采用卷积神经网络提取视觉特征集x={x1,x2...,x
L
|x
i
∈R
D
};式中:i表示图像特征的顺序,i=1,2,..,L,L表示总共L个位置;x
i
表示第i个位置的图像特征;L表示总共L个位置;R
D
表示视觉特征的维度为D维向量;步骤2.3,计算第i个位置的注意力权重α
t,i
,注意力权重就是衡量在t时刻生成第t个单词时,第i个位置的图像特征所占的权重;e
ti
=f
att
(x
i
,h
t
‑1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式1;式中:f
att
表示计算位置i和时间t的耦合信息的函数;h
t
‑1表示上一时刻的隐藏状态;e
ti
表示在t时刻i位置上的耦合信息;e
tk
表示计算t时刻和共L个位置上第k个位置的耦合信息,是一个中间变量;k表示第k个位置;
步骤2.4,得到注意力权重之后,进而计算上下文向量,计算方式如下所示:计算方式如下所示:式中:表示上下文向量;ψ表示一个函数,在给定一组标注向量及其相应权值的情况下,返回单个向量;步骤2.5,使用LSTM模型作为解码器,将步骤2.4得到的上下文向量和先前生成的单词还有上一时刻的隐藏状态h
t
‑1输入LSTM网络中,LSTM网络通过在每个时刻生成一个单词来生成文本注释,以重建缺失的文本模态信息y;y={y1,y2,...,y
M
|y
j
∈R
A
};式中:j表示生成文本模态信息中单词的顺序,j=1,2,...,M,M表示生成单词的数量;y
j
表示生成的第j个单词;M表示生成单词的数量;A表示词汇表的大小;R
A
表示生成的单词的维度;所述的LSTM网络中:所述的LSTM网络中:所述的LSTM网络中:式中:i
t
表示LSTM网络的输入状态;f
t
表示LSTM网络的遗忘状态;o
t
表示LSTM网络的输出状态;c
t
表示LSTM网络的记忆状态;h
t
表示LSTM网络的隐藏状态;g
t
表示LSTM网络的输入调制器;σ表示sigmoid激活函数;tanh表示tanh激活函数;T表示维度转换操作;D表示视觉特征的维度;
m表示字嵌入的维度;n表示LSTM的维度,E表示一个嵌入矩阵,E∈R
m
×
A
;A表示词汇表的大小;R
m
×
A
表示嵌入矩阵的维度;y
t
‑1表示上一时刻生成的单词;h
t
‑1表示上一时刻的隐藏状态;为上下文向量是LSTM网络的实际输入,表示每次捕获的相应相关图像位置;表示点乘操作;步骤2.6,使用一个深层输出层,计算生成词汇表中每个单词的概率,计算方法如下所示:式中:p表示生成单词的概率;y
t
表示t时刻生成的单词;x表示图像的视觉特征;y
t
‑1表示t

1时刻生成的单词;h
t
表示t时刻的隐藏状态;L0、L
h
、L
z
和E都是随机初始化的矩阵;L
o
∈R
M
×
m
,R
M
×
m
表示L0的维度;L
h
=R
m
×
n
,R
m
×
n
表示L
h
的维度;Lz∈R
m
×
D
,R
m
×
D
表示L
z
的维度;E∈R
m
×
A
,R
m
×
A
表示E的维度;最后,将概率最高的单词作为当前生成的单词,并作为下一次的输入。3.如权利要求1所述的解决模态缺失问题的多模态图像美学质量评价方法,其特征在于,步骤3包括以下步骤:步骤3.1,所述的图像编码器中,使用美学数据集中的图像作为输入;使用去掉全连接层和池化层的Resnet50模型作为图像编码器,并加入一层自适应池化层,使自适应池化层的输出尺寸为P
×
Q,最终得到N=P
×
Q个独立的图像嵌入作为图像的初始视觉特征向量;f(image,c)={r
c
|r
c
∈R
I
,c=1,2,...,N}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式9;式中:f(image,c)表示图像编码器的最后一层自适应池操作的N个输出中的第c个输出;c表示经过自适应池化层得到的初始视觉特征向量的顺序,c=1,2,...N,N表示初始视觉特征向量的个数;image表示美学数据集中的图像;r
c
表示第c个初始视觉特征向量;R
I
表示初始视觉特征向量的维度;步骤3.2,所述的embedding模型中,当输入为美学数据集中的文本评论信息时包括
segment embedding,position embedding和text embedding,最终的多模态输入为三者的和;或当输入为美学数据集中的图像时包括segment embedding,position embedding和image embedding,最终的多模态输入为三者的和;所述的segment embedding用于区分不同的模态,为图像模态和文本模态分别分配一个segment ID,把图像模态的segment ID即s
v
置为0,文本模态的segment ID即s
t
置为1;所述的position embedding代表每个嵌入在segment中的相对位置信息,对每个segment从0开始计数;所述的text embedding中,对于不存在文本模态缺失的样本,输入的是美学数据集中的文本评论信息,对于存在文本模态缺失的样本,输入的是经过步骤2中的缺失模态重建网络重建的文本模态信息;采用与Bert相同的编码方法来处理输入的文本模态信息,首先将一句文本评论划分为一个单词序列,然后使用WordPiece方法对每个单词进行token化,然后将token嵌入转化为d维的特征向量表示;使用t={t1,t2,...,t
G
}∈R
d
表示输入文本序列,G表示文本评论信息中单词的个数,d表示768维的嵌入维度;然后,与segment embedding和position embedding求和;最终一句输入的文本评论可以表示为第i个单词的最终文本特征向量表示通过以下...

【专利技术属性】
技术研发人员:范建平宋乔张晓丹彭先霖王珺赵万青李斌彭进业
申请(专利权)人:西北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1