当前位置: 首页 > 专利查询>福州大学专利>正文

融合局部和全局图像特征的多模态图像美学质量评价方法技术

技术编号:37377617 阅读:15 留言:0更新日期:2023-04-27 07:20
本发明专利技术涉及融合局部和全局图像特征的多模态图像美学质量评价方法,包括以下步骤:步骤S1:将美学图像数据集中的数据进行数据预处理,得到美学图像以及文本编码矩阵,并将数据集划分为训练集与测试集;步骤S2:设计融合局部特征和全局特征的图像特征提取子网络;步骤S3:设计文本特征提取子网络;步骤S4:设计融合局部和全局图像特征的多模态图像美学质量评价网络;步骤S5:将测试图像输入到训练好的融合局部和全局图像特征的多模态图像美学质量评分分布预测模型中。该算法能进行图像美学评分分布预测,提高图像美学质量评价算法的性能。能。能。

【技术实现步骤摘要】
融合局部和全局图像特征的多模态图像美学质量评价方法


[0001]本专利技术涉及图像处理以及计算机视觉
,特别是一种融合局部和全局图像特征的多模态图像美学质量评价方法。

技术介绍

[0002]随着互联网技术的普及,图像、视频等信息日益剧增,其中图像信息最为直观且包含的信息量大。但由于人们对美感的需求增加,图像美学质量的优劣成为了人们关注的重点。审美价值的产生是人们在视觉和精神方面上对美学感受的追求,从美学角度来评价图像,是将其向精神方向发展的一种重要体现。图像美学质量的高低衡量了一幅图像在人类眼中视觉吸引力的强弱,因此人们通常都希望自己获得的图像是具有较高的视觉美学质量。图像美学质量评价是指利用计算机来模仿人们对图像的审美过程,使得计算机能够发现图像的美并且能理解图像的美,从而筛选出具有较高美学质量的图像。图像美学质量评价已经应用在美学辅助图像搜索、自动照片增强、照片筛选以及相册管理等应用中。但视觉美学感受的主观性较强,其往往涉及情感、个人品味等主观因素,这使得利用计算机自动评估图像美学质量成为一项非常具有挑战性的任务。
[0003]图像美学质量评价方法一般分为特征提取阶段和决策阶段。在特征提取阶段,可通过手工提取特征和深度学习两种方法。然而,决策阶段是利用特征提取阶段得到的美学特征训练得到用以决策的分类器或回归模型。因此,图像美学质量评价方法可分为基于手工提取特征的方法和基于深度学习的方法。基于手工提取特征的方法需要手工设计和美学质量相关的多种图像特征,然后结合有效的机器学习算法进行美感分类或回归。但是手工设计的特征有其局限性。首先手工设计的特征范围有限,无法全面的代表美学特征;其次,这些手工设计的特征仅仅是这些规则的近似值,不能保证这些特征的有效性。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种融合局部和全局图像特征的多模态图像美学质量评价方法,能有效地融合美学图像的局部特征、全局特征和文本美学特征,提高图像美学质量评估算法的性能。
[0005]为实现上述目的,本专利技术采用如下技术方案:融合局部和全局图像特征的多模态图像美学质量评价方法,包括以下步骤:
[0006]步骤S1:将美学图像数据集中的数据进行数据预处理,处理后得到固定尺寸的美学图像以及其所对应评论的文本编码矩阵,并将数据集划分为训练集与测试集;
[0007]步骤S2:设计融合局部特征和全局特征的图像特征提取子网络;
[0008]步骤S3:设计文本特征提取子网络;
[0009]步骤S4:设计融合局部和全局图像特征的多模态图像美学质量评价网络,使用所设计的网络训练融合局部和全局图像特征的多模态图像美学质量评分分布预测模型;
[0010]步骤S5:将测试图像输入到训练好的融合局部和全局图像特征的多模态图像美学
质量评分分布预测模型中,输出对应的图像美学评分分布,最后计算美学评分分布的平均值作为图像美学质量分数。
[0011]在一较佳的实施例中,所述步骤S1具体包括以下步骤:
[0012]步骤S11:将美学图像数据集中的评论文本的全部单词转为小写,并且剔除停用词和数字;然后使用Glove预训练词向量为所有单词以及标点符号编码,得到所有评论文本的编码矩阵;
[0013]步骤S12:将S11步骤中得到的评论文本的编码矩阵尺寸固定为D
×
K;将评论文本的编码矩阵的行数超过D的部分删除,反之,则用0补齐;将评论文本的编码矩阵的列数超过K的部分删除,反之,则用0补齐,得到最终的评论文本编码矩阵;
[0014]步骤S13:将美学数据集中的所有图像随机裁剪并缩放到固定尺寸H
×
W;
[0015]步骤S14:将美学数据集预处理后的图像与对应评论的文本编码矩阵按一定比例统一划分为训练集与测试集。
[0016]在一较佳的实施例中,所述步骤S2中,设计融合局部特征和全局特征的图像特征提取子网络;包括以下步骤:
[0017]步骤S21:设融合局部特征和全局特征的图像特征提取子网络的输入图像为I
in
,其维度为3
×
H
×
W,H和W分别为图像的高度和宽度;去除预训的ResNet50网络的最后一层,修改后的网络用于提取输入图像I
in
的局部特征;对于该网络后四个阶段的输出特征,第i个阶段的输出特征记为i=1,2,3,4,维度为其中和i=1,2,3,4,分别为特征的通道数,高度和宽度;接着特征i=1,2,3,4,经过1
×
1卷积进行降维,降维后的维度为i=1,2,3,4,其中c为降维后的通道数,降维后的特征与随机初始化的位置特征相加得到特征相加得到特征和的维度均为i=1,2,3,4;然后经过Reshape操作进行维度调整得到特征的维度为其中i=1,2,3,4;具体计算公式如下:
[0018][0019][0020]其中,i=1,2,3,4;Conv1×1(
·
)表示1
×
1卷积,+表示矩阵加法运算,Reshape(
·
)表示维度调整操作;
[0021]步骤S22:将与步骤S21相同的输入图像I
in
,维度为3
×
H
×
W;经过32
×
32卷积进行下采样,下采样后与随机初始化位置特征P
G
相加得到特征P
G
和的维度均为c
×
h
×
w,其中然后经过Reshape操作进行维度调整得到特征其维度为c
×
s
G
,其中s
G
=h
×
w;具体计算公式如下:
[0022][0023][0024]其中,Conv
32
×
32
(
·
)表示32
×
32卷积,+表示矩阵加法运算,Reshape(
·
)表示维度调整操作;
[0025]步骤S23:构建自编码器SEncoder,其由多头自注意力、层归一化和全连接层组成;设自编码器的输入特征为x,其维度为c
×
s,首先输入到多头自注意力,多头自注意力的输出与x相加,并对其进行层归一化,记为得到自编码器中间输出特征x

,之后输入两层全连接层中,记为MLP
s
(
·
),两层全连接层的输出再与x

相加,并对其进行层归一化,记为记为最后得到输出特征x

,其维度仍为c
×
s;
[0026]自编码器SEncoder的公式为x

=SEncoder(x),其中SEncoder(
·
)表示自编码器的计算,具体计算公式如下:
[0027][0028][0029]其中,MHSA(...

【技术保护点】

【技术特征摘要】
1.融合局部和全局图像特征的多模态图像美学质量评价方法,其特征在于,包括以下步骤:步骤S1:将美学图像数据集中的数据进行数据预处理,处理后得到固定尺寸的美学图像以及其所对应评论的文本编码矩阵,并将数据集划分为训练集与测试集;步骤S2:设计融合局部特征和全局特征的图像特征提取子网络;步骤S3:设计文本特征提取子网络;步骤S4:设计融合局部和全局图像特征的多模态图像美学质量评价网络,使用所设计的网络训练融合局部和全局图像特征的多模态图像美学质量评分分布预测模型;步骤S5:将测试图像输入到训练好的融合局部和全局图像特征的多模态图像美学质量评分分布预测模型中,输出对应的图像美学评分分布,最后计算美学评分分布的平均值作为图像美学质量分数。2.根据权利要求1所述的融合局部和全局图像特征的多模态图像美学质量评价方法,其特征在于,所述步骤S1具体包括以下步骤:步骤S11:将美学图像数据集中的评论文本的全部单词转为小写,并且剔除停用词和数字;然后使用Glove预训练词向量为所有单词以及标点符号编码,得到所有评论文本的编码矩阵;步骤S12:将S11步骤中得到的评论文本的编码矩阵尺寸固定为D
×
K;将评论文本的编码矩阵的行数超过D的部分删除,反之,则用0补齐;将评论文本的编码矩阵的列数超过K的部分删除,反之,则用0补齐,得到最终的评论文本编码矩阵;步骤S13:将美学数据集中的所有图像随机裁剪并缩放到固定尺寸H
×
W;步骤S14:将美学数据集预处理后的图像与对应评论的文本编码矩阵按一定比例统一划分为训练集与测试集。3.根据权利要求1所述的融合局部和全局图像特征的多模态图像美学质量评价方法,其特征在于,所述步骤S2中,设计融合局部特征和全局特征的图像特征提取子网络;包括以下步骤:步骤S21:设融合局部特征和全局特征的图像特征提取子网络的输入图像为I
in
,其维度为3
×
H
×
W,H和W分别为图像的高度和宽度;去除预训的ResNet50网络的最后一层,修改后的网络用于提取输入图像I
in
的局部特征;对于该网络后四个阶段的输出特征,第i个阶段的输出特征记为输出特征记为维度为其中和分别为特征的通道数,高度和宽度;接着特征经过1
×
1卷积进行降维,降维后的维度为其中c为降维后的通道数,降维后的特征与随机初始化的位置特征相加得到特征和的维度均为然后经过Reshape操作进行维度调整得到特征经过Reshape操作进行维度调整得到特征的维度为其中具体计算公式如下:具体计算公式如下:
其中,i=1,2,3,4;Conv1×1(
·
)表示1
×
1卷积,+表示矩阵加法运算,Reshape(
·
)表示维度调整操作;步骤S22:将与步骤S21相同的输入图像I
in
,维度为3
×
H
×
W;经过32
×
32卷积进行下采样,下采样后与随机初始化位置特征P
G
相加得到特征P
G
和的维度均为c
×
h
×
w,其中然后经过Reshape操作进行维度调整得到特征其维度为c
×
s
G
,其中s
G
=h
×
w;具体计算公式如下:w;具体计算公式如下:其中,Cony
32
×
32
(
·
)表示32
×
32卷积,+表示矩阵加法运算,Reshape(
·
)表示维度调整操作;步骤S23:构建自编码器SEncoder,其由多头自注意力、层归一化和全连接层组成;设自编码器的输入特征为x,其维度为c
×
s,首先输入到多头自注意力,多头自注意力的输出与x相加,并对其进行层归一化,记为得到自编码器中间输出特征x

,之后输入两层全连接层中,记为MLP
s
(
·
),两层全连接层的输出再与x

相加,并对其进行层归一化,记为相加,并对其进行层归一化,记为最后得到输出特征x

,其维度仍为c
×
s;自编码器SEncoder的公式为x

=SEncoder(x),其中SEncoder(
·
)表示自编码器的计算,具体计算公式如下:算,具体计算公式如下:其中,MHSA(
·
)表示多头自注意力,+表示矩阵加法运算;步骤S24:构建交叉编码器CEncoder,其由多头交叉注意力、层归一化和全连接层组成;设输入交叉编码器的特征为q和k,q和k的维度均为c
×
s,首先输入到多头交叉注意力,多头交叉注意力的输出与q相加,并对其进行层归一化,记为得到交叉编码器中间输出特征z,之后输入两层全连接层中,记为MLP
c
(
·
),两层全连接层的输出再与z相加,并对其进行层归一化,记为最后得到输出特征z

,其维度为c
×
s;交叉编码器CEncoder的公式为z

=CEncoder(q,k),其中CEnc...

【专利技术属性】
技术研发人员:牛玉贞陈珊珊李悦洲
申请(专利权)人:福州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1