【技术实现步骤摘要】
基于跨数据集蒸馏多令牌半监督无参考图像质量评估方法
[0001]本专利技术属于计算机视觉
,特别涉及一种基于跨数据集蒸馏多令牌半监督无参考图像质量评估方法
。
技术介绍
[0002]在现代数字化时代,图像成为了我们生活中不可或缺的一部分
。
我们通过各种设备和平台捕捉
、
分享和浏览图像,无论是在社交媒体上分享照片
、
在电子商务中展示产品图片,还是在医学诊断和科学研究中使用图像
。
图像质量是评估图像的视觉表现和真实性的重要指标
。
高质量的图像能够提供清晰
、
准确
、
自然的视觉体验,而低质量的图像可能会导致模糊
、
噪声
、
失真等问题,降低了图像的可用性和可理解性
。
图像质量评估的应用广泛而多样,在图像处理领域,质量评估可用于图像增强
、
去噪
、
修复等算法的性能评估和优化
。
在图像传输和存储领域,质量评估可以帮助选择适当的压缩算法和参数,以最大程度地保留图像质量
。
在医学图像和卫星图像等领域,质量评估对于确保准确的诊断和科学研究至关重要
。
为了保证图像的质量,研究人员和工程师们一直致力于发展图像质量评价的方法和技术
。
这些评估方法旨在衡量图像的清晰度
、
对比度
、
色彩准确性
、 >细节保持等方面的表现,并提供可靠的指标来判断图像的好坏
。
[0003]无参考图像质量评估
(NR
‑
IQA)
是一个图像质量评估的一个分支,这种方法不依赖于参考图像或任何先验知识,而是根据图像自身的特征进行评估
。
随着深度学习和计算机视觉的发展,无参考图像质量评估也迎来了新的挑战和机遇
。
许多基于机器学习和神经网络的方法被提出,以自动化和智能化地评估图像质量
。
这些方法能够学习和理解图像的特征,并与人类主观评价进行比较,从而实现更准确和可靠的图像质量评估
。
[0004]该领域最先进的方法目前利用预先训练的上游骨干来提取语义特征,随后在
NR
‑
IQA
数据集上进行微调
。
然而,
IQA
数据集的稀缺性带来了挑战,因为简单的微调往往会产生不令人满意的结果
。
因此,许多研究人员致力于充分利用
IQA
数据集中可用的有限信息
。
例如,
DR
‑
IQA(Zheng H,Yang H,Fu J,et al.Learning conditional knowledge distillation for degraded
‑
reference image quality assessment[C]//Proceedings of the IEEE/CVF International Conference on ComputerVision.2021:10242
‑
10251.)
通过从原始质量图像中提取知识,从退化图像中提取参考信息,从而能够捕获对质量评估有用的深度图像先验
。CVRKD
‑
IQA(Yin G,Wang W,Yuan Z,et al.Content
‑
variant reference image quality assessment via knowledge distillation[C]//Proceedings of the AAAI Conference on Artificial Intelligence.2022,36(3):3134
‑
3142.)
结合非
IQA
数据集作为参考图像来扩展数据集,并利用知识蒸馏来传递各种失真图像之间的分布差异
。
[0005]我们认为,仅从原始数据集或其他任务数据集中提取知识不足以获得关键质量的特征表示,这也阻碍了学生和教师之间的知识融合
。
为了克服这一挑战,我们提出了一种新方法,该方法利用数据集之间的知识蒸馏来获取更本质的质量表示
。
具体来说,我们用一个
蒸馏令牌来增强
Vision Transformer
架构,该令牌的用途与类令牌类似,但侧重于学习教师模拟的伪标签
。
值得注意的是,学生和教师模型与不同的数据集相关联
。
通过蒸馏,学生可以从老师那里获得跨数据集的知识,并通过跨数据集知识融合,进一步增强模型的分析能力
。
此外,本专利技术引入多类令牌和基于自注意的注意力评分机制,以减轻评分的不确定性
。
技术实现思路
[0006]本专利技术的目的在于提供一种基于跨数据集蒸馏多令牌半监督无参考图像质量评估方法,该方法通过跨数据集的知识蒸馏来增强图像质量的表示能力
。
本专利技术引入一个额外的蒸馏令牌,以促进学生从老师那里学习,并实现跨数据集的知识蒸馏
。
本专利技术将类令牌视为质量感知特征的抽象,并通过增加类令牌的数量来模拟多个评审
。
这种方法有助于减少预测的不确定性
。
本专利技术设计一个注意力评分机制来细化每个类令牌的输出
。
本专利技术方法展示在实际生产中解决图像质量评估问题的潜力
。
[0007]本专利技术包括以下步骤:
[0008]1)
将输入图片切成
N
个
Patch
;
[0009]2)N
个
Patch
经过线性投射层,转为
N
个
Patch Tokens X
=
{x0,x1,...,x
n
}∈R
N
×
D
;
[0010]3)
额外引入
M
个可学习的
Class Tokens C0=
{c0,c1,...,c
n
}∈R
M
×
D
和1个
Distillation Token D0=
{d0}∈R1×
D
;
[0011]4)
将所有
Tokens
进行拼接
T
=
{C0,D0,X}
并送入
Transformer Encoder
和
Decoder
;
[0012]5)
将
Class Tokens
的输出和
Tran本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
基于跨数据集蒸馏多令牌半监督无参考图像质量评估方法,其特征在于包括以下步骤:
1)
将输入图片切成
N
个
Patch
;
2)N
个
Patch
经过线性投射层,转为
N
个
Patch Tokens X
=
{x0,x1,...,x
n
}∈R
N
×
D
;
3)
额外引入
M
个可学习的
Class Tokens C0=
{c0,c1,...,c
n
}∈R
M
×
D
和1个
Distillation Token D0=
{d0}∈R1×
D
;
4)
将所有
Tokens
进行拼接
T
=
{C0,D0,X}
并送入
Transformer Encoder
和
Decoder
;
5)
将
Class Tokens
的输出和
Transformer Encoder
的自注意力机制得到的
Attention Matrix
送入
Attention Scoring
计算
Class Tokens
的得分;
6)
将
Distillation Token
的输出送入
MLP
,计算
Distillation Tokens
的得分;
7)
将图片输入跨数据集的教师模型,得到图片质量分数
Y
T
;
8)
分别将步骤
5)、6)、7)
得到的分数计算
L1
损失和蒸馏损失;
9)
给定任意图像,将其输入模型,加权求和
Class Tokens
的得分和
Distillation Tokens
的得分得到其预测的最终质量分数
Y
final
。2.
如权利要求1所述基于跨数据集蒸馏多令牌半监督无参考图像质量评估方法,其特征在于在步骤
4)
中,所述将所有
Tokens
进行拼接
T
=
{C0,D0,X}
并送入
Transformer Encoder
和
Decoder
,具体步骤为:
41)
将所有
Tokens
经过三个不同的投射层得到
Q
,
K
,
V∈R
(M+N+1)
×
D
,再送入
Transformer Encoder
经过多头自注意力
Multi
‑
Head Self
‑
Attention(MHSA)
和
MLP
得到输出特征
F
o
:
F
M
=
MHSA(Q,K,V)+T
ꢀꢀꢀꢀꢀꢀꢀꢀ
(1)F
O
=
MLP(Norm(F
M
))+F
M
ꢀꢀꢀꢀꢀꢀꢀ
(2)
其中,
F
o
=
{F
o
[0],F
o
[1],...,F
o
[M+N]}∈R
(M+N+1)
×
D
;
42)
将
Encoder
得到的输出送入
Decoder
中,经过多头自注意力
Multi
‑
Head Self
‑
Attention(MHSA)
和多头交叉注意力
Multi
‑
Head Cross
‑
Attention(MHCA)
:
Q
d
=
MHSA(Norm(C1,D1)+(C1+D1))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
...
【专利技术属性】
技术研发人员:纪荣嵘,高体民,潘文胜,郑侠武,张岩,
申请(专利权)人:厦门大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。