当前位置: 首页 > 专利查询>之江实验室专利>正文

一种自适应权重的视觉深度特征重建方法和装置制造方法及图纸

技术编号:39642407 阅读:8 留言:0更新日期:2023-12-09 11:09
本发明专利技术公开了一种自适应权重的视觉深度特征重建方法和装置,将训练集图像分别输入视觉编码器

【技术实现步骤摘要】
一种自适应权重的视觉深度特征重建方法和装置


[0001]本专利技术涉及深度神经网络特征重建领域,尤其涉及一种自适应权重的视觉深度特征重建方法和装置


技术介绍

[0002]近年来,基于掩码图像建模(
MAE
)的视觉自监督学习范式在人工智能领域产生了深远的影响
。MAE
通过对输入图像数据随机高比例遮挡,经编码器(如
ViT
等)学习输入数据的深层表征,利用解码器重建出输入图像数据的遮挡部分
。MAE
的关键技术的视觉深度特征重建

[0003]视觉深度特征重建是指输入的图像数据经深度神经网络压缩编码后,仍能近似恢复输入的图像数据,进而使深度神经网络学习对输入图像数据的语义信息的良好表征的一类方法

视觉深度特征重建技术在计算机视觉领域中有广泛的研究和应用,如在无监督视觉表征学习中,
MAE
通过编码器对掩码输入的图像或视频数据进行深度压缩后,再经解码器实现对掩码图像语义信息的高质量重建;在自编码器中,通过
L2
损失约束解码器对输入数据的重建,实现编码器对输入数据的语义表征学习;在教师

学生知识蒸馏范式中,通过让学生模型重建教师模型的中间特征和预测值,实现繁重模型到轻量化模型的深度压缩,且不会产生显著的性能损失,实现在计算资源和内存资源的限制条件下的高性能模型部署;在医疗
CT
领域,基于深度神经网络视觉特征重建的方法在图像质量上显著优于传统方法

[0004]视觉深度特征重建大多数是基于
L1/L2
距离度量特征重建前后的差异

然而,在
L1/L2
距离约束中,对深度特征各个特征点的惩罚程度是相等的,度量的损失容易受到异常数值(如,
L2
损失对大的数值,其梯度也会很大)的影响等

另一方面,
L1/L2
距离不能加强关注更重要的特征数据,而这些特征数据一般反映着重要的语义信息

重建过程损失波动较大,从而使得特征重建效果较差

因此,如何能够有效利用重建目标(如输入数据或教师特征),设计简单高效

训练过程稳定的视觉特征重建方法,使之能够更加关注重要的重建特征,进一步提升重建质量,在深度神经网络特征重建领域仍是一个待解决的关键问题


技术实现思路

[0005]本专利技术的目的在于针对现有技术的不足,提供了一种自适应权重的视觉深度特征重建方法和装置

[0006]本专利技术的目的是通过以下技术方案来实现的:一种自适应权重的视觉深度特征重建方法,包括以下步骤:
S1
,收集与识别任务相关的标注图像数据,得到图像数据集;将所述图像数据集切分为训练集和验证集;
S2
,调整所述图像数据集中所有图像的宽和高为同一尺寸;随后对训练集和验证集中每一个图像进行预处理操作;
S3
,对视觉编码器
E2
加载公开可用的预训练权重后,将其网络参数设置为冻结模
式;并对视觉编码器
E1
的网络参数随机初始化,并设为可训练模式;
S4
,遍历整个训练集,将经过预处理的训练集图像分批次送入视觉编码器
E2
,经深度神经网络前向传播过程,通过视觉编码器
E2
的骨干模块得到每一个训练集图像的重建特征目标;
S5
,将送入视觉编码器
E2
的同批次训练集图像送入视觉编码器
E1
,经神经网络前向传播过程,通过视觉编码器
E1
的骨干模块得到每一个训练集图像的初始深度特征;
S6
,对于同批次输入的训练集图像,计算同一个训练集图像的重建特征目标和初始深度特征的特征重建损失,通过减小特征重建损失实现初始深度特征与重建特征目标相等,进而实现视觉编码器
E1
达到视觉编码器
E2
的性能;
S7
,用特征重建损失训练视觉编码器
E1
;根据视觉编码器
E1
在验证集上的最好结果选取训练超参数;
S8
,将训练好的视觉编码器
E1
部署到终端设备上,终端设备将接收的新数据输入到训练好的视觉编码器
E1
,得到预测概率向量,进而完成相关任务

[0007]进一步地,步骤
S2
中,所述对训练集和验证集中每一个图像进行预处理操作,具体为:对所述训练集图像进行随机裁剪

随机水平翻转

随机旋转

随机抖动

添加随机噪声

去均值操作;对所述验证集图像做中心裁剪

去均值操作

[0008]进一步地,所述视觉编码器
E1
和视觉编码器
E2
分别由骨干模型和分类器构成

[0009]进一步地,若步骤
S5
得到的初始深度特征与步骤
S4
得到的重建特征目标的维度不同,需在视觉编码器
E1
中的骨干模型之后加入一个参数可学习的全连接层

[0010]进一步地,当初始深度特征为中间特征时,特征重建损失为:;其中,
N
为同批次输入的训练集图像的数量;为同批次中重建特征目标的最大值,为同批次中重建特征目标的最小值;和分别为训练超参数

[0011]进一步地,当初始深度特征为预测逻辑值时,特征重建损失为:;其中,;;


T
分别为训练超参数

[0012]进一步地,当所述图像数据集无标签时,仅通过步骤
S6
中的特征重建损失训练视觉编码器
E1
;当所述图像数据集有标签时,联合步骤
S6
中的特征重建损失与任务损失训练视觉编码器
E1。
[0013]本专利技术还包括一种自适应权重的视觉深度特征重建装置,包括:数据集构建模块,用于收集与识别任务相关的标注图像数据;将所述图像数据集切分为训练集和验证集;数据预处理模块,用于调整所述图像数据集中所有图像的宽和高为同一尺寸;随后对训练集和验证集中每一个图像进行预处理操作;
编码器加载模块,用于对视觉编码器
E2
加载公开可用的预训练权重后,将其网络参数设置为冻结模式;并对视觉编码器
E1
的网络参数随机初始化,并设为可训练模式;重建特征目标计算模块,用于遍历整个训练集,将经过预处理的训练集图像分批次送入视觉编码器
E2
,经深度神经网络前向传播过程,通过视觉编码器...

【技术保护点】

【技术特征摘要】
1.
一种自适应权重的视觉深度特征重建方法,其特征在于,包括以下步骤:
S1
,收集与识别任务相关的标注图像数据,得到图像数据集;将所述图像数据集切分为训练集和验证集;
S2
,调整所述图像数据集中所有图像的宽和高为同一尺寸;随后对训练集和验证集中每一个图像进行预处理操作;
S3
,对视觉编码器
E2
加载公开可用的预训练权重后,将其网络参数设置为冻结模式;并对视觉编码器
E1
的网络参数随机初始化,并设为可训练模式;
S4
,遍历整个训练集,将经过预处理的训练集图像分批次送入视觉编码器
E2
,经深度神经网络前向传播过程,通过视觉编码器
E2
的骨干模块得到每一个训练集图像的重建特征目标;
S5
,将送入视觉编码器
E2
的同批次训练集图像送入视觉编码器
E1
,经神经网络前向传播过程,通过视觉编码器
E1
的骨干模块得到每一个训练集图像的初始深度特征;
S6
,对于同批次输入的训练集图像,计算同一个训练集图像的重建特征目标和初始深度特征的特征重建损失,通过减小特征重建损失实现初始深度特征与重建特征目标相等,进而实现视觉编码器
E1
达到视觉编码器
E2
的性能;
S7
,用特征重建损失训练视觉编码器
E1
;根据视觉编码器
E1
在验证集上的最好结果选取训练超参数;
S8
,将训练好的视觉编码器
E1
部署到终端设备上,终端设备将接收的新数据输入到训练好的视觉编码器
E1
,得到预测概率向量,进而完成相关任务
。2.
根据权利要求1所述的一种自适应权重的视觉深度特征重建方法,其特征在于,步骤
S2
中,所述对训练集和验证集中每一个图像进行预处理操作,具体为:对所述训练集图像进行随机裁剪

随机水平翻转

随机旋转

随机抖动

添加随机噪声

去均值操作;对所述验证集图像做中心裁剪

去均值操作
。3.
根据权利要求1所述的一种自适应权重的视觉深度特征重建方法,其特征在于,所述视觉编码器
E1
和视觉编码器
E2
分别由骨干模型和分类器构成
。4.
根据权利要求3所述的一种自适应权重的视觉深度特征重建方法,其特征在于,若步骤
S5
得到的初始深度特征与步骤
S4
得到的重建特征目标的维度不同,需在视觉编码器
E1
中的骨干模型之后加入一个参数可学习的全连接层
。5.
根据权利要求1所述的一种自适应权重的视觉深度特征重建方法,其特征在于,当初始深度特征为中间特...

【专利技术属性】
技术研发人员:王玉柱段曼妮王永恒傅四维
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1