一种自适应权重的视觉深度特征重建方法和装置制造方法及图纸

技术编号：39642407 阅读：8 留言：0更新日期：2023-12-09 11:09

本发明专利技术公开了一种自适应权重的视觉深度特征重建方法和装置，将训练集图像分别输入视觉编码器

全部详细技术资料下载

【技术实现步骤摘要】
一种自适应权重的视觉深度特征重建方法和装置

[0001]本专利技术涉及深度神经网络特征重建领域，尤其涉及一种自适应权重的视觉深度特征重建方法和装置
。

技术介绍

[0002]近年来，基于掩码图像建模（
MAE
）的视觉自监督学习范式在人工智能领域产生了深远的影响
。MAE
通过对输入图像数据随机高比例遮挡，经编码器（如
ViT
等）学习输入数据的深层表征，利用解码器重建出输入图像数据的遮挡部分
。MAE
的关键技术的视觉深度特征重建
。
[0003]视觉深度特征重建是指输入的图像数据经深度神经网络压缩编码后，仍能近似恢复输入的图像数据，进而使深度神经网络学习对输入图像数据的语义信息的良好表征的一类方法
。
视觉深度特征重建技术在计算机视觉领域中有广泛的研究和应用，如在无监督视觉表征学习中，
MAE
通过编码器对掩码输入的图像或视频数据进行深度压缩后，再经解码器实现对掩码图像语义信息的高质量重建；在自编码器中，通过
L2
损失约束解码器对输入数据的重建，实现编码器对输入数据的语义表征学习；在教师
‑
学生知识蒸馏范式中，通过让学生模型重建教师模型的中间特征和预测值，实现繁重模型到轻量化模型的深度压缩，且不会产生显著的性能损失，实现在计算资源和内存资源的限制条件下的高性能模型部署；在医疗
CT
领域，基于深度神经网络视觉特征重建的方法在图像质量上显著优于传

【技术保护点】

【技术特征摘要】
1.
一种自适应权重的视觉深度特征重建方法，其特征在于，包括以下步骤：
S1
，收集与识别任务相关的标注图像数据，得到图像数据集；将所述图像数据集切分为训练集和验证集；
S2
，调整所述图像数据集中所有图像的宽和高为同一尺寸；随后对训练集和验证集中每一个图像进行预处理操作；
S3
，对视觉编码器
E2
加载公开可用的预训练权重后，将其网络参数设置为冻结模式；并对视觉编码器
E1
的网络参数随机初始化，并设为可训练模式；
S4
，遍历整个训练集，将经过预处理的训练集图像分批次送入视觉编码器
E2
，经深度神经网络前向传播过程，通过视觉编码器
E2
的骨干模块得到每一个训练集图像的重建特征目标；
S5
，将送入视觉编码器
E2
的同批次训练集图像送入视觉编码器
E1
，经神经网络前向传播过程，通过视觉编码器
E1
的骨干模块得到每一个训练集图像的初始深度特征；
S6
，对于同批次输入的训练集图像，计算同一个训练集图像的重建特征目标和初始深度特征的特征重建损失，通过减小特征重建损失实现初始深度特征与重建特征目标相等，进而实现视觉编码器
E1
达到视觉编码器
E2
的性能；
S7
，用特征重建损失训练视觉编码器
E1
；根据视觉编码器
E1
在验证集上的最好结果选取训练超参数；
S8
，将训练好的视觉编码器
E1
部署到终端设备上，终端设备将接收的新数据输入到训练好的视觉编码器
E1
，得到预测概率向量，进而完成相关任务
。2.
根据权利要求1所述的一种自适应权重的视觉深度特征重建方法，其特征在于，步骤
S2
中，所述对训练集和验证集中每一个图像进行预处理操作，具体为：对所述训练集图像进行随机裁剪
、
随机水平翻转
、
随机旋转
、
随机抖动
、
添加随机噪声
、
去均值操作；对所述验证集图像做中心裁剪
、
去均值操作
。3.
根据权利要求1所述的一种自适应权重的视觉深度特征重建方法，其特征在于，所述视觉编码器
E1
和视觉编码器
E2
分别由骨干模型和分类器构成
。4.
根据权利要求3所述的一种自适应权重的视觉深度特征重建方法，其特征在于，若步骤
S5
得到的初始深度特征与步骤
S4
得到的重建特征目标的维度不同，需在视觉编码器
E1
中的骨干模型之后加入一个参数可学习的全连接层
。5.
根据权利要求1所述的一种自适应权重的视觉深度特征重建方法，其特征在于，当初始深度特征为中间特...

【专利技术属性】
技术研发人员：王玉柱，段曼妮，王永恒，傅四维，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人