基于改良ViT网络的高质量全息图生成方法技术

技术编号:38620869 阅读:12 留言:0更新日期:2023-08-31 18:25
一种基于改良ViT网络的高质量全息图生成方法,通过构建编码

【技术实现步骤摘要】
基于改良ViT网络的高质量全息图生成方法


[0001]本专利技术涉及的是一种图像处理领域的技术,具体是一种基于改良ViT(Vision Transformer)网络的高质量全息图生成方法。

技术介绍

[0002]现有的基于深度神经网络(DNN)的计算机生成全息图(CGH)算法通过训练一个或者多个卷积神经网络(CNN)来计算全息图并应用于全息显示系统中,缩短了计算高质量全息图的时间,但在显示质量方面不如传统高时耗的迭代算法。一个重要的原因在于,光波的衍射是一个从空域到频域的跨域过程,具有全局特性,而CNN通常采用局部卷积运算,感受野有限,较难学习到从目标图(空域)到全息图(频域)的跨域映射。

技术实现思路

[0003]本专利技术针对现有基于CNN的计算全息术生成全息图显示质量相对较低的问题,提出一种基于改良ViT网络的高质量全息图生成方法,通过关注目标图像的全局信息,以一个改良的Vision Transformer网络生成更高质量的全息图并实现一个高质量的全息显示,解决了传统基于CNN的CGH算法感受野有限的问题,提高了全息显示中的显示像质。
[0004]本专利技术是通过以下技术方案实现的:
[0005]本专利技术涉及一种基于改良ViT网络的高质量全息图生成方法,通过构建编码

解码架构,针对CGH任务,改良了Vision Transformer网络,并以改良的ViT作为编码部分,将目标图像编码成其对应的纯相位全息图;在解码部分通过角谱传播算法模拟光的自由空间传播,得到全息图的重建图像,通过计算重建图像和目标图像之间损失函数对编码

解码架构的编码部分进行迭代训练;在在线阶段采用训练后的改良Vision Transformer网络生成纯相位全息图,并通过全息显示系统重建出高质量的全息显示图像。技术效果
[0006]本专利技术利用预训练的改良Vision Transformer网络计算目标显示图像的纯相位全息图并实现全息显示。相比较目前利用CNN计算目标显示图像的纯相位全息图的方法,本方法利用改良的Vision Transformer网络捕捉全局特征的特性,提高了网络计算全息图的质量,在全息显示中,重建的图像质量得到明显提升。
附图说明
[0007]图1为本专利技术网络训练框架;
[0008]图2为实施例原理示意图;
[0009]图3为光学显示系统示意图;
[0010]图4为实施例效果图。
具体实施方式
[0011]如图1(a)所示,本实施例基于改良ViT网络的高像质全息图生成方法,对改良的Vision Transformer网络训练框架包括编码部分和解码部分。编码部分为一个改良Vision Tranformer网络,是一个由四个下采样模块以及对应的上采样模块组成的U型架构,其中:每个下采样模块以及对应的上采样模块中均包含两个全局滤波块。
[0012]如图1(b)所示,所述的全局滤波块包括:两个层归一化单元、全局滤波层和本地加强前馈网络(LeFF),其中:全局滤波层将输入的空间特征首先通过二维快速傅里叶变换(2D FFT)转换到频域后,通过可学习的全局滤波器对频域特征进行滤波,再通过二维快速傅里叶反变换(2D IFFT)将频域特征图变回到空域特征。该全局滤波层有效提高网络的感受野且提升运算速度,利用训练好的网络所得到的全息图实现的全息显示图像质量得到明显提升。
[0013]如图1(c)所示,本实施例基于ViT网络的高像质全息显示方法中网络训练过程的解码部分是一个角谱传播模型,通过角谱传播算法模拟光的自由空间传播,得到仿真的全息图的重建图像,其中:角谱传播方法为:其中:e
iφ(x,y)
为衍射面的复振幅分布,为像面的复振幅分布,f
x
,f
y
为空间频率,λ为波长,z为传播距离。本实施例中波长设置为543nm,传播距离设置为7cm。
[0014]本实施例基于改良ViT网络的高质量全息图生成方法训练框架中采用的损失函数包括:均方误差(MSE),感知损失函数和总变差(TV)正则项,具体为:包括:均方误差(MSE),感知损失函数和总变差(TV)正则项,具体为:其中:为重建图像的振幅,a
gt
为目标图像的振幅,为一个预训练的VGG网络每一层的输出,代表计算总变差的操作,φ为所计算的相位型全息图。α为感知损失函数的权重,β为总变差正则化项的权重。本实施例中感知损失函数的权重设为0.025,总变差正则化项的权重设置为0.001。
[0015]如图2所示,为本实施例原理示意图。将目标图像输入到训练好的改良型Vision Transformer网络中,网络输出该目标图像所对应的纯相位全息图。将全息图加载到一个全息显示系统的SLM上,用工业相机可以捕捉到重建的全息显示图像。
[0016]如图3所示,所述的全息显示系统包括:依次设置的激光源、扩束、线偏片、配置SLM的半透半反镜、第一透镜、成像小孔、第二透镜以及工业相机,通过将纯相位全息图加载到相位型空间光调制器上,平面光波经全息图调制后传播7cm后的衍射图样即为重建图样,经4f系统滤除高级衍射光后即可在4f系统的后焦面上用工业相机捕捉到重建图像。
[0017]如图4所示,为本实施例中的目标显示图像,纯相位全息图,和全息显示图像。
[0018]经过具体实际实验,采用Python 3.8.0和PyTorch 1.8.0作为基本环境搭建网络,选择经水平和旋转增强的DIV2K数据集(共3200张图像)作为输入的训练集,将图像分辨率为1024
×
1024,像素大小设置为3.74μm
×
3.74μm,激光源波长设置为543nm,传播距离设置为7cm。训练使用的批处理大小为1,初始化学习率为0.001,采用角动量为(0.9,0.999)的AdamW优化器来训练网络,训练周期为50,采用余弦衰减策略来降低学习率。采用的训练设
备为NVIDIA GeForce RTX 3090GPU卡。
[0019]表1MethodGSSGDDPACU

Net本专利技术PSNR(dB)22.5332.1226.3222.7632.41SSIM0.6530.9450.8950.7390.946Time(s)1.12712.960.0010.0060.132
[0020]如表1所示,与现有技术相比,本方法的在五十张随机选取的测试目标图像上工作,以图像峰值信噪比(PSNR)和结构相似性(SSIM)作为衡量显示像质的指标。仿真所得到的显示图像PSNR和SSIM分别为32.41dB和0.946,分别比U

Net方法(基于CNN)提高9.65dB和0.207。相比较使用500次迭代的SOTA迭代方法SGD该方法的到近似的PSNR和SSIM,但该方法在全息图生成时间上提高98倍。
[0021]上述具体实施可由本领域技术人员在不背离本专利技术原本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改良ViT网络的高质量全息图生成方法,其特征在于,通过构建编码

解码架构,采用一个改良的ViT作为编码部分,将目标图像编码成其对应的全息图;在解码部分通过角谱传播算法模拟光的自由空间传播,得到全息图的重建图像,通过计算重建图像和目标图像之间损失函数对编码

解码架构的编码部分进行迭代训练;在在线阶段采用训练后的编码

解码架构生成的纯相位全息图通过全息显示系统重建出高质量的全息显示图像。2.根据权利要求1所述的基于改良ViT网络的高质量全息图生成方法,其特征是,所述的改良的Vision Transformer网络,包括:由四个下采样模块以及对应的上采样模块组成的U型架构,其中:每个下采样模块以及对应的上采样模块中均包含两个全局滤波块。3.根据权利要求2所述的基于改良ViT网络的高质量全息图生成方法,其特征是,所述的全局滤波块,包括:两个层归一化单元、全局滤波层和本地加强前馈网络(LeFF),其中:全局滤波层将输入的空间特征首先通过二维快速傅里叶变换(2D FFT)转换到频域后,通过可学习的全局滤波器对频域特征进行滤波,再通过二...

【专利技术属性】
技术研发人员:李燕凌玉烨徐超董振兴
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1