一种基于Transformer的超高分辨率图像计算方法技术

技术编号:39193800 阅读:16 留言:0更新日期:2023-10-27 08:40
本发明专利技术提出了一种基于Transformer的超高分辨率图像计算方法,属于深度学习技术领域,用于实现超高分辨率图像的人工智能计算。该方法可以将具有较大分辨率的图像切分并转换成统一的数据类型,在保存原有数据的空间或时间位置信息的同时采用Transformer编码器完成计算。极大的解决了由于图像分辨率过大而导致的中间特征数据巨多的问题,降低了对于硬件的要求也提高计算效率;通过Transformer的自注意力机制和位置嵌入方法,在提高特征提取能力的同时关注特征位置信息,实现了面向超高分辨率图像的人工智能计算;具备较高的适用性,可适用于任意分辨率的图像。用于任意分辨率的图像。用于任意分辨率的图像。

【技术实现步骤摘要】
一种基于Transformer的超高分辨率图像计算方法


[0001]本专利技术涉及深度学习
,尤其涉及一种基于Transformer的超高分辨率图像计算方法。

技术介绍

[0002]近年来,随着卫星图像遥感、视频编码通信等领域的发展及高清设备的普及,图像分辨率极大提高且数量急剧增多,超高分辨率图像计算成为图像处理领域一个非常重要的研究问题,而在计算机视觉方面,卷积神经网络算法仍然占据主导地位。卷积神经网络具有局部敏感、平移不变等特点,能高效的提取图像的局部特征,但无法获得不同局部特征之间的相关特征(如卷积神经网络可以获取人脸的“眼睛”、“鼻子”、“嘴巴”等局部特征,但无法获取“眼睛在鼻子上方”和“鼻子在嘴巴上方”等相关特征,卷积神经网络仍然会把“鼻子在眼睛上方”的图视为人脸),缺少对图像的整体感知和宏观理解。
[0003]同时,超高分辨率的图像数据往往会给计算带来更大挑战。例如,对于8192x8192的超高分辨率图像来说,神经网络算法计算产生的中间数据数量十分庞大,这对神经网络算法的计算硬件有着非常高的要求,在执行过程中有可能因为计算硬件的内存资源或计算资源不足而导致计算失败。

技术实现思路

[0004]本专利技术提出一种基于Transformer的超高分辨率图像计算方法,所述超高分辨率图像计算方法可以将具有较大分辨率的图像(例如8192x8192)切分并转换成统一的数据类型,通过位置编码的方式保存原有数据的空间或时间位置信息,最终通过Transformer编码器完成计算,从而实现了超高分辨率图像的统一计算。
[0005]为实现上述目的,本专利技术提供如下技术方案:
[0006]一种基于Transformer的超高分辨率图像计算方法,用于将具有超高分辨率的图像切分并转换成统一的数据类型,通过位置编码的方式保存原有数据的空间或时间位置信息,最终通过Transformer编码器完成计算;具体包括以下步骤:
[0007]步骤1,对图像数据进行归一化和序列化,将超高分辨率图像变成神经网络输入所需的一维数据;
[0008]步骤2,将N比特的位置编码数据附加到每份1维数据中;
[0009]步骤3,采用Transformer编码器依次对N份1维数据进行计算,每次完成一个1维数据的计算得到1个编码结果;N次计算获得N个编码结果,每个编码结果均是1维数据;以N份1维数据进行输入,以自注意力机制辅助前馈神经网络进行信息的映射转换,提取图像数据特征信息;
[0010]步骤4,将所得图像数据特征信息输入到全连接神经网络进行计算,通过前向传播和反向传播,不断迭代,获取最终解。
[0011]进一步的,超高分辨率图像数据转换为统一的维度归一化数据的方法,其中,维度
归一化数据是1维数据,超高分辨率图像数据为任意维度的数据;具体过程如下:
[0012]步骤1,从原始数据的第0维的第0个数开始读取原始数据,并把该数据存入维度归一化数据的第0个数;
[0013]步骤2,按照数字顺序依次遍历;
[0014]步骤3,从下一维度的第0个数继续读取,直到所有原始数据都读出并存入维度归一化数据。
[0015]进一步的,所述数据序列化指按照固定的大小,把经过数值归一化和数据维度归一化的数据切割成N份,每一份看作固定大小的维数据;如果数据的总数量不能被N整除,则最后一份切割数据通过填0的方式进行填充。
[0016]进一步的,步骤2的具体过程如下,经过数据序列化操作后,数据被切割成N份1维数据,每份1维数据均需要内嵌位置信息表达不同数据的空间信息;位置编码指一个N比特的数据,N比特数据的每个比特代表切割的N份数据的位置:第0比特代表第0份数据,第N比特代表第N份数据。
[0017]采用上述技术方案优点在于:
[0018]1、数据预处理科学地降低了中间特征数据计算复杂性,降低了对于硬件的要求,计算效率高、计算开销小;
[0019]2、具备较高的适用性,可适用于任意分辨率的图像;
[0020]3、通过Transformer的自注意力机制和位置嵌入方法,提高特征提取能力同时关注特征位置信息。
附图说明
[0021]图1为基于Transformer的超高分辨率图像计算图模型;
[0022]图2为位置信息嵌入结构图;
[0023]图3为编码计算流程图。
具体实施方式
[0024]下面结合附图和实施例对本专利技术的做进一步说明。
[0025]本实施例在以本专利技术技术为方案前提下进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术不限于下述的实施例。
[0026]一种基于Transformer的超高分辨率图像计算方法,
[0027]上述基于Transformer的超高分辨率图像计算方法,包括数据预处理、位置信息内嵌、编码计算和全连接计算,其中:
[0028]所述数据预处理,包括对于图像数据进行归一化和序列化等,用于将超高分辨率图像变为神经网络输入所需的一维数据;
[0029]所述位置内嵌,关注图像特征数据位置信息,用于解决Transformer基础架构本身具有的位置信息遗漏问题;
[0030]所述编码计算,包括输入,注意力机制和前馈神经网络,用于将图像信息特征序列映射为隐藏层特征数据,即含有图像特征的数据表达;
[0031]所述全连接计算,主要采用全连接神经网络,用于将学到的“分布式特征表示”映
射到样本标记空间。
[0032]参照图1,其计算模型所示:
[0033](1)数据维度归一化
[0034]依次读取原始图像各维度像素信息,将其存为一维数据;
[0035](2)数据序列化
[0036]将步骤(1)所得一维数据以等值方式均匀切割为N份,缺数则以0填充;
[0037](3)位置信息内嵌
[0038]获取步骤(2)所得N份1维数据的的所有位置编码信息,附加到数据后;
[0039](4)编码计算
[0040]以(3)步骤获得的N份1维数据进行输入,以自注意力机制辅助前馈神经网络进行信息的映射转换,提取图像数据特征信息;
[0041](5)全连接计算
[0042]将步骤(4)编码所得数据信息输入到全连接神经网络进行计算,通过前向传播和反向传播,不断迭代,获取最终解。
[0043]数据维度转换用于把各种维度的超高分辨率图像数据转换为统一的维度归一化数据,所述维度归一化数据是1维数据。所述超高分辨率图像数据可以是任意维度的数据,例如2维、3维或4维。所述维度转换方法是:
[0044](1)从原始数据的第0维的第0个数开始读取原始数据,并把该数据存入维度归一化数据的第0个数;
[0045](2)按照0、1、2、3、4

的顺序依次遍历;
[0046](3)从下一维度的第0个数继续读取,直到所有原始数据都读出并存入维度归一化数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer的超高分辨率图像计算方法,用于将具有超高分辨率的图像切分并转换成统一的数据类型,通过位置编码的方式保存原有数据的空间或时间位置信息,最终通过Transformer编码器完成计算;其特征在于,具体包括以下步骤:步骤1,对图像数据进行数值归一化、数据维度归一化和序列化,将超高分辨率图像变成神经网络输入所需的一维数据;步骤2,将N比特的位置编码数据附加到每份1维数据中;步骤3,采用Transformer编码器依次对N份1维数据进行计算,每次完成一个1维数据的计算得到1个编码结果;N次计算获得N个编码结果,每个编码结果均是1维数据;以N份1维数据进行输入,以自注意力机制辅助前馈神经网络进行信息的映射转换,提取图像数据特征信息;步骤4,将所得图像数据特征信息输入到全连接神经网络进行计算,通过前向传播和反向传播,不断迭代,获取最终解。2.根据权利要求1所述的一种基于Transformer的超高分辨率图像计算方法,其特征在于,维度归一化数据是1维数据,超高分辨率图像数据为任意维度的数据,超高分辨率图像数据转换为统一的维度归一化数据的方法具体过程如下:步骤1,从原始数据的第0维的第0个数开始读取原始数据,并把该数据存入维度归一化数据的第0个数;步骤2,按照数字顺序依次遍历;步骤3,从下一维度的第0个数继续读取,直到所...

【专利技术属性】
技术研发人员:梁栋常迎辉武唯康沈贵元李斌李思雨张宏科朱莹莹
申请(专利权)人:中国电子科技集团公司第五十四研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1