一种基于深度学习的图像拼接方法及装置制造方法及图纸

技术编号:38549415 阅读:18 留言:0更新日期:2023-08-22 20:56
本发明专利技术公开了一种基于深度学习的图像拼接方法及装置,包括以下步骤:S1、利用HomoNet模块将不同视角下的两幅图像输入到单应性矩阵估计网络得到所述两帧图片的单应性矩阵;S2、利用变换模块根据上述单应性矩阵,计算每幅图像的相机旋转矩阵,利用光束平差法进行精细化校正后,将每幅图像变换到同一平面上;S3、利用融合模块计算图像接缝,并对图像进行曝光补偿,对两幅图像进行融合,输出拼接结果。本发明专利技术采用上述的一种基于深度学习的图像拼接方法及装置,不需要提取特征点,而是直接通过深度神经网络来完成单应性矩阵的计算,并获得后续拼接的结果。续拼接的结果。续拼接的结果。

【技术实现步骤摘要】
一种基于深度学习的图像拼接方法及装置


[0001]本专利技术涉及数字图像处理
,尤其是涉及一种基于深度学习的图像拼接方法及装置。

技术介绍

[0002]传统图像拼接技术最关键的步骤是提取两帧图像的特征点(SIFT、SURF等)并选取匹配点,然后使用RANSAC算法对匹配点计算单应性矩阵。这个过程的计算结果非常依赖于匹配点的数量,也就是特征点的提取质量和数量。但是某些条件下的图像,例如户外景色、低光照、低纹理,特征点不宜提取且数量少,从而影响到单应性矩阵的计算以及后续拼接的结果。
[0003]经过图像拼接合成的无缝高分辨率图像利用大屏展示后,随着拼接图像带来的视角拓展,能够让观众产生身临其境的感觉。近些年来这种技术已经在虚拟现实领域(例如博物馆可视化、虚拟演播室、虚拟拍摄)中被广泛使用。因此,本专利技术提供了一种基于深度学习的图像拼接方法及装置,以解决上述问题。

技术实现思路

[0004]本专利技术的目的是提供一种基于深度学习的图像拼接方法及装置,不需要提取特征点,而是直接通过深度神经网络来完成单应性矩阵的计算,并获得后续拼接的结果。
[0005]为实现上述目的,本专利技术提供了一种基于深度学习的图像拼接方法及装置,包括以下步骤:S1、利用HomoNet模块将不同视角下的两幅图像输入到单应性矩阵估计网络得到两帧图片的单应性矩阵;S2、利用变换模块根据上述单应性矩阵,计算每幅图像的相机旋转矩阵,利用光束平差法进行精细化校正后,将每幅图像变换到同一平面上;S3、利用融合模块计算图像接缝,并对图像进行曝光补偿,对两幅图像进行融合,输出拼接结果。
[0006]优选的,在步骤S1中,HomoNet模块包括FPN特征提取网络与单应性矩阵预测网络,FPN特征提取网络包括特征提取模块和特征融合模块;单应性矩阵预测网络包括2组多层注意力模块与1个多层感知器模块,多层注意力模块包含了1个自注意力子模块和1个交叉注意力子模块,注意力子模块包括1个线性注意力层、1个线性层和1个前馈层。
[0007]优选的,在步骤S2中,实现光束平差法的算法包括高斯

牛顿算法、梯度下降法与LM算法。
[0008]优选的,在步骤S3中,寻找接缝线的方法有三种:逐点法、动态规划法与图割法。
[0009]优选的,在步骤S3中,曝光补偿方法有增益补偿和分块补偿两种方法。
[0010]优选的,在步骤S3中,融合算法包括羽化算法和多频段融合算法。
[0011]因此,本专利技术采用上述结构的一种基于深度学习的图像拼接方法及装置,不用通过提取特征点,直接通过单应性矩阵的计算获得后续拼接的结果。
[0012]下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。
附图说明
[0013]图1为本专利技术一种基于深度学习的图像拼接方法及装置实施例整体模块图;
[0014]图2为本专利技术一种基于深度学习的图像拼接方法及装置实施例图像拼接方法示意图;
[0015]图3为本专利技术一种基于深度学习的图像拼接方法及装置实施例HomoNet的结构示意图;
[0016]图4为本专利技术一种基于深度学习的图像拼接方法及装置实施例FPN特征提取网络的结构示意图;
[0017]图5为本专利技术一种基于深度学习的图像拼接方法及装置实施例FPN提取网络的基础模块v1结构示意图;
[0018]图6为本专利技术一种基于深度学习的图像拼接方法及装置实施例FPN提取网络的基础模块v2结构示意图;
[0019]图7为本专利技术一种基于深度学习的图像拼接方法及装置实施例单应性矩阵预测网络结构图;
[0020]图8为本专利技术一种基于深度学习的图像拼接方法及装置实施例注意力子模块结构图;
[0021]图9为本专利技术一种基于深度学习的图像拼接方法及装置实施例线性注意力子模块结构。
具体实施方式
[0022]以下通过附图和实施例对本专利技术的技术方案作进一步说明。
[0023]除非另外定义,本专利技术使用的技术术语或者科学术语应当为本专利技术所属领域内具有一般技能的人士所理解的通常意义。本专利技术中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
[0024]如图所示,本专利技术提供了一种基于深度学习的图像拼接方法及装置,提出采用深度学习的方法端到端地获得两幅待拼接图像的单应性矩阵,本申请提出了一种卷积神经网络HomoNet实现了上述过程。
[0025]下面进一步对HomoNet的功能进行描述。图3是HomoNet的整体结构,包括FPN特征提取网络和单应性矩阵预测网络E
i
(i=1,2,3,4)。待拼接的图片A和B由FPN特征提取网络分别获得1/2特征1/4特征1/8特征1/16特征其中1/2特征表示分辨率为1/2图像尺寸的特征向量,即每一尺度的分
辨率为其中i=1,2,3,4,w和h为待拼接图像的宽和高。另外,特征通道数分别为128,196,256,512。
[0026]HomoNet的输出可以用以下公式表示:
[0027][0028][0029]其中,H(i)表示第i号单应性预测网络输出的预测结果,H(0)表示单位矩阵。w表示变换操作。根据上述公式,当i=1时,1/16特征和输入到单应性预测网络E1得到预测结果H(1);当i=2时,首先用H(1)对1/8特征进行变换,再和输入到E2得到第二级预测结果H(2),以此类推。最后每一级的H(i)累加到最终的H。
[0030]由于不需要直接提取待拼接图像的特征点,因此即使图像存在户外景色、低光照、低纹理等区域也不会影响到最后的预测结果,HomoNet采用的FPN网络能提取图像的多尺度特征,而且注意力模块能保证网络学习到图像自身以及相互之间的特征关系,确保了最后预测的准确性。因此HomoNet是比传统方法更加鲁棒的算法。
[0031]HomoNet包括两个核心部件:FPN特征提取网络网络结构与单应性矩阵预测网络。
[0032]FPN特征提取网络用于提取待拼接图像的多尺度分辨率特征,它是一个倒金字塔的结构,如图4所示。图中网络的“输入”表示待拼接图像,输出为1/2特征、1/4特征、1/8特征、1/16特征。FPN特征提取网络把低分辨率、高语义信息的高层特征和高分辨率、低语义信息的低层特征进行自上而下的侧边连接,使得所有尺度下的特征都有丰富的语义信息,方便后续网络的处理。
[0033]FPN特征提取网络进一步可以分成两个部分,特征提取模块和特征融合模块,数据流向如本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的图像拼接方法及装置,包括以下步骤:S1、利用HomoNet模块将不同视角下的两幅图像输入到单应性矩阵估计网络得到两帧图片的单应性矩阵;S2、利用变换模块根据上述单应性矩阵,计算每幅图像的相机旋转矩阵,利用光束平差法进行精细化校正后,将每幅图像变换到同一平面上;S3、利用融合模块计算图像接缝,并对图像进行曝光补偿,对两幅图像进行融合,输出拼接结果。2.根据权利要求1所述的一种基于深度学习的图像拼接方法及装置,其特征在于:在步骤S1中,HomoNet模块包括FPN特征提取网络与单应性矩阵预测网络,FPN特征提取网络包括特征提取模块和特征融合模块;单应性矩阵预测网络包括2组多层注意力模块与1个多层感知器模块,多层注意力模块包含了1个自注意力子模块...

【专利技术属性】
技术研发人员:裘初高鹏东齐全王博
申请(专利权)人:中国传媒大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1