一种单目内窥镜视频深度与位姿估计方法技术

技术编号:38826207 阅读:27 留言:0更新日期:2023-09-15 20:05
本发明专利技术公开了一种单目内窥镜视频深度与位姿估计方法,构建深度估计网络和位姿估计网络;获取训练集和测试集并进行增强处理;将增强后的训练集输入至深度估计网络和位姿估计网络,得到深度估计值和位姿估计值;基于深度估计值、位姿估计值及参考图片进行视图合成得到合成的目标图片;将真实图片与目标图片比较计算损失函数;基于损失函数得到深度估计模型和位姿估计模型;对增强后的测试集进行预测得到深度估计结果和位姿估计结果。本发明专利技术通过深度训练学习的方法估计单目内窥镜视频的深度及位姿信息以进行三维模型重建,重建模型的场景信息能帮助医生直观地观察到各组织之间的空间距离信息,提高操作的准确性。提高操作的准确性。提高操作的准确性。

【技术实现步骤摘要】
一种单目内窥镜视频深度与位姿估计方法


[0001]本专利技术属于视觉的深度估计与三维重建
,具体涉及一种单目内窥镜视频深度与位姿估计方法。

技术介绍

[0002]微创手术与传统的开放式手术相比具有出血少、感染率低的潜在优势。在传统单目内窥镜手术中,医生只能依靠2D图像推测各个组织的空间距离信息,导致手术非常困难且精确度不高。但MIS也存在视野受限、内镜定位差、缺乏触觉反馈等缺点。所以需要对单目内窥镜视频进行三维重建,将2D图像重建至3D图像。
[0003]传统的多视图立体重建方法,如sfM,SfS,SLAM等能在特征丰富的场景中重建三维结构,但应用到内窥镜图像的重建时存在一些问题。主要是:第一,内窥镜图像存在特征点少且分布不均的缺点,这会导致传统方法重建效果不佳,而且只能进行稀疏重建。第二:传统重建算法的特征点匹配牵涉到大量的非线性计算,而内窥镜视频通常是高帧率的,这就使得重建的实时性较差;第三:内窥镜视频采集时,是由附在内窥镜上的灯提供照片,当内窥镜运动时,照明灯随之运动,导致采集到的内窥镜视频会有较为明显的亮度波动,图片亮度不一致使传统重建算法中的特征点匹配步骤的难度增大。因此,应用传统重建算法难以对内窥镜手术场景进行实时且稠密的三维重建。
[0004]近年来有研究者提出使用深度学习进行实时稠密三维重建与位姿估计,基于深度学习的单目重建方法通常需要大量深度标签进行训练。在内窥镜手术中,获取深度真值需要昂贵的传感器和严格的校准,且在临床手术中增添侵入性设备会额外增加患者的痛苦,所以获取有监督单目内窥镜图像数据的难度较高。除此之外,还有一部分基于深度学习的重建方法需要双目图像数据,使用双目图像中的视差信息预测深度。但是,在当前大多数基层医院中,单目内窥镜手术远多于更昂贵的双目内窥镜手术。因此,有监督单目重建算法和双目重建算法在内窥镜手术领域中的应用有限。

技术实现思路

[0005]本专利技术的目的就是为了解决上述
技术介绍
存在的不足,提供一种单目内窥镜视频深度与位姿估计方法。
[0006]本专利技术采用的技术方案是:一种单目内窥镜视频深度与位姿估计方法,包括以下步骤:
[0007]构建深度估计网络和位姿估计网络;
[0008]获取训练集和测试集,对训练集和测试集中的图片进行增强处理;
[0009]将增强后的训练集输入至深度估计网络和位姿估计网络,得到深度估计值和位姿估计值;
[0010]基于深度估计值、位姿估计值及参考图片进行视图合成得到合成的目标图片;
[0011]将真实图片与目标图片比较计算损失函数;
[0012]基于损失函数训练深度估计网络和深度位姿网络得到深度估计模型和位姿估计模型;
[0013]通过深度估计模型和位姿估计模型对增强后的测试集进行预测得到深度估计结果和位姿估计结果。
[0014]进一步地,所述增强处理包括对图片进行随机水平翻转,以及进行亮度、对比度、饱和度、色调的随机变化。
[0015]进一步地,将t时刻的图片I
t
输入深度估计网络,得到其深度估计图将t时刻的图片及其相邻的t

时刻的图片{I
t
,I
t

}输入位姿估计网络,得到从t时刻到t

时刻的相机位姿变换则深度估计图和位姿变换分别为t时刻的图片的深度估计值和位姿估计值;所述参考图片为t

时刻图片。
[0016]进一步地,目标图片中像素的齐次坐标与其在参考图片上的投影坐标的关系为:
[0017][0018]其中,p
t
为目标图片中像素的齐次坐标,p
t

为p
t
在参考图片I
t

上的投影坐标,K为相机内参矩阵,为t时刻到t

时刻的相机位姿变换,为t时刻图片的深度估计值,(p
t
)为(p
t
)为索引值,即该齐次坐标系下t时刻的深度值。
[0019]进一步地,所述损失函数如下:
[0020][0021]其中,为损失函数,为光度重建损失,为峰值信噪比损失,为平滑性损失,λ1,λ2,λ3分别为光度重建损失、峰值信噪比损失和平滑性损失的权重。
[0022]进一步地,所述光度重建损失通过以下公式确定:
[0023][0024]其中,为光度重建损失,M是与输入图像同尺寸的布尔矩阵,pe(
·
)为光度重建误差函数,为由t

1时刻的参考图片合成的目标图片,为由t+1时刻的参考图片合成的目标图片,I为真实图片。
[0025]进一步地,所述光度重建误差函数通过以下公式确定:
[0026][0027]其中,为和I的光度重建误差函数,和I分别为目标图片和真实图片,α为权重系数,为和I的结构相似性,为合成图片与真实图片的像素之差的L1范数。
[0028]进一步地,所述峰值信噪比损失通过以下公式确定:
[0029][0030]其中,为峰值信噪比损失,MAX
I
为图像点颜色的最大数值,MSE为均方误差。
[0031]进一步地,所述平滑性损失通过以下公式确定:
[0032][0033]其中,为平滑性损失,为x方向的梯度算子,I
t
为t时刻的图片,为y方向的梯度算子,为各像素深度估计除以整张图片的深度估计平均值的结果。
[0034]更进一步地,基于损失函数使用梯度下降法训练深度估计网络和深度位姿网络得到深度估计模型和位姿估计模型。
[0035]本专利技术的有益效果是:
[0036]本专利技术通过深度训练学习的方法估计单目内窥镜视频的深度及位姿信息以进行三维模型重建,重建模型的场景信息能帮助医生直观地观察到各组织之间的空间距离信息,提高操作的准确性。
[0037]本专利技术方法中的训练集、测试集直接采用视频图像中的图像,而不直接用深度图,应用到内窥镜图像的三维重建领域,可以实现较为精确的深度估计。
[0038]本专利技术深度估计网络,使用Transformer作为编码器,提高了深度图预测的准确率,在内窥镜图像深度图预测上表现较好。
[0039]本专利技术位姿估计网络采用多尺度的特征估计,进行损失函数计算时,将各个尺度的损失合并在一起,将较低分辨率的深度图上采样到较高的输入图像分辨率,然后在较高的输入分辨率下重新投影,重新采样并计算光度误差。这使得各个比例尺上的深度图以实现相同的目标,即对目标图像进行精确的高分辨率重建,提高位姿估计的准确性。
附图说明
[0040]图1为本专利技术的网络结构示意图。
[0041]图2为本专利技术深度编码网络结构示意图。
[0042]图3为本专利技术多尺度特征估计的示意图。
[0043]图4为本专利技术双线性插值的过程图。
[0044]图5为本专利技术深度估计的结果示意图。
具体实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种单目内窥镜视频深度与位姿估计方法,其特征在于,包括以下步骤:构建深度估计网络和位姿估计网络;获取训练集和测试集,对训练集和测试集中的图片进行增强处理;将增强后的训练集输入至深度估计网络和位姿估计网络,得到深度估计值和位姿估计值;基于深度估计值、位姿估计值及参考图片进行视图合成得到合成的目标图片;将真实图片与目标图片比较计算损失函数;基于损失函数训练深度估计网络和深度位姿网络得到深度估计模型和位姿估计模型;通过深度估计模型和位姿估计模型对增强后的测试集进行预测得到深度估计结果和位姿估计结果。2.根据权利要求1所述的单目内窥镜视频深度与位姿估计方法,其特征在于:所述增强处理包括对图片进行随机水平翻转,以及进行亮度、对比度、饱和度、色调的随机变化。3.根据权利要求1所述的单目内窥镜视频深度与位姿估计方法,其特征在于:将t时刻的图片I
t
输入深度估计网络,得到其深度估计图将t时刻的图片及其相邻的t

时刻的图片{I
t
,I
t

}输入位姿估计网络,得到从t时刻到t

时刻的相机位姿变换则深度估计图和位姿变换分别为t时刻的图片的深度估计值和位姿估计值;所述参考图片为t

时刻图片。4.根据权利要求1所述的单目内窥镜视频深度与位姿估计方法,其特征在于,目标图片中像素的齐次坐标与其在参考图片上的投影坐标的关系为:其中,p
t
为目标图片中像素的齐次坐标,p
t

为p
t
在参考图片I
t

上的投影坐标,K为相机内参矩阵,为t时刻到t

【专利技术属性】
技术研发人员:彭望张蒙召王植炜李强
申请(专利权)人:华中农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1