一种单目内窥镜视频深度与位姿估计方法技术

技术编号：38826207 阅读：27 留言：0更新日期：2023-09-15 20:05

本发明专利技术公开了一种单目内窥镜视频深度与位姿估计方法，构建深度估计网络和位姿估计网络；获取训练集和测试集并进行增强处理；将增强后的训练集输入至深度估计网络和位姿估计网络，得到深度估计值和位姿估计值；基于深度估计值、位姿估计值及参考图片进行视图合成得到合成的目标图片；将真实图片与目标图片比较计算损失函数；基于损失函数得到深度估计模型和位姿估计模型；对增强后的测试集进行预测得到深度估计结果和位姿估计结果。本发明专利技术通过深度训练学习的方法估计单目内窥镜视频的深度及位姿信息以进行三维模型重建，重建模型的场景信息能帮助医生直观地观察到各组织之间的空间距离信息，提高操作的准确性。提高操作的准确性。提高操作的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种单目内窥镜视频深度与位姿估计方法

[0001]本专利技术属于视觉的深度估计与三维重建
，具体涉及一种单目内窥镜视频深度与位姿估计方法。

技术介绍

[0002]微创手术与传统的开放式手术相比具有出血少、感染率低的潜在优势。在传统单目内窥镜手术中，医生只能依靠2D图像推测各个组织的空间距离信息，导致手术非常困难且精确度不高。但MIS也存在视野受限、内镜定位差、缺乏触觉反馈等缺点。所以需要对单目内窥镜视频进行三维重建，将2D图像重建至3D图像。
[0003]传统的多视图立体重建方法，如sfM,SfS,SLAM等能在特征丰富的场景中重建三维结构，但应用到内窥镜图像的重建时存在一些问题。主要是：第一，内窥镜图像存在特征点少且分布不均的缺点，这会导致传统方法重建效果不佳，而且只能进行稀疏重建。第二：传统重建算法的特征点匹配牵涉到大量的非线性计算，而内窥镜视频通常是高帧率的，这就使得重建的实时性较差；第三：内窥镜视频采集时，是由附在内窥镜上的灯提供照片，当内窥镜运动时，照明灯随之运动，导致采集到的内窥镜视频会有较为明显的亮度波动，图片亮度不一致使传统重建算法中的特征点匹配步骤的难度增大。因此，应用传统重建算法难以对内窥镜手术场景进行实时且稠密的三维重建。
[0004]近年来有研究者提出使用深度学习进行实时稠密三维重建与位姿估计，基于深度学习的单目重建方法通常需要大量深度标签进行训练。在内窥镜手术中，获取深度真值需要昂贵的传感器和严格的校准，且在临床手术中增添侵入性设备会额外增加患者的痛苦，所以获取有监督单...

【技术保护点】

【技术特征摘要】
1.一种单目内窥镜视频深度与位姿估计方法，其特征在于，包括以下步骤：构建深度估计网络和位姿估计网络；获取训练集和测试集，对训练集和测试集中的图片进行增强处理；将增强后的训练集输入至深度估计网络和位姿估计网络，得到深度估计值和位姿估计值；基于深度估计值、位姿估计值及参考图片进行视图合成得到合成的目标图片；将真实图片与目标图片比较计算损失函数；基于损失函数训练深度估计网络和深度位姿网络得到深度估计模型和位姿估计模型；通过深度估计模型和位姿估计模型对增强后的测试集进行预测得到深度估计结果和位姿估计结果。2.根据权利要求1所述的单目内窥镜视频深度与位姿估计方法，其特征在于：所述增强处理包括对图片进行随机水平翻转，以及进行亮度、对比度、饱和度、色调的随机变化。3.根据权利要求1所述的单目内窥镜视频深度与位姿估计方法，其特征在于：将t时刻的图片I
t
输入深度估计网络，得到其深度估计图将t时刻的图片及其相邻的t
′
时刻的图片{I
t
，I
t
′
}输入位姿估计网络，得到从t时刻到t
′
时刻的相机位姿变换则深度估计图和位姿变换分别为t时刻的图片的深度估计值和位姿估计值；所述参考图片为t
′
时刻图片。4.根据权利要求1所述的单目内窥镜视频深度与位姿估计方法，其特征在于，目标图片中像素的齐次坐标与其在参考图片上的投影坐标的关系为：其中，p
t
为目标图片中像素的齐次坐标，p
t
′
为p
t
在参考图片I
t
′
上的投影坐标，K为相机内参矩阵，为t时刻到t
′

【专利技术属性】
技术研发人员：彭望，张蒙召，王植炜，李强，
申请(专利权)人：华中农业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人