System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及外耳区域分割与关键点定位,特别是指一种跨模态外耳区域分割与关键点定位方法和系统。
技术介绍
1、在可穿戴式耳部设备的研发领域, 基于3d数据的外耳区域分割与关键点定位是尺寸和外观设计的重要基础。外耳面积相对较小,但具有多个紧密相邻的区域与散布的关键点。与可穿戴耳部设备密切相关的耳部区域包括耳轮、耳甲等,关键点包括耳轮边缘点、耳甲与对耳轮、耳屏、对耳屏等部位相交线上的关键点。由于3d点云数据具有精确的三维测量能力,所以基于3d耳部数据的区域分割和关键点定位的准确性对设备的适佩性起到至关重要的作用。
2、虽然每个人耳廓都具备这些关键区域和关键点,但是每个个体却因下述原因又都存在差异。第一,从头顶向下看,不同个体的外耳与颅面所成夹角即颅耳角各不相同(两种极端情况是招风耳和贴发耳);第二,从外耳正面观察,不同个体的外耳在头颅侧面上的旋转角度即“耳廓倾斜度”呈现0度-70度的多样化;第三,个体耳部几何结构存在差异,表面沟回起伏程度各异。这些差异对于各小区域的分割和关键点的定位带来很大挑战。
技术实现思路
1、为了解决上述现有技术存在的技术问题,本专利技术提供了一种跨模态外耳区域分割与关键点定位方法,所述技术方案如下:
2、一方面,提供了一种跨模态外耳区域分割与关键点定位方法,该方法包括:
3、s1、获取待分割定位的多模态外耳数据,所述多模态外耳数据包括外耳rgb图像、深度图和3d点云;
4、s2、将所述多模态外耳数据输入多模态外耳
5、所述各模态数据特征提取模块,将各模态特征提取出来,包括深度图特征提取模块、rgb图像特征提取模块、点云特征提取模块和体素特征提取模块,分别提取深度图特征、rgb图像特征、点云特征和体素特征;
6、所述模通汇聚模块,利用图像特征去增强体素特征和深度图特征,包括体素和rgb图像特征融合模块、深度图和rgb图像特征融合模块,分别得到图像增强的体素视图特征、图像增强的深度图特征;
7、所述视域联通模块,对三维的所述点云特征、所述图像增强的体素视图特征、图像增强的深度图特征进行三模态聚合,得到聚合的视域联通特征;
8、所述区域分割头,对所述聚合的视域联通特征进行区域分割,得到外耳区域结果;
9、所述关键点定位头,对所述聚合的视域联通特征中的体素特征进行关键点定位,得到各个关键点的3d坐标位置。
10、可选地,所述深度图特征提取模块,对输入的深度图,其中、、分别为深度图的高度、宽度、通道数,先进行卷积、归一化和非线性激活,然后通过多层堆叠的编码器层进行局部特征提取和上下文关联,其中的多层堆叠用以捕捉复杂模式与结构,所述编码器层的处理过程为:
11、将输入特征先经过卷积、批次标准化和非线性激活,再输入两个含有卷积、批次标准化和非线性激活的模块,这个模块的输出与输入进行残差拼接;
12、每个编码器层后增加一个dropout,缓解深层网络中的梯度消失问题,并加速模型的收敛;
13、然后特征经多层堆叠的解码器上采样逐步还原特征分辨率,并将每一层解码层输出与对应的编码层的dropout输出相加,有效提取深度图中的空间结构信息,解码器层的处理过程为:
14、将输入特征先经过上采样、批次标准化和非线性激活,再输入两个含有卷积、批次标准化和非线性激活的模块,这个模块的输出与输入进行残差拼接;
15、最后一个解码器层后增加一个dropout用于增强模型的稳定性和防止过拟合,dropout后得到最终的深度图特征,其中分别为特征图的高度、宽度和通道数。
16、可选地,所述rgb图像特征提取模块,对输入的rgb图像,其中、、分别为rgb图像的高度、宽度、通道数,先经过卷积、批次标准化和非线性激活以获得初始特征图,再依次输入到编码器1、2、3、4中分别进行3,4,6,3次下采样,降低特征尺寸来增大感受野,将编码器2、3、4输出的特征分别通过上采样将特征尺寸大小与初始特征图尺寸大小保持一致,最后将3个上采样的结果、初始特征图以及编码器1的输出结果在特征通道上拼接起来,并进行卷积使提取的rgb图像特征与所述深度图特征的通道数一致,便于后续特征融合,其中分别为特征图的高度、宽度和通道数。
17、可选地,所述点云特征提取模块,通过基于几何邻域的下采样方法提取出3d点云特征,其中n为点的数量,为点云特征的通道数,提取过程为:
18、定义多个局部中心点及其局部邻域;
19、在定义的邻域范围内,计算每个点的局部几何特征,所述局部几何特征包括邻域内每个点相对于中心点的位置偏移向量、邻域内每个点到中心点的距离分布、法线方向;
20、然后通过聚类,将多个邻域划分为多个簇,然后为每个簇选择一个代表点,将所述代表点的局部几何特征作为提取的点云特征,所述点云特征的维度得到压缩,但空间结构信息得到保留,使得重要的几何信息不被丢失。
21、可选地,所述体素特征提取模块,在降低计算复杂度的同时,保持点云的大体空间结构,提取过程包括分组和采样两个阶段,分组阶段中,每个点根据其空间坐标分配到体素中,生成一个缓冲区,其中是体素最大数量,t是每个体素中点的最大数量,是点的特征维度,如果某体素中的点数超过t,则通过采样阶段下采样至t个点;当体素总数超过时,也会对体素进行下采样,若点数和体素数量均未超出容量,缓冲区的未使用部分填充为0;然后对非空体素进行平均池化,并通过聚合操作计算体素内所有点的特征均值,将多个点的特征整合为单一表示,得到体素特征,其中为体素特征的通道数,为非空体素数目。
22、可选地,所述体素和rgb图像特征融合模块,利用图像特征去增强体素特征,过程为:
23、利用相机矩阵建立三维空间点与二维图像像素的对应关系,3d点()与rgb图像像素()之间的对应关系如下式所示:
24、(1)
25、其中,是由旋转矩阵和平移矩阵组成的相机外参矩阵,为相机内参矩阵,通过上述变换,将三维体素的中心点坐标投影到图像平面,并确定其对应的像素位置,对应的rgb图像特征表示为;
26、由于相机标定过程中可能存在误差,导致投影位置存在偏差,因此引入像素偏移量对像素位置进行动态调整,以更精确地对齐三维体素与二维图像特征,经偏移校正后采样的第个图像特征表示为,其中表示对像素位置估计的第个偏移量,,偏移量的总数为个,像素偏移量的估计是通过网络训练过程中优化区域分割和关键点定位的损失函数来自动学习的,补偿由于相机校准误差带来的像素点偏移问题,损失函数使用多头交叉注意力机制来学习像素偏移量,让像素偏移量自动对齐最优的像素偏移量,过程如下:
27、对第个体素特征,经过线性变换矩阵,作为查询向量query,对第个图像特征分别经过线性变本文档来自技高网...
【技术保护点】
1.一种跨模态外耳区域分割与关键点定位方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述深度图特征提取模块,对输入的深度图,其中、、分别为深度图的高度、宽度、通道数,先进行卷积、归一化和非线性激活,然后通过多层堆叠的编码器层进行局部特征提取和上下文关联,其中的多层堆叠用以捕捉复杂模式与结构,所述编码器层的处理过程为:
3.根据权利要求2所述的方法,其特征在于,所述RGB图像特征提取模块,对输入的RGB图像,其中、、分别为RGB图像的高度、宽度、通道数,先经过卷积、批次标准化和非线性激活以获得初始特征图,再依次输入到编码器1、2、3、4中分别进行3,4,6,3次下采样,降低特征尺寸来增大感受野,将编码器2、3、4输出的特征分别通过上采样将特征尺寸大小与初始特征图尺寸大小保持一致,最后将3个上采样的结果、初始特征图以及编码器1的输出结果在特征通道上拼接起来,并进行卷积使提取的RGB图像特征与所述深度图特征的通道数一致,便于后续特征融合,其中分别为特征图的高度、宽度和通道数。
4.根据权利要求1所述的方法,其特征在于,所
5.根据权利要求1所述的方法,其特征在于,所述体素特征提取模块,在降低计算复杂度的同时,保持点云的大体空间结构,提取过程包括分组和采样两个阶段,分组阶段中,每个点根据其空间坐标分配到体素中,生成一个缓冲区,其中是体素最大数量,T是每个体素中点的最大数量,是点的特征维度,如果某体素中的点数超过T,则通过采样阶段下采样至T个点;当体素总数超过时,也会对体素进行下采样,若点数和体素数量均未超出容量,缓冲区的未使用部分填充为0;然后对非空体素进行平均池化,并通过聚合操作计算体素内所有点的特征均值,将多个点的特征整合为单一表示,得到体素特征,其中为体素特征的通道数,为非空体素数目。
6.根据权利要求1所述的方法,其特征在于,所述体素和RGB图像特征融合模块,利用图像特征去增强体素特征,过程为:
7.根据权利要求1所述的方法,其特征在于,所述视域联通模块,首先应用深度到点的正变换和体素到点的正变换将深度和体素视图特征分别映射到点视图空间,其中:
8.根据权利要求1所述的方法,其特征在于,所述区域分割头,将特征通道维度拼接的N个,输入到全连接层、softmax和条件随机场模块中进行区域分割任务,最终得到多个3D掩码结果,每个3D掩码结果对应一个耳部区域。
9.根据权利要求1所述的方法,其特征在于,所述关键点定位头,对输入的所述聚合的视域联通特征中的体素特征,利用体素编码器和体素解码器估计每个关键点的体素似然值,并生成每个关键点的3D热图,将所有关键点的3D热图进行合并,得到各个关键点的3D坐标位置,过程如下:
10.一种跨模态外耳区域分割与关键点定位系统,其特征在于,所述系统包括:
...【技术特征摘要】
1.一种跨模态外耳区域分割与关键点定位方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述深度图特征提取模块,对输入的深度图,其中、、分别为深度图的高度、宽度、通道数,先进行卷积、归一化和非线性激活,然后通过多层堆叠的编码器层进行局部特征提取和上下文关联,其中的多层堆叠用以捕捉复杂模式与结构,所述编码器层的处理过程为:
3.根据权利要求2所述的方法,其特征在于,所述rgb图像特征提取模块,对输入的rgb图像,其中、、分别为rgb图像的高度、宽度、通道数,先经过卷积、批次标准化和非线性激活以获得初始特征图,再依次输入到编码器1、2、3、4中分别进行3,4,6,3次下采样,降低特征尺寸来增大感受野,将编码器2、3、4输出的特征分别通过上采样将特征尺寸大小与初始特征图尺寸大小保持一致,最后将3个上采样的结果、初始特征图以及编码器1的输出结果在特征通道上拼接起来,并进行卷积使提取的rgb图像特征与所述深度图特征的通道数一致,便于后续特征融合,其中分别为特征图的高度、宽度和通道数。
4.根据权利要求1所述的方法,其特征在于,所述点云特征提取模块,通过基于几何邻域的下采样方法提取出3d点云特征,其中n为点的数量,为点云特征的通道数,提取过程为:
5.根据权利要求1所述的方法,其特征在于,所述体素特征提取模块,在降低计算复杂度的同时,保持点云的大体空间结构,提取过程包括分组和采样两个阶段,分组阶段中,每个点...
【专利技术属性】
技术研发人员:袁立,左文豪,李江昀,张天翔,王宏,庄培显,
申请(专利权)人:北京科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。