一种深度估计网络训练方法、深度估计方法及电子设备技术

技术编号：42412141 阅读：11 留言：0更新日期：2024-08-16 16:29

本申请提供一种深度估计网络训练方法、深度估计方法及电子设备，深度估计网络包括人体解析子网络和单目深度估计子网络，训练方法包括：利用人体解析子网络对训练图像进行特征提取，得到包含人体语义信息的第一中间特征；利用单目深度估计子网络对训练图像进行特征提取，得到包含深度信息的第二中间特征；并基于第一中间特征和第二中间的融合特征对进行深度估计，得到预测深度信息。这样，包含人体语义信息的第一中间特征能够帮助单目深度估计子网络更好地学习训练图像中主体信息以及人体各部位之间的相关性，以将人体各部分与图像中背景区分，使深度估计结果与人体解析结果一致，从而提升主体深度的准确性以及人体各部位的深度细节。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于网络训练，尤其涉及一种深度估计网络训练方法、深度估计方法及电子设备。

技术介绍

1、人像虚化处理是指基于图像的深度信息，得到图像中的人像和背景的深度关系。然后，通过人像和背景的深度关系，对焦人像而虚化背景。这种人像虚化效果可以突出人体，增强意境。

2、其中，实现人像虚化效果的关键在于正确估计图像的深度信息。常用的深度估计方法主要包括双目深度估计方法和单目深度估计方法。

3、但是，对于夜景、运动等复杂场景拍摄的图像，双目深度估计方法和单目深度估计方法均无法正确估计图像的深度信息，导致人像虚化效果不理想，影响用户体验。

技术实现思路

1、本申请提供一种深度估计网络训练方法、深度估计方法及电子设备，可以提升基于单目深度估计方法对图像进行人像虚化处理的人像虚化效果。

2、第一方面，本申请提供一种深度估计网络训练方法，所述深度估计网络包括人体解析子网络和单目深度估计子网络，所述方法包括：获取训练数据，所述训练数据包括训练图像以及与所述训练图像对应的真实深度信息；利用所述人体解析子网络对所述训练图像进行特征提取，得到包含人体语义信息的第一中间特征；利用所述单目深度估计子网络对所述训练图像进行特征提取，得到包含深度信息的第二中间特征；利用所述单目深度估计子网络对所述第一中间特征和所述第二中间特征进行特征融合，得到融合特征；利用所述单目深度估计子网络对所述融合特征对进行深度估计，得到预测深度信息；基于所述预测深度信息和所述真实深度信息，对所述单目深度估

3、这样，本申请在对单目深度估计子网络训练时，融合包含人体语义信息的第一中间特征，并基于融合特征预测训练图像的深度信息。这样，包含人体语义信息的第一中间特征能够帮助单目深度估计子网络更好地学习训练图像中主体信息以及人体各部位之间的相关性，以将人体各部分与图像中背景区分，使深度估计结果与人体解析结果一致，从而提升主体深度的准确性以及人体各部位的深度细节。

4、在一种可实现方式中，基于所述预测深度信息和所述真实深度信息，对所述单目深度估计子网络进行训练，得到训练后的单目深度估计子网络，包括：确定训练图像中不同区域的损失权重；其中，训练图像中人像区域的损失权重大于背景区域的损失权重；基于不同区域的损失权重、预测深度信息和真实深度信息，计算深度损失；在深度损失小于深度损失阈值的情况下，结束对单目深度估计子网络的训练，得到训练后的单目深度估计网络。

5、这样，在反向传播更新网络参数时，由于人像区域的损失梯度更大，网络更新将更加关注提升人像区域的深度图的质量，从而使输出的深度图中人像区域显得更加清晰连贯、误差更小。

6、在一种可实现方式中，所述确定所述训练图像中不同区域的损失权重，包括：基于人体各部位的运动幅度和/或所述训练图像中人体各部位的颜色，确定所述训练图像中人像的关键部位；确定所述关键部位的损失权重大于所述人像的其他部位的损失权重。

7、这样，在反向传播更新网络参数时，由于关键部位的损失梯度更大，网络更新将更加关注提升关键部位的深度图的质量。这样，单目深度子网络可以在头发、四肢、深色衣服等关键部位所在区域生成更准确的深度结果，使输出的深度图中人体区域显得更加清晰连贯、误差更小。

8、在一种可实现方式中，基于人体各部位的运动幅度和/或所述训练图像中人体各部位的颜色，确定所述训练图像中人像的关键部位，包括：确定所述训练图像中人体各部位的明度；将所述训练图像中明度小于明度阈值的人体部位确定为关键部位；和/或，确定所述训练图像中人体各部位的运动幅度；将所述训练图像中运动幅度大于运动幅度阈值的人体部位确定为关键部位。

9、明度可以表示颜色从白到黑的亮度程度，明度越高颜色越浅，明度越低颜色越深。这样，可以基于人体各部位的明度，确定人体各部位中深色区域和浅色区域。以进一步将深色区域确定为关键部位。

10、在一种可实现方式中，所述方法还包括：获取原始训练图像以及与所述原始训练图像对应的真实人体语义信息；基于所述真实人体语义信息对所述原始训练图像中人像进行运动模糊增强处理，得到运动场景训练图像；基于所述真实人体语义信息对所述原始训练图像进行暗光增强处理，得到夜景场景训练图像；其中，所述运动场景训练图像和所述夜景场景训练图像组成所述训练图像。

11、这样，考虑到样本库中的夜景、运动等复杂场景下拍摄的真实场景图像数量较少。因此，可以通过对普通场景下采集图像进行运动模糊增强处理，得到运动场景训练图像。以及通过对普通场景下采集图像进行暗光增强处理，得到夜景场景训练图像。

12、在一种可实现方式中，基于所述真实人体语义信息对所述原始训练图像中人像进行运动模糊增强处理，得到运动场景训练图像，包括：基于所述真实人体语义信息，确定所述训练图像中人体各部位；确定人体不同部位的模糊参数，所述模糊参数包括运动方向和运动速度；其中，运动幅度越大的人体部位的运动速度越大；基于所述模糊参数，对所述训练图像中人体不同部位进行不同程度的模糊处理，得到所述运动场景训练图像。

13、由于真实运动场景中，往往人体的不同部位的运动幅度不同。例如，在挥手运动场景，人体的四肢的运动幅度要明显大于躯干的运动幅度。因此，本申请为了使得到的运动模糊图像更贴合实际运动场景，可以基于人体不同部位运动幅度，对人体不同部位进行不同程度的模糊处理，得到运动场景训练图像。

14、在一种可实现方式中，所述训练数据还包括与所述训练图像对应的真实人体语义信息；所述方法还包括：利用所述人体解析子网络对所述训练图像进行人体解析处理，得到预测人体语义信息；基于所述预测人体语义信息和所述真实人体语义信息，对所述人体解析子网络进行训练，得到训练后的人体解析子网络。

15、本申请在对深度估计网络训练时，可以利用预先训练好的人体解析子网络进一步对深度估计网络进行训练。也可以利用未预先训练好的人体解析子网络与单目深度估计子网络同步训练。

16、在一种可实现方式中，利用所述人体解析子网络对所述训练图像进行特征提取，得到包含人体语义信息的第一中间特征，包括：利用训练后的人体解析子网络对所述训练图像进行人体解析处理，得到第一中间特征。

17、这样，基于训练好的人体解析子网络提取到的第一中间特征更加准确，能够更好的引导单目深度估计子网络学习训练图像中主体信息以及人体各部位之间的相关性。

18、第二方面，本申请还提供一种深度估计方法，应用于电子设备，所述电子设备包括深度估计网络，所述深度估计网络包括人体解析子网络和单目深度估计子网络；所述方法包括：获取待处理图像；利用所述人体解析子网络对所述待处理图像进行特征提取，得到包含人体语义信息的第一中间特征；利用所述单目深度估计子网络对所述待处理图像进行特征提取，得到包含深度信息的第二中间特征；利用所述单目深度估计子网络对所述第一中间特征和所述第二中间特征进行特征融本文档来自技高网...

【技术保护点】

1.一种深度估计网络训练方法，其特征在于，所述深度估计网络包括人体解析子网络和单目深度估计子网络，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，基于所述预测深度信息和所述真实深度信息，对所述单目深度估计子网络进行训练，得到训练后的单目深度估计子网络，包括：

3.根据权利要求2所述的方法，其特征在于，所述确定所述训练图像中不同区域的损失权重，包括：

4.根据权利要求3所述的方法，其特征在于，基于人体各部位的运动幅度和/或所述训练图像中人体各部位的颜色，确定所述训练图像中人像的关键部位，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，基于所述真实人体语义信息对所述原始训练图像中人像进行运动模糊增强处理，得到运动场景训练图像，包括：

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述训练数据还包括与所述训练图像对应的真实人体语义信息；所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，利用所述人体解析子网络对所述训

9.一种深度估计方法，其特征在于，应用于电子设备，所述电子设备包括深度估计网络，所述深度估计网络包括人体解析子网络和单目深度估计子网络；所述方法包括：

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

11.一种电子设备，其特征在于，包括存储器和处理器；所述存储器和所述处理器耦合；所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述处理器执行所述计算机指令时，使所述电子设备执行如权利要求1-10中任一项所述的方法。

12.一种芯片系统，其特征在于，所述芯片系统包括处理器；所述处理器与存储器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述处理器执行所述计算机指令时，如权利要求1-10中任一项所述的方法被执行。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序或指令，当所述计算机程序或指令在计算机上运行时，使得计算机执行如权利要求1-10中任一项所述的方法。

...

【技术特征摘要】

1.一种深度估计网络训练方法，其特征在于，所述深度估计网络包括人体解析子网络和单目深度估计子网络，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述确定所述训练图像中不同区域的损失权重，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述训练数据还包括与所述训练图像对应的真实人体语义信息；所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，利用所述人体解析子网络对所述...

【专利技术属性】
技术研发人员：卢溜，
申请(专利权)人：荣耀终端有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人