基于校正的交互式人体解析方法、系统、介质及设备技术方案

技术编号：41116394 阅读：17 留言：0更新日期：2024-04-25 14:06

本公开涉及基于校正的交互式人体解析方法、系统、介质及设备，所述方法包括：编码用户点击以生成定位图，将所述定位图与人体RGB图像级联作为模型的输入；构建具有多个可选择卷积参数的卷积层的神经网络，并通过所述神经网络获取所述人体RGB图像的深度特征；其中，所述神经网络用于解析不同类别的交互样本；构建在线更新记忆库对历史出现过的校正‑误预测对进行存储；其中，所述校正‑误预测对为标注者和模型在人体部位的语义认知方面差异；利用神经网络对所述在线更新记忆库的内容在预设迭代周期内进行数据更新，将所述在线更新记忆库中不常用的记忆原型进行更新替代；通过用户迭代向错误区域添加校正点击来完善分割结果，直至完成人体图像分割。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及图像分割，更为具体来说，本公开涉及基于校正的交互式人体解析方法、系统、介质及设备。

技术介绍

1、近年来，人体解析因其广泛的应用场景而受到了极大关注，如人类行为和属性分析，自动驾驶，智慧医疗等。优秀的人体解析模型通常需要大量精细标注的像素级标签进行训练。更多的标注数据往往能带来更好的性能。然而，公开可用的人体解析数据集数量有限，构建更多细粒度的训练数据既耗时又费力。

2、由于交互式分割在标注图像数据等方面的高效性，越来越多的研究关注这一研究领域。现有的交互式分割方法通常通过挖掘用户点击的潜在信息或探索高效的交互形式及交互策略来追求更高的交互效率。然而，这些工作在面向交互式人体解析任务时忽视了挖掘用户校正和模型误预测之间的语义相关性，因此存在两个缺陷。首先，在实际使用中，类似的预测错误经常发生，使得用户需要反复进行校正，存在交互信息冗余。其次，不同人体部位类在不同图像的交互难度不同，但现有方法对所有图像采用单一的卷积参数设置，导致模型解析高交互难度的人体部位类时鲁棒性较差。

技术实现思路

1、本专利技术公开的主要目的在于解决现有技术模型解析高交互难度的人体部位类时鲁棒性较差的技术问题。

2、为实现上述技术目的，本公开提供了一种基于校正和误预测语义相关性的交互式人体解析方法，所述方法包括：

3、编码用户点击以生成定位图，将所述定位图与人体rgb图像级联作为模型的输入；

4、构建具有多个可选择卷积参数的卷积层的神经网络，并通过所述

5、构建在线更新记忆库对历史出现过的校正-误预测对进行存储；其中，所述校正-误预测对为标注者和模型在人体部位的语义认知方面差异；

6、利用所述神经网络对所述在线更新记忆库的内容在预设迭代周期内进行数据更新，将所述在线更新记忆库中不常用的记忆原型进行更新替代；

7、通过用户迭代向错误区域添加校正点击来完善分割结果，直至完成人体图像分割。

8、进一步，所述构建在线更新记忆库对历史出现过的校正-误预测对进行存储具体包括：

9、为每个混淆类别构建一组特征向量，并分别存储于所述在线更新记忆库中。

10、进一步，所述神经网络基于deeplab v3+网络模型为基础模型进行修改后得到。

11、进一步，所述神经网络具有在线学习损失度函数，所述损失度函数loss表示为：

12、

13、其中，是使用标签gt计算的标准交叉熵损失，标签gt取init和corr，init是初始化掩模，corr是仅包含校正点击的稀疏标签；

14、为改变网络参数的代价计算项；γ为参数正则化的强度；λ为损失系数。

15、为实现上述技术目的，本公开还能够提供一种基于校正和误预测语义相关性的交互式人体解析系统，所述系统包括：

16、输入模块，用于编码用户点击以生成定位图，将所述定位图与人体rgb图像级联作为模型的输入；

17、模型构建模块，用于构建具有多个可选择卷积参数的卷积层的神经网络，并通过所述卷积神经网络获取所述人体rgb目标图像的深度特征；其中，所述神经网络用于解析不同类别的交互样本；

18、构建在线更新记忆库对历史出现过的校正-误预测对进行存储；其中，所述校正-误预测对为标注者和模型在人体部位的语义认知方面差异；

19、迭代模块，用于利用所述神经网络对所述在线更新记忆库的内容在预设迭代周期内进行数据更新，将所述在线更新记忆库中不常用的记忆原型进行更新替代；

20、图像分割模块，用于通过用户迭代向错误区域添加校正点击来完善分割结果，直至完成人体图像分割。

21、进一步，所述构建在线更新记忆库对历史出现过的校正-误预测对进行存储具体包括：

22、为每个混淆类别构建一组特征向量，并分别存储于所述在线更新记忆库中。

23、进一步，所述神经网络基于deeplab v3+网络模型为基础模型进行修改后得到。

24、进一步，所述神经网络具有在线学习损失度函数，所述损失度函数loss表示为：

25、

26、其中，是使用标签gt计算的标准交叉熵损失，标签gt取init和corr，init是初始化掩模，corr是仅包含校正点击的稀疏标签；

27、为改变网络参数的代价计算项；γ为参数正则化的强度；λ为损失系数。

28、为实现上述技术目的，本公开还能够提供一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器执行时用于实现上述的基于校正和误预测语义相关性的交互式人体解析方法的步骤。

29、为实现上述技术目的，本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述的基于校正和误预测语义相关性的交互式人体解析方法的步骤。

30、本公开的有益效果：

31、本公开设计了一种简单有效的在线学习方案用于交互式人体解析，即校正-误预测关联挖掘模型(cm2)。该方法有助于通过减少相似的误预测和提高模型处理高难度交互部位类的能力来有效提高交互效率。

32、本公开的cm2模型在主流人体解析数据集上达到了领先的分割性能，表明了其有效性。同时本公开的cm2模型还有助于提高交互式对象分割的交互效率，并能在场景解析任务中保持其有效性，表明了其通用性。

本文档来自技高网...

【技术保护点】

1.一种基于校正和误预测语义相关性的交互式人体解析方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述构建在线更新记忆库，对历史出现过的校正-误预测对进行存储具体包括：

3.根据权利要求1或2任一项中所述的方法，其特征在于，所述神经网络基于DeepLabV3+网络模型为基础模型进行修改后得到。

4.根据权利要求3所述的方法，其特征在于，所述神经网络具有在线学习损失度函数，所述损失度函数loss表示为：

5.一种基于校正和误预测语义相关性的交互式人体解析系统，其特征在于，包括：

6.根据权利要求5所述的系统，其特征在于，所述构建在线更新记忆库对历史出现过的校正-误预测对进行存储具体包括：

7.根据权利要求5或6中所述的系统，其特征在于，所述神经网络基于DeepLab V3+网络模型为基础模型进行修改后得到。

8.根据权利要求7所述的系统，其特征在于，所述神经网络具有在线学习损失度函数，所述损失度函数loss表示为：

9.一种电子设备，包括存储器、处理器及存储在存储器上

10.一种计算机存储介质，其上存储有计算机程序指令，其特征在于，所述程序指令被处理器执行时用于实现权利要求1～4任一项中所述的基于校正和误预测语义相关性的交互式人体解析方法对应的步骤。

...

【技术特征摘要】

1.一种基于校正和误预测语义相关性的交互式人体解析方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述构建在线更新记忆库，对历史出现过的校正-误预测对进行存储具体包括：

3.根据权利要求1或2任一项中所述的方法，其特征在于，所述神经网络基于deeplabv3+网络模型为基础模型进行修改后得到。

4.根据权利要求3所述的方法，其特征在于，所述神经网络具有在线学习损失度函数，所述损失度函数loss表示为：

5.一种基于校正和误预测语义相关性的交互式人体解析系统，其特征在于，包括：

6.根据权利要求5所述的系统，其特征在于，所述构建在线更新记忆库对历史出现过的校正-误预测对进行存储具体包括：<...

【专利技术属性】
技术研发人员：高宇童，孙利娟，翁彧，胥桂仙，南国顺，吴旭，
申请(专利权)人：中央民族大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人