一种电商产品抠图方法技术

技术编号：41880956 阅读：38 留言：0更新日期：2024-07-02 00:35

本发明专利技术公开了一种电商产品抠图方法，其特征在于利用高精度图像二类分割模型对电商产品进行显著性检测，预测出产品的前景和背景，基于前景和背景预测结果，采用腐蚀和膨胀操作，将二类分割图转化为包含前景、背景和边界的三分图；将产品的原始图像以及生成的三分图作为输入，再基于三分图训练改进的transformer结构抠图模型。本发明专利技术通过改进transformer结构，使用基于窗口的注意力机制、基于窗口偏移的注意力机制和相对位置编码，能更好的融合局部和全局特征信息，并将三分图的全局表征融入原始图像窗口区域的注意力计算中，得到精确的产品抠图结果，有效解决了由于忽略三分图先验信息而导致抠图蒙版预测不准确的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机图像抠图领域，尤其涉及一种电商产品抠图方法。

技术介绍

1、商品图像抠图在电商平台中应用广泛,可用于商品展示、海报制作等,对抠图质量要求高，都需要高精度的抠图结果才能保证好的展示效果，而对于精细抠图任务往往需要消耗更大人力和时间；但现有抠图方法面临训练数据单一、环境复杂、运算效率低等困难,难以满足海量商品图像的抠图需求。

2、主流抠图算法依赖人工绘制高质量三分图,操作复杂费时，近年的端到端框架的抠图方法流程简单但直接应用于商品图像时容易造成主体缺失和边缘模糊等问题，而对于机械类或元器件类的复杂商品图像效果更差；考虑商品图像主体较为突出，目前有更好的两阶段框架：第一阶段利用显著性做商品主体检测，第二阶段使用抠图模型进行边缘细化；但目前显著性检测模型在某些机械类和元器件的检测效果较差，导致生成的三分图也不够准确，而常用的基于图像卷积的抠图模型也存在边缘细化不足的问题。

3、现有的基于transformer结构的抠图模型通过注意力机制建立不同图像块之间的依赖关系，相比基于卷积的抠图模型能更好的理解全局语义信息，但现有的transformer抠图模型使用全局的图像块进行编码，计算量大，同时针对图像块使用绝对位置编码，并不能很好的学习不同图像块之间的上下文信息和位置关系，导致大型机械类或者多变尺度的商品图抠图准确性不好。

4、因此，需要一种提高准确性和精度的电商产品抠图方法。

技术实现思路

1、本专利技术所解决的技术问题是克服现有技术的

2、为解决上述技术问题，本专利技术提供一种电商产品抠图方法，包括以下步骤：

3、步骤1：准备用于训练二类分割模型的第一数据集，所述二类分割模型基于transformer结构，用于对商品图中的显著性物体与背景进行分割，所述数据集包括产品的rgb图和第一mask图；对第一mask图进行阈值设置，用以筛选为第二mask图，基于第二mask图使用腐蚀膨胀处理，得到三分图；

4、步骤2：准备用于训练抠图模型的第二数据集，所述抠图模型基于transformer结构，所述第二数据集包括产品的rgb图和alpha标签，将所述rgb图与步骤1中获得的三分图输入抠图模型，使用基于窗口的注意力机制、基于窗口偏移的注意力机制和相对位置编码改进transformer结构，针对窗口的尺寸进行寻优训练，所述窗口大小为7，计算窗口内像素的注意力权重；将三分图输入基于窗口的注意力机制中，用以对三分图的全局表征与rgb图的特征进行信息融合，最小化预测alpha图与所述alpha标签之间的损失；将预测的alpha图与原rgb图进行通道合并得到最终抠图结果。

5、所述步骤1中具体包括：

6、步骤1-1：所述第一数据集包括开源的人为标注的分割dis5k图像和收集的电商产品图，所述电商产品图包括真实拍摄的产品图像、替换产品背景合成的产品图像，数量不少于25万张；所述的第一mask图是对应图像的掩膜图像，对于预测mask图与第一mask图使用二分类的交叉熵损失，最小化该损失来优化模型参数；

7、步骤1-2：对所述产品的rgb图进行数据增强，所述数据增强包括随机剪裁和归一化处理，输入尺寸为1024*1024，所述二类分割模型中包括中间监督模块，所述中间监督模块使用轻量化的深度学习模型fgt，在第一数据集上重新进行微调训练；用以对二类分割模型的多层特征图进行监督，防止二类分割模型过拟合，在二类分割网络的训练前增加卷积操作；

8、步骤1-3：所述对第一mask图进行阈值设置，对得到的第二mask图进行核大小为3、迭代次数为3的腐蚀膨胀操作，得到三分图标签。

9、所述步骤2中具体包括：

10、步骤2-1：所述第二数据集中还包括背景图，所述rgb图不少于10万张，背景图不少于2w张，使用rgb图与背景图在线合成新图像；

11、步骤2-2：将产品的rgb图与背景图合成的新图像和基于第二mask图处理得到的三分图，输入抠图模型，输出3层语义特征图，并与真实alpha标签计算总的抠图损失；所述三分图在训练时使用的是第二mask图处理得到；

12、步骤2-3：所述抠图损失为包括alpha损失la、前景和背景的合成损失lcom，和拉普拉斯梯度约束损失llap的联合损失，单层语义特征图与alpha标签计算的联合损失为lmatting＝la+lcom+llap；

13、步骤2-4：将3层语义特征图分别与alpha标签分别计算联合损失lmatting1，lmatting2和lmatting3，并计算对应相同抠图损失的平均损失，记为：

14、平均alpha损失la-mean＝(2*la1+2*la2+la3)/5、

15、平均合成损失lcom-mean＝(2*lcom1+2*lcom2+lcom3)/5

16、和

17、平均拉普拉斯梯度约束损失llap-mean＝(2*llap1+2*llap2+llap3)/5，

18、利用联合损失对抠图模型进行参数更新，得到：

19、平均联合损失lsum＝la-mean+lcom-mean+llap-mean；

20、步骤2-5：模型推理时，将预测的alpha图与产品rgb原图进行通道合并得到4通道的抠图结果。

21、所述二类分割模型使用u2-net作为主干网络，所述深度学习模型fgt，输入图像为真实分割mask掩码g，训练一个自监督编码器用以提取6个中间特征图；最小化每个中间特征图预测的mask与真实分割mask掩码g之间的损失，损失函数使用bce二分类交叉熵损失，公式如下：

22、

23、其中，fgt表示所述深度学习模型，θgt表示模型权重，d表示中间特征图的数量，g表示第一mask图，bce表示二分类的交叉熵损失；

24、自监督的gt编码器fgt训练完成后，通过冻结权重θgt，其中表示生成监督概率图，生成的概率图用来监督分割模型fsg所对应生成的中间深度特征其中是图像i经过分割模型fsg得到的一组中间特征图，θsg表示分割模型的权重；通过计算监督模块生成的中间特征图与分割模型生成的中间特征图之间的损失lfs保证特征同步，其中，表示6个特征图损失之间的权重，每层同步损失可表示为将分割模型的训练过程表述为优化问题argmin(lfs+lsg)，lsg表示分割模型预测多个中间特征图与真实mask标签g之间的bce二分类的交叉熵损失：表示6个特征图损失之间的权重；

25、通过上述自监督编码器与分割模型生成的6个中间特征图损失lfs，以及分割模型生成的中间特征图与真实ma本文档来自技高网...

【技术保护点】

1.一种电商产品抠图方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种电商产品抠图方法，其特征在于：所述步骤1中具体包括：

3.如权利要求2所述的一种电商产品抠图方法，其特征在于：所述步骤2中具体包括：

4.如权利要求3所述的一种电商产品抠图方法，其特征在于：所述二类分割模型使用U2-Net作为主干网络，所述深度学习模型，输入图像为真实分割Mask掩码G，训练一个自监督编码器用以提取6个中间特征图；最小化每个中间特征图预测的Mask与真实分割Mask掩码G之间的损失，损失函数使用BCE二分类交叉熵损失，公式如下：

5.如权利要求4所述的一种电商产品抠图方法，其特征在于：所述步骤2中，设为预测标签，α为真实标签，P为预测的合成图，I为RGB图与背景合成的新图像，F为前景，B为背景

【技术特征摘要】

1.一种电商产品抠图方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种电商产品抠图方法，其特征在于：所述步骤1中具体包括：

3.如权利要求2所述的一种电商产品抠图方法，其特征在于：所述步骤2中具体包括：

4.如权利要求3所述的一种电商产品抠图方法，其特征在于：所述二类分割模型使用u2-net作为主干网络，所述深度学习模型，输...

【专利技术属性】
技术研发人员：孙佳伟，贾馥玮，
申请(专利权)人：焦点科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人