一种模型训练的方法、装置、存储介质及电子设备制造方法及图纸

技术编号：41206345 阅读：18 留言：0更新日期：2024-05-07 22:32

本说明书公开了一种模型训练的方法、装置、存储介质和电子设备，图像分割模型包括图像编码器、文本编码器、解码器。先获取样本图像、样本指代文本及标签。再通过文本编码器确定不同尺度的文本特征，并通过图像编码器确定每个尺度的文本特征对应的图像特征。之后，将每个尺度的文本特征与对应尺度的图像特征进行融合。接着，通过解码器及各尺度的融合特征，得到预测分割结果，根据预测分割结果及标签，对图像分割模型进行训练。也就是说，通过获取图像及文本的不同尺度的特征，捕获了更多特征，并且，通过将同尺度的图像特征与文本特征融合，使得不同模态的特征进行信息交互，提高了图像分割模型输出的预测分割结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书涉及图像处理领域，尤其涉及一种模型训练的方法、装置、存储介质及电子设备。

技术介绍

1、指代图像分割是指从图像中分割出指代文本表述的对象，例如，一张图像中包括黄色、蓝色及红色的甜甜圈，指代文本为“红色甜甜圈”，那么，通过机器学习训练出的图像分割模型可根据输入的指代文本及图像，从图像中定位并分割出红色的甜甜圈。其中，指代文本是指表述了图像中目标物体或区域的语句。

2、指代图像分割技术可应用于各个领域，例如，买家购买某双鞋，但收货后发现鞋已损坏，卖家拒绝退款，则买家向平台商提供举证信息。举证信息包括图像、文字表述、订单截图及视频等私有信息，如开箱视频、商品的损坏部位的图片及买家描述的商品的损坏部位，如这双鞋的鞋尖脱胶。平台商可通过指代图像分割技术自动提取图片中的鞋尖的图像区域，并确认鞋尖是否存在脱胶的问题，以便确定后续操作是为买家退款还是拒绝退款。

3、但目前用于指代图像分割的图像分割模型的准确率较低，基于此，本说明书提供一种模型训练的方法。

技术实现思路

1、本说明书提供一种模型训练的方法、装置、存储介质及电子设备，以至少部分的解决现有技术存在的上述问题。

2、本说明书采用下述技术方案：

3、本说明书提供一种模型训练的方法，图像分割模型包括图像编码器、文本编码器、解码器，包括：

4、获取样本图像及样本指代文本，并获取所述样本指代文本在所述样本图像中对应的指代区域的图像，作为标签；

5、将所述样本指代文本输

6、针对每个尺度的文本特征，通过所述图像分割模型中的图像编码器，根据该尺度的文本特征及所述样本图像，确定与该尺度的文本特征对应的图像特征；

7、将该尺度的文本特征与对应尺度的图像特征进行融合，得到该尺度的融合特征；

8、将每个尺度的融合特征输入所述图像分割模型中的解码器，得到所述解码器输出的所述样本指代文本对应的预测分割结果；

9、根据所述预测分割结果及所述标签，对所述图像分割模型进行训练。

10、可选地，将所述样本指代文本输入所述图像分割模型中的文本编码器，得到所述文本编码器输出的若干个不同尺度的文本特征，具体包括：

11、将所述样本指代文本输入所述图像分割模型中的文本编码器，得到所述文本编码器输出的所述样本指代文本的单字特征；

12、针对每个尺度，根据预设特征处理方法，对所述单字特征进行特征处理，得到该尺度的文本特征。

13、可选地，针对每个尺度，根据预设特征处理方法，对所述单字特征进行特征处理，得到该尺度的文本特征，具体包括：

14、针对第一尺度，对所述单字特征进行筛选，得到该第一尺度的第一文本特征；

15、针对第二尺度，使用若干个不同尺寸的卷积核对所述单字特征进行卷积，得到若干个卷积后的特征；根据所述若干个卷积后的特征，确定该第二尺度的第二文本特征；

16、针对第三尺度，对所述单字特征进行最大池化，得到该第三尺度的第三文本特征；

17、针对第四尺度，获取补充文本特征，所述补充特征为所述样本图像中除所述指代区域以外的区域对应的指代文本的特征；根据所述补充文本特征及所述单字特征，得到该第四尺度的第四文本特征。

18、可选地，针对每个尺度的文本特征，通过所述图像分割模型中的图像编码器，根据该尺度的文本特征及所述样本图像，确定与该尺度的文本特征对应的图像特征，具体包括：

19、按各尺度对应的特征的维数从大到小的顺序，针对第一个尺度，将所述样本图像输入所述图像分割模型中的图像编码器，得到所述图像编码器输出的所述第一个尺度的图像特征；

20、依次针对排序在所述第一个尺度之后的各尺度，将该尺度作为目标尺度，根据所述目标尺度的上一尺度的文本特征，确定所述目标尺度的上一尺度对应的融合特征，将所述目标尺度的上一尺度对应的融合特征输入所述图像分割模型中的图像编码器，得所述目标尺度对应的图像特征。

21、可选地，所述图像分割模型还包括自注意力层、全连接层、交叉注意力层；

22、当该尺度为第一尺度、第二尺度中的任意一个时，将该尺度的文本特征与对应尺度的图像特征进行融合，得到该尺度的融合特征，具体包括：

23、将所述处理后的该尺度的图像特征与该尺度的文本特征进行拼接，得到拼接特征；

24、将所述拼接特征输入所述图像分割模型中的自注意力层，得到所述自注意力层输出的所述拼接特征对应的自注意力特征；

25、对所述自注意力特征进行特征分割，得到第一子自注意力特征及第二子自注意力特征；

26、针对每个子自注意力特征，将该子自注意力特征输入所述图像分割模型中的全连接层，得到第一待融合特征；

27、将包括各第一待融合特征的集合作为待融合特征集，将所述待融合特征集输入所述图像分割模型中的交叉注意力层，得到所述交叉注意力层输出的该尺度的融合特征。

28、可选地，所述图像分割模型还包括自注意力层；

29、当该尺度为第三尺度、第四尺度中的任意一个时，将该尺度的文本特征与对应尺度的图像特征进行融合，得到该尺度的融合特征，具体包括：

30、将该尺度的图像特征与该尺度的文本特征进行点乘，得到第二待融合特征；

31、对所述处理后的第二待融合特征输入所述图像分割模型中的自注意力层，得到所述自注意力层输出的该尺度的融合特征。

32、可选地，将每个尺度的融合特征输入所述图像分割模型中的解码器，得到所述解码器输出的所述样本指代文本对应的预测分割结果，具体包括：

33、通过所述解码器，按各尺度对应的特征的维数从小到大的顺序，依次针对每个尺度，将该尺度作为目标尺度，确定所述目标尺度的融合特征，对所述目标尺度的融合特征进行上采样，将上采样后的目标尺度的融合特征与所述目标尺度的下一尺度的融合特征进行拼接，得到拼接后的融合特征，对所述拼接后的融合特征进行卷积，得到卷积融合特征，将所述卷积融合特征作为下一尺度的融合特征，直至得到最终融合特征，其中，上采样后的目标尺度的融合特征与下一尺度对应的特征的维数相同，所述最终融合特征包括各尺度对应的融合特征；

34、根据所述最终融合特征，得到所述样本指代文本对应的预测分割结果。

35、可选地，将每个尺度的融合特征输入所述图像分割模型中的解码器，得到所述解码器输出的所述样本指代文本对应的预测分割结果，具体包括：

36、对所述第三文本特征进行线性变换，得到提示特征；

37、根据预设卷积核的尺寸，对所述提示特征进行调整，得到提示卷积核；并通过所述解码器，得到最终融合特征；

38、通过所述提示卷积核，对所述最终融合特征卷积，得到所述样本指代文本对应的预测分割结果。

39、可选地，根据所本文档来自技高网...

【技术保护点】

1.一种模型训练的方法，图像分割模型包括图像编码器、文本编码器、解码器，所述方法包括：

2.如权利要求1所述的方法，将所述样本指代文本输入所述图像分割模型中的文本编码器，得到所述文本编码器输出的若干个不同尺度的文本特征，具体包括：

3.如权利要求2述的方法，针对每个尺度，根据预设特征处理方法，对所述单字特征进行特征处理，得到该尺度的文本特征，具体包括：

4.如权利要求1所述的方法，针对每个尺度的文本特征，通过所述图像分割模型中的图像编码器，根据该尺度的文本特征及所述样本图像，确定与该尺度的文本特征对应的图像特征，具体包括：

5.如权利要求3所述的方法，所述图像分割模型还包括自注意力层、全连接层、交叉注意力层；

6.如权利要求3所述的方法，所述图像分割模型还包括自注意力层；

7.如权利要求1所述的方法，将每个尺度的融合特征输入所述图像分割模型中的解码器，得到所述解码器输出的所述样本指代文本对应的预测分割结果，具体包括：

8.如权利要求3所述的方法，将每个尺度的融合特征输入所述图像分割模型中的解码器，

9.如权利要求1所述的方法，根据所述预测分割结果及所述标签，对所述图像分割模型进行训练，具体包括：

10.如权利要求9所述的方法，根据所述第一损失及所述第二损失，对所述图像分割模型进行训练，具体包括：

11.一种模型训练的装置，图像分割模型包括图像编码器、文本编码器、解码器，所述装置包括：

12.如权利要求11所述的装置，所述文本特征确定模块，具体用于将所述样本指代文本输入所述图像分割模型中的文本编码器，得到所述文本编码器输出的所述样本指代文本的单字特征；针对每个尺度，根据预设特征处理方法，对所述单字特征进行特征处理，得到该尺度的文本特征。

13.如权利要求12所述的装置，所述文本特征确定模块，具体用于针对第一尺度，对所述单字特征进行筛选，得到该第一尺度的第一文本特征；针对第二尺度，使用若干个不同尺寸的卷积核对所述单字特征进行卷积，得到若干个卷积后的特征；根据所述若干个卷积后的特征，确定该第二尺度的第二文本特征；针对第三尺度，对所述单字特征进行最大池化，得到该第三尺度的第三文本特征；针对第四尺度，获取补充文本特征，所述补充特征为所述样本图像中除所述指代区域以外的区域对应的指代文本的特征；根据所述补充文本特征及所述单字特征，得到该第四尺度的第四文本特征。

14.如权利要求11所述的装置，所述图像特征确定模块，具体用于按各尺度对应的特征的维数从大到小的顺序，针对第一个尺度，将所述样本图像输入所述图像分割模型中的图像编码器，得到所述图像编码器输出的所述第一个尺度的图像特征；依次针对排序在所述第一个尺度之后的各尺度，将该尺度作为目标尺度，根据所述目标尺度的上一尺度的文本特征，确定所述目标尺度的上一尺度对应的融合特征，将所述目标尺度的上一尺度对应的融合特征输入所述图像分割模型中的图像编码器，得所述目标尺度对应的图像特征。

15.如权利要求13所述的装置，所述图像分割模型还包括自注意力层、全连接层、交叉注意力层；

16.如权利要求13所述的装置，所述图像分割模型还包括自注意力层；

17.如权利要求11所述的装置，所述预测模块，具体用于通过所述解码器，按各尺度对应的特征的维数从小到大的顺序，依次针对每个尺度，将该尺度作为目标尺度，确定所述目标尺度的融合特征，对所述目标尺度的融合特征进行上采样，将上采样后的目标尺度的融合特征与所述目标尺度的下一尺度的融合特征进行拼接，得到拼接后的融合特征，对所述拼接后的融合特征进行卷积，得到卷积融合特征，将所述卷积融合特征作为下一尺度的融合特征，直至得到最终融合特征，其中，上采样后的目标尺度的融合特征与下一尺度对应的特征的维数相同，所述最终融合特征包括各尺度对应的融合特征；根据所述最终融合特征，得到所述样本指代文本对应的预测分割结果。

18.如权利要求13所述的装置，所述预测模块，具体用于对所述第三文本特征进行线性变换，得到提示特征；根据预设卷积核的尺寸，对所述提示特征进行调整，得到提示卷积核；并通过所述解码器，得到最终融合特征；通过所述提示卷积核，对所述最终融合特征卷积，得到所述样本指代文本对应的预测分割结果。

19.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1～10任一项所述的方法。

20.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算...

【技术特征摘要】