引用图像分割模型训练方法及引用图像分割方法技术

技术编号：39312739 阅读：8 留言：0更新日期：2023-11-12 15:57

本发明专利技术涉及计算机视觉技术领域，提供一种引用图像分割模型训练方法及引用图像分割方法，首先将图像样本中每个目标实例对应的文本描述输入至初始引用图像分割模型中，由文本编码器对文本描述进行特征提取，得到初始文本特征；然后由图像编码器提取图像样本的图像特征，并采用交叉注意力机制运算进行迭代优化与融合，分别得到优化后的目标文本特征和目标跨模态图像融合特征；最后将目标跨模态图像融合特征通过解码器得到分割结果，并借助于计算得到的训练损失进行模型训练。该方法可以有效提升目标引用图像分割模型对于低质量文本描述的分割能力，减少混淆目标错误匹配的情况发生。生。生。

全部详细技术资料下载

【技术实现步骤摘要】
引用图像分割模型训练方法及引用图像分割方法

[0001]本专利技术涉及计算机视觉
，尤其涉及一种引用图像分割模型训练方法及引用图像分割方法。

技术介绍

[0002]图像分割是一个重要且经典的计算机视觉任务，在智能驾驶、视频分析、遥感监测等领域具有广泛的应用。
[0003]引用图像分割是通过提供一段针对特定目标的自然语言文本描述，来引导分割模型定位图像中的特定目标进而分割出相应的目标，如何准确地将文本与图像这两个分支的特征信息进行表达与融合是引用图像分割的研究重点。但是，现有的引用图像分割在文本描述分支上的特征提取完全基于预训练的语言模型进行直接生成，这就导致在面对低质量文本描述时难以得到用于引导定位的可靠的文本特征，进而出现错误匹配混淆目标的情况，使引用图像分割模型的性能不佳，得到的分割结果不准确。

技术实现思路

[0004]本专利技术提供一种引用图像分割模型训练方法及引用图像分割方法，用以解决现有技术中存在的缺陷。
[0005]本专利技术提供一种引用图像分割模型训练方法，包括：
[0006]采集图像样本中各目标实例以及每个目标实例对应的文本描述，并将所述文本描述输入至初始引用图像分割模型中的文本编码器，由所述文本编码器对所述文本描述进行特征提取，得到初始文本特征；
[0007]将所述图像样本以及所述初始文本特征输入至所述初始引用图像分割模型中的图像编码器，由所述图像编码器提取所述图像样本的初始图像特征，基于所述初始图像特征，采用交叉注意力机制对所述初始文本特征进...

【技术保护点】

【技术特征摘要】
1.一种引用图像分割模型训练方法，其特征在于，包括：采集图像样本中各目标实例以及每个目标实例对应的文本描述，并将所述文本描述输入至初始引用图像分割模型中的文本编码器，由所述文本编码器对所述文本描述进行特征提取，得到初始文本特征；将所述图像样本以及所述初始文本特征输入至所述初始引用图像分割模型中的图像编码器，由所述图像编码器提取所述图像样本的初始图像特征，基于所述初始图像特征，采用交叉注意力机制对所述初始文本特征进行优化，得到文本优化特征，将所述文本特征优化与所述初始图像特征进行融合，得到融合图像特征，并对所述文本优化特征以及所述融合图像特征进行迭代优化及融合，得到目标文本特征和目标跨模态图像融合特征；将所述目标跨模态图像融合特征输入至所述初始引用图像分割模型中的解码器，得到所述解码器输出的分割结果，并基于所述目标文本特征、所述图像样本中的目标实例标签以及所述分割结果，计算训练损失，基于所述训练损失对所述初始引用图像分割模型的结构参数进行迭代优化，得到目标引用图像分割模型。2.根据权利要求1所述的引用图像分割模型训练方法，其特征在于，基于所述目标文本特征、所述图像样本中的目标实例标签以及所述分割结果，计算训练损失，包括：基于所述图像样本中的目标实例标签以及所述分割结果，计算分割损失；基于所述图像样本中不同目标实例对应的目标文本特征，计算每个目标实例对应的一致性损失和每个目标文本特征对应的对比性损失；基于所述分割损失、每个目标实例对应的一致性损失和每个目标文本特征对应的对比性损失，计算所述训练损失。3.根据权利要求2所述的引用图像分割模型训练方法，其特征在于，基于所述分割损失、每个目标实例对应的一致性损失和每个目标文本特征对应的对比性损失，计算所述训练损失，包括：基于每个目标实例对应的一致性损失，计算每个图像样本对应的总一致性损失，并基于每个目标文本特征对应的对比性损失，计算每个图像样本对应的总对比性损失；计算所述总一致性损失和所述总对比性损失的第一加权求和结果，并计算所述第一加权求和结果与所述分割损失的第二加权求和结果，将所述第二加权求和结果作为所述训练损失。4.根据权利要求2所述的引用图像分割模型训练方法，其特征在于，基于所述图像样本中不同目标实例对应的目标文本特征，计算每个目标文本特征对应的对比性损失，包括：基于所述图像样本中同一目标实例对应的目标文本特征，计算同一目标实例对应的目标文本特征的正相似度；基于所述图像样本中不同目标实例对应的目标文本特征，计算不同目标实例对应的目标文本特征的负相似度；基于所述正相似度和所述负相似度，计算每个目标文本特征对应的对比性损失。5.根据权利要求1所...

【专利技术属性】
技术研发人员：张兆翔，樊峻秘，甘睿彤，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人