The present invention discloses a training method of image semantic segmentation model and a method of image semantic segmentation. The training method includes: input the training images of pre tagged semantic segmentation information into at least two basic semantic segmentation submodels, and obtain at least two feature maps containing semantic information; at least two The feature map and its pre tagged semantic segmentation information are input into the attention model to calculate the weight of each feature map, and at least two characteristic graphs are fused by the fusion unit to get the prediction semantic segmentation results of the training images, and the prediction semantic points of the trained images are based on the prediction semantics. The segmentation results and the pre tagged semantic segmentation information are used to modify the parameters of at least two basic semantic segmentation submodels and attention models, and the training results of the above training steps are continuously iterated through the training images until at least two basic semantic segmentation submodels and attention models meet the presupposed convergence conditions.
【技术实现步骤摘要】
图像语义分割模型的训练方法及图像语义分割方法
本专利技术涉及计算机视觉与图像处理领域,尤其是涉及一种基于注意力模型融合的图像语义分割方法和模型的训练方法。
技术介绍
图像语义分割是计算机视觉领域中一项重要的研究内容,其目标是将图像分割成具有不同语义信息的区域,并且标注每个区域相应的语义标签,例如通过对一幅图像进行图像语义分割后可为图像中的物体添加语义标签(譬如桌子、墙壁、天空、人、狗等),可应用于例如无人驾驶等领域。目前,用于图像语义分割的最主流的解决方案主要基于卷积神经网络(ConvolutionalNeuralNetworks,简称CNN),该网络学习图像的语义特征表示。比如全卷积网络(FullyConvolutionalNetworks,简称为FCN)通过构建包含卷积层、池化层和反卷积层的卷积神经网络,以端到端的方式将任意大小的输入图像转换为像素级的分类结果,为研究人员和工程师提供了一种简单而有效的方法来解决图像语义分割问题。DeepLab和DilatedNet把全卷积网络中普通卷积替换为扩散卷积使得语义分割预测时结合更多的上下文和场景信息。然而,这些模型还存在各种各样的问题,特别是对于复杂的对象和多样的场景。例如全卷积网络忽略了图像的全局信息和潜在有用的场景语义上下文信息,因此容易将一些物体的某些部分错误地标注为其他物体。而DeepLab和DilatedNet扩大了滤波器的感受野以融合更多的上下文,但遗漏了详细的信息,会把同一个物体预测成多个标签。最近一些学者提出融合同一个模型不同层提取的特征或不同模型提取的特征的方法。比较简单的融合方法有求和、求 ...
【技术保护点】
1.一种图像语义分割模型的训练方法,其特征在于:用于训练一基于注意力模型融合的图像语义分割模型,所述图像语义分割模型包括至少两个基础语义分割子模型、一注意力模型以及一融合单元;所述训练方法包括:S1、将预先标注语义分割信息的训练图像分别输入到所述至少两个基础语义分割子模型中,得到所述训练图像对应的至少两个包含语义信息的特征图;S2、将所述训练图像的至少两个所述特征图及其预先标注的语义分割信息同时输入到注意力模型中,以通过所述注意力模型计算出所述训练图像的每个特征图的权重;S3、利用所述融合单元将所述训练图像的至少两个所述特征图按照步骤S2得到的相应权重进行融合,得到所述训练图像的预测语义分割结果;S4、依据所述训练图像的预测语义分割结果和预先标注的语义分割信息,对所述至少两个基础语义分割子模型和所述注意力模型的参数进行修正;S5、利用若干训练图像不断迭代执行步骤S1至S4,直至所述至少两个基础语义分割子模型和所述注意力模型的训练结果满足预设的收敛条件。
【技术特征摘要】
1.一种图像语义分割模型的训练方法,其特征在于:用于训练一基于注意力模型融合的图像语义分割模型,所述图像语义分割模型包括至少两个基础语义分割子模型、一注意力模型以及一融合单元;所述训练方法包括:S1、将预先标注语义分割信息的训练图像分别输入到所述至少两个基础语义分割子模型中,得到所述训练图像对应的至少两个包含语义信息的特征图;S2、将所述训练图像的至少两个所述特征图及其预先标注的语义分割信息同时输入到注意力模型中,以通过所述注意力模型计算出所述训练图像的每个特征图的权重;S3、利用所述融合单元将所述训练图像的至少两个所述特征图按照步骤S2得到的相应权重进行融合,得到所述训练图像的预测语义分割结果;S4、依据所述训练图像的预测语义分割结果和预先标注的语义分割信息,对所述至少两个基础语义分割子模型和所述注意力模型的参数进行修正;S5、利用若干训练图像不断迭代执行步骤S1至S4,直至所述至少两个基础语义分割子模型和所述注意力模型的训练结果满足预设的收敛条件。2.如权利要求1所述的训练方法,其特征在于:所述基础语义分割子模型为FCN、DeepLab或DilatedNet。3.如权利要求1所述的训练方法,其特征在于:所述预先标注的语义分割信息包含所述训练图像的每个像素的物体类别信息。4.如权利要求1所述的训练方法,其特征在于,步骤S3中所述融合单元将所述训练图像的至少两个所述特征图按照步骤S2得到的相应权重进行融合具体包括:S31、对所述训练图像的每个特征图,均从该特征图的每个语义分割元素的维度去和相应的权重相乘;其中,语义分割元素从所述特征图的所述语义信息中得到;S32、对所有特征图,将相乘结果按对应元素进行求和;S33、从求和结果中选取最大值所在的标号,作为所述训练图像的预测语义分割结果。5.如权利要求1所述的训练方...
【专利技术属性】
技术研发人员:袁春,黎健成,
申请(专利权)人:清华大学深圳研究生院,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。