本发明专利技术公开了一种基于多模态编码本的跨模态人物服装设计生成方法,包括步骤如下:将第一目标衣服图像输入图像编码器,编码得到特征向量图,构造一个第一特征编码本;将特征向量图离散化后,从第一特征编码本中选取不同的离散化编码,组合得到离散化后的编码特征图;将编码特征图输入解码器进行解码,解码得到复原后的第二目标衣服图像,并对第二目标衣服图像进行分块损失计算,并通过反向梯度传播,分步更新图像编码器、解码器;利用标记性对比损失来学习视觉特征和单词嵌入之间的对应关系进行训练,得到富含语义和图像信息的第二特征编码本;通过输入目标图像训练基于注意力机制的神经网络去预测图像中的序列,从第二特征编码本中采样得到序列值,用第二解码器解码序列值输出得到最后的图像。值输出得到最后的图像。值输出得到最后的图像。
【技术实现步骤摘要】
一种基于多模态编码本的跨模态人物服装设计生成方法
[0001]本专利技术涉及虚拟服装生成
,更具体的,涉及一种基于多模态编码本的跨模态人物服装设计生成方法。
技术介绍
[0002]在服装设计领域,设计过程往往需要人的手工绘图,结合了注意力机制的跨模态服装设计方法可结合多模态信息自动生成设计一系列服装,具有巨大的应用前景和潜在价值。跨模态时装设计,其中服装形象改变基于各种形式的控制信号,如纯文本、草图、局部图像等,有潜力彻底改变时装设计过程。
[0003]现有技术主要集中在实现文本引导的图像合成,使服装设计的元素变得单一,这极大地限制了它们的实用性,对允许集成不同控制的框架的需求越来越大。然而,设计一个统一的框架来同时处理多模态信号是不容易的,因为它们固有的表示差异,如草图只能描述物体整体轮廓的简洁图像,部分图像是缺失区域的不完整图像,纯文本不同于两种对应的图像,它通常描述一个特定物体的主要特征。不同模态之间的表征差异使得现有的大多数跨模态综合工作难以对不同模态的控制信号进行集成。
[0004]最近,基于注意力机制的神经网络被证明具有强大的能力将不同形式的控制信号统一表示出来。这些方法通常在第一阶段使用矢量量化变分自编码器通过将输入图像压缩成一个低分辨率离散特征映射,然后重构输入图像,学习真实图像中各个视觉部分的局部特征编码本。在第二阶段,将控制信号的向量输入基于注意力机制的神经网络,预测合成图像的序列,从第一阶段的学习得到的特征编码本中采样得到序列值。基于注意力机制的神经网络的全局表现力将不同模态的控制信号统一表示,该方法可以在单个模型内处理任意类型的跨模态控制信号,并生成符合大多数情况下的合理结果。
[0005]然而,上述两阶段范式所使用的特征编码本构造机制不可避免地会导致一个问题,即影响模型的泛化。由于特征编码本是通过从训练集中重建图像来学习构造的,因此特征编码本只能包含视觉信息,并代表训练图像各个视觉部分的局部特征。在测试过程中,如果训练集中没有输入控制信号对应的视觉成分,模型将无法预测精确的特征编码,从而无法生成符合控制信号的图像。例如,如果训练集只包含白领T恤,那么训练得到的模型将无法生成蓝领T恤,因为在学习的特征编码本中没有对应这种图像信息的编码。产生这个问题的主要原因是,特征编码本中只编码了图像的局部视觉特征,而忽略了相应的文本信息。这些信息提供了更多的区别性特征,这导致了低级的表示和粗糙的语义。
技术实现思路
[0006]本专利技术为了解决以上现有技术特征编码本中只编码图像的局部视觉特征,而忽略相应文本信息的问题,提供了一种基于多模态编码本的跨模态人物服装设计生成方法,其使用更细粒度语义的文本信息增强了特征编码本的表达能力,提高了结合多模态信息生成服装的精细度。
[0007]为实现上述本专利技术目的,采用的技术方案如下:
[0008]一种基于多模态编码本的跨模态人物服装设计生成方法,所述的方法包括步骤如下:
[0009]S1:将第一目标衣服图像输入图像编码器,编码得到特征向量图,构造一个第一特征编码本;将特征向量图离散化后,从第一特征编码本中选取不同的离散化编码,组合得到离散化后的编码特征图;
[0010]S2:将编码特征图输入解码器进行解码,解码得到复原后的第二目标衣服图像,并对第二目标衣服图像进行分块损失计算,并通过反向梯度传播,分步更新图像编码器、解码器;
[0011]S3:利用标记性对比损失来学习视觉特征和单词嵌入之间的对应关系进行训练,得到富含语义和图像信息的第二特征编码本;
[0012]S4:通过输入目标图像训练基于注意力机制的神经网络,从而去预测目标图像中的序列,从第二特征编码本中采样得到序列值,用第二解码器解码序列值输出得到最后的图像。
[0013]优选地,步骤S1,具体如下:
[0014]S101:输入第一目标衣物图像,使用多层卷积网络构成的图像编码器,并利用图像编码器进行编码,得到第一目标衣物图像的特征向量图;
[0015]S102:对得到特征向量图进行离散化,将特征向量图分块划分,通过计算每块特征向量与第一特征编码本中所有编码的距离值,选取最近的距离值为该块的编码;在第一特征编码本中选取离散化后的编码值,构建一个编码图。
[0016]进一步地,步骤S2,具体如下:
[0017]S201:构造一个基于多层卷积网络的解码器,将编码特征图输入解码器进行解码,得到复原后的第二目标衣服图像;
[0018]S202:将第一目标衣服图像和复原后的第二目标衣服图像分别通过VGG16网络进行提取特征,计算第一目标衣服图像和复原后的第二目标衣服图像之间的视觉损失;
[0019]S203:构造一个基于多层卷积网络的鉴别器,对复原后的第二目标衣服图像分块划分,输入鉴别器中分别判断真假,并对输出值进行结合,得到对抗生成网络损失,对损失进行反向梯度传播,分步更新图像编码器、解码器和鉴别器的参数。
[0020]再进一步地,步骤S3,具体如下:
[0021]S301:在训练阶段,给定图像
‑
文本对图像I
k
被多层卷积网络构成的图像编码器编码为视觉特征文本T
k
被基于注意力机制的神经网络编码为文本特征
[0022]S302:计算图像和文本之间的相似度,并由此计算一个训练批次及其文本
‑
图像对应物的图像
‑
文本标记相似度损失,计算得到总损失函数;
[0023]S303:根据得到总损失函数进行梯度反向传播,更新特征编码本,得到第二特征编码本。
[0024]再进一步地,步骤S302,计算图像和文本之间的相似度:
[0025][0026]其中,I
p
为输入的第p张目标衣物图像,T
q
为输入的第q段文本,为图片序列特征值的转置值,为文本序列特征值,n1代表图像序列长度;
[0027]式(3)为I
p
和T
q
的相似度计算;
[0028][0029]其中,n2代表文本序列长度;
[0030]式(4)为T
q
和I
p
的相似度计算;
[0031][0032][0033]式中,I
p
为输入的第p张目标衣物图像,T
q
为输入的第q段文本;
[0034]式(5)和式(6)表示一个训练批次及其文本
‑
图像对应物的图像
‑
文本标记相似度损失;
[0035]总损失函数计算为:
[0036][0037]再进一步地,步骤S4,具体如下:
[0038]S401:将输入目标图像的文本、轮廓或部分图像中的一项或多项转换为文本标记序列和/或图像标记序列,其中文本标记序列由基于注意力机制的编码器直接获得;对于图像序列,通过为每种类型的目标图像学习一个特征编码本,并将每个目标图像本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于多模态编码本的跨模态人物服装设计生成方法,其特征在于:所述的方法包括步骤如下:S1:将第一目标衣服图像输入图像编码器,编码得到特征向量图,构造一个第一特征编码本;将特征向量图离散化后,从第一特征编码本中选取不同的离散化编码,组合得到离散化后的编码特征图;S2:将编码特征图输入解码器进行解码,解码得到复原后的第二目标衣服图像,并对第二目标衣服图像进行分块损失计算,并通过反向梯度传播,分步更新图像编码器、解码器;S3:利用标记性对比损失来学习视觉特征和单词嵌入之间的对应关系进行训练,得到富含语义和图像信息的第二特征编码本;S4:通过输入目标图像训练基于注意力机制的神经网络,从而去预测目标图像中的序列,从第二特征编码本中采样得到序列值,用第二解码器解码序列值输出得到最后的图像。2.根据权利要求1所述的基于多模态编码本的跨模态人物服装设计生成方法,其特征在于:步骤S1,具体如下:S101:输入第一目标衣物图像,使用多层卷积网络构成的图像编码器,并利用图像编码器进行编码,得到第一目标衣物图像的特征向量图;S102:对得到特征向量图进行离散化,将特征向量图分块划分,通过计算每块特征向量与第一特征编码本中所有编码的距离值,选取最近的距离值为该块的编码;在第一特征编码本中选取离散化后的编码值,构建一个编码图。3.根据权利要求2所述的基于多模态编码本的跨模态人物服装设计生成方法,其特征在于:步骤S2,具体如下:S201:构造一个基于多层卷积网络的解码器,将编码特征图输入解码器进行解码,得到复原后的第二目标衣服图像;S202:将第一目标衣服图像和复原后的第二目标衣服图像分别通过VGG16网络进行提取特征,计算第一目标衣服图像和复原后的第二目标衣服图像之间的视觉损失;S203:构造一个基于多层卷积网络的鉴别器,对复原后的第二目标衣服图像分块划分,输入鉴别器中分别判断真假,并对输出值进行结合,得到对抗生成网络损失,对损失进行反向梯度传播,分步更新图像编码器、解码器和鉴别器的参数。4.根据权利要求3所述的基于多模态编码本的跨模态人物服装设计生成方法,其特征在于:步骤S3,具体如下:S301:在训练阶段,给定图像
‑
文本对图像I
k
被多层卷积网络构成的图像编码器编码为视觉特征文本T
k
被基于注意力机制的神经网络编码为文本特征S302:计算图像和文本之间的相似度,并由此计算一个训练批次及其文本
‑
图像对应物的图像
‑
文本标记相似度损失,计算得到总损失函数;S303:根据得到总损失函数进行梯度反向传播,更新特征编码本,得到第二特征编码本。5.根据权利要求4所述的基于多模态编码本的跨模态人物服装设计生成方法,其特征在于:步骤S302,计算图像和文本之间的相似度:
其中,I
p
为输入的第p张目标衣物图像,T
q
为输入的第q段文本,为图片序列特征值的转置值,为文本序列特征值,n1代表图像序列长度;式(3)为I
p
和T...
【专利技术属性】
技术研发人员:沙煜,张绪杰,谢震宇,梁小丹,
申请(专利权)人:中山大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。