System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机视觉和图像生成的,尤其涉及一种空间约束动作理解生成方法及相关设备。
技术介绍
1、近年来,图像生成在计算机视觉领域取得了显著进展,尤其是在利用大规模互联网数据进行训练的图像生成模型方面。基于深度学习的图像生成方法,特别是潜在扩散模型(ldm),在生成高质量图像,尤其是基于多条件控制(如提示文本、边界框、边缘或涂鸦等)生成图像的能力上有所表现。但是在具体应用中,当前的图像生成技术,尤其是在生成符合预期动作和人物与对象之间关系的图像时,仍然存在一定的局限性。
2、这是因为,ldm在生成动态人物动作或复杂的对象交互时,尤其是在基于文本提示生成人物动作时,会出现语义丢失的问题。例如,在利用提示文本生成人物动作的图像时,ldm通常只关注文本中的一部分信息(比如动作描述)而忽略了其他同等重要的文本信息(比如动作的对象),上述的语义丢失现象会导致生成的图像与实际预期不符,严重影响图像生成的质量与准确性。
3、基于此,本申请提供了一种空间约束动作理解生成方法及相关设备。
技术实现思路
1、针对现有技术存在的问题,本申请提供了一种空间约束动作理解生成方法及相关设备。
2、本申请的目的采用以下技术方案实现:
3、第一方面,本申请提供了一种空间约束动作理解生成方法,所述方法包括:
4、获取控制条件信息,所述控制条件信息包括边界框信息和文本描述信息;
5、将所述控制条件信息输入训练好的关系理解扩散模型,得到人物动作目标
6、其中,所述关系理解扩散模型由扩散模型主干网络、空间控制模块和动作理解注意力模块组成,所述扩散模型主干网络用于预测图像生成过程中所加噪声,并通过多层次的信息传递,最终生成目标图像;所述空间控制模块用于通过将掩码融入特征图来引导模型在边界框内生成目标人物和对象;所述动作理解注意力模块用于通过调整自注意力层的计算方式,将文本描述和边界框信息融合到图像特征中并从中提取和学习与动作相关的信息。
7、在一些可能的实现方式中,所述扩散模型主干网络采用unet网络结构,每一层都由自注意力层和交叉注意力层组成;每一层之间采用跳跃连接,用于将低层次的特征直接传递到解码器中。
8、在一些可能的实现方式中,所述边界框信息包括人物边界框和动作对象边界框,所述空间控制模块用于:
9、针对所述unet网络结构的连续的多个中间层,接收上一层unet网络提取的图像特征和模型输入的边界框信息,并通过所述边界框信息获取人物边界框和动作对象边界框的重叠部分,得到动作边界框;将所述人物边界框、所述动作对象边界框和所述动作边界框合并成三元组边界框;
10、使用线性插值对各个边界框进行下采样,将边界框下采样至预定大小,并根据边界框坐标在对应位置生成掩码;
11、根据所述掩码对特征图进行掩码约束,使用逐元素相乘的方式将相同大小的掩码和特征图融合,融合后的特征图被分解为多张独立的独立特征图,每张独立特征图用于聚焦于人物、对象或动作中的一类信息;
12、将各个独立特征图按照聚集信息的类别输入到对应的注意力模块中,获取实例特征和动作特征;
13、根据实例特征和动作特征,并通过融合注意力层整合前景特征图和背景特征来补充场景的完整性,获取结合掩码约束的融合特征图;其中,所述背景特征是由所述图像特征提供的。
14、在一些可能的实现方式中,所述将各个独立特征图按照聚集信息的类别输入到对应的注意力模块中,获取实例特征和动作特征,包括:
15、将聚集人物以及聚集对象的独立特征图输入实例注意力层,生成实例特征;将聚集动作的独立特征图输入动作注意力层,生成动作特征。
16、在一些可能的实现方式中,三元组特征包括人物条件特征、对象条件特征和动作条件特征,所述动作理解注意力模块用于:
17、获取所述三元组特征,根据所述三元组特征将控制条件与融合特征图进行拼接并计算,得到对应的矩阵;
18、将计算得到的矩阵替换至所述关系理解扩散模型的外部层的自注意力层中,使模型在生成阶段聚焦于动作相关的信息。
19、在一些可能的实现方式中,所述三元组特征的获取方式包括:
20、对所述控制条件信息按照人物、对象和动作的类型,通过自注意力层进行特征提取,获取包括人物条件、对象条件和动作条件的控制条件的三元组特征表示;
21、根据所述三元组特征表示将控制条件与融合特征图进行拼接并计算的计算公式如下:
22、qh=γh·(selfattnh(ch)+ch) (5)
23、qo=γo·(selfattno(co)+co) (6)
24、qa=γa·(selfattna(ca)+ca) (7)
25、其中,qh,qo,qa为控制条件的三元组特征表示,ch、co和ca分别为对控制条件信息拆解后的人物类型、对象类型和动作类型的控制条件,γh、γo、γa为自适应权重且γh、γo的初始权重小于γa的初始权重以加强模型对动作类型ca的学习。
26、在一些可能的实现方式中,所述根据所述三元组特征将控制条件与融合特征图进行拼接并计算,得到对应的矩阵,包括:
27、使用线性层对控制条件进行维度上的变化,以对齐融合特征图的维度;
28、将处理后的控制条件ch、co、ca与融合特征图拼接并输入动作理解注意力模块进行计算,得到矩阵fq、fk与fv,对应的计算公式如下:
29、fq=(x+qh+qa)·wq (8)
30、fk=(x+qo+qa)·wk (9)
31、fv=(x+qh+qa)⊙(x+qo+qa)·wv (10)
32、其中,⊙为逐元素相乘,·为矩阵变换,wq、wk和wv为权重矩阵,x为融合特征图。
33、第二方面,本申请还提供了一种关系理解扩散模型,用于实现第一方面任一项所述的空间约束动作理解生成方法,所述关系理解扩散模型由扩散模型主干网络、空间控制模块和动作理解注意力模块组成。
34、第三方面,本申请还提供了一种电子设备,所述电子设备包括存储器和至少一个处理器,所述存储器存储有计算机程序,所述至少一个处理器被配置成执行所述计算机程序时实现如第一方面任意一项所述的方法。
35、第四方面,本申请还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被至少一个处理器执行时实现第一方面所述的方法的步骤。
36、结合上述的技术方案和解决的技术问题,本专利技术所要保护的技术方案及所具备的积极效果为:
37、考虑到ldm在生成动态人物动作或复杂对象交互时面临挑战,尤其是在基于文本提示生成人物动作时会出现语义丢失的问题,导致生成的图像与实际预期不符,本申请通过引入空间控制模块和动作理解注意本文档来自技高网...
【技术保护点】
1.一种空间约束动作理解生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的空间约束动作理解生成方法,其特征在于,所述扩散模型主干网络采用Unet网络结构,每一层都由自注意力层和交叉注意力层组成;每一层之间采用跳跃连接,用于将低层次的特征直接传递到解码器中。
3.根据权利要求2所述的空间约束动作理解生成方法,其特征在于,所述边界框信息包括人物边界框和动作对象边界框,所述空间控制模块用于:
4.根据权利要求3所述的空间约束动作理解生成方法,其特征在于,所述将各个独立特征图按照聚集信息的类别输入到对应的注意力模块中,获取实例特征和动作特征,包括:
5.根据权利要求3所述的空间约束动作理解生成方法,其特征在于,三元组特征包括人物条件特征、对象条件特征和动作条件特征,所述动作理解注意力模块用于:
6.根据权利要求5所述的空间约束动作理解生成方法,其特征在于,所述三元组特征的获取方式包括:
7.根据权利要求6所述的空间约束动作理解生成方法,其特征在于,所述根据所述三元组特征将控制条件与融合特征图进行拼接并计算
8.一种关系理解扩散模型,用于实现权利要求1-7任一项所述的空间约束动作理解生成方法,其特征在于,所述关系理解扩散模型由扩散模型主干网络、空间控制模块和动作理解注意力模块组成。
9.一种电子设备,其特征在于,所述电子设备包括存储器和至少一个处理器,所述存储器存储有计算机程序,所述至少一个处理器被配置成执行所述计算机程序时实现如权利要求1至7任意一项所述的方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被至少一个处理器执行时实现权利要求1-7任一项所述的方法的步骤。
...【技术特征摘要】
1.一种空间约束动作理解生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的空间约束动作理解生成方法,其特征在于,所述扩散模型主干网络采用unet网络结构,每一层都由自注意力层和交叉注意力层组成;每一层之间采用跳跃连接,用于将低层次的特征直接传递到解码器中。
3.根据权利要求2所述的空间约束动作理解生成方法,其特征在于,所述边界框信息包括人物边界框和动作对象边界框,所述空间控制模块用于:
4.根据权利要求3所述的空间约束动作理解生成方法,其特征在于,所述将各个独立特征图按照聚集信息的类别输入到对应的注意力模块中,获取实例特征和动作特征,包括:
5.根据权利要求3所述的空间约束动作理解生成方法,其特征在于,三元组特征包括人物条件特征、对象条件特征和动作条件特征,所述动作理解注意力模块用于:
6.根据权利要求5...
【专利技术属性】
技术研发人员:宋晓宁,王闻霄,冯振华,
申请(专利权)人:第图苏州生物科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。