System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 图像生成方法、装置、设备及存储介质制造方法及图纸_技高网

图像生成方法、装置、设备及存储介质制造方法及图纸

技术编号:44523618 阅读:1 留言:0更新日期:2025-03-07 13:15
本申请实施例公开了一种图像生成方法、装置、设备及存储介质,应用于人工智能技术,该方法包括:获取待生成图像的图像生成提示文本;获取基于第一风格信息关联的风格样本图像训练得到的风格基础模型,基于场景信息关联的场景样本图像训练得到的旁路模块,以及基于第二风格信息关联的风格样本图像训练得到的目标风格模型;调用旁路模块和风格基础模型,根据第一随机噪声图像和图像生成提示文本,生成与场景信息和第一风格信息均匹配的预生成图像;调用目标风格模型,根据第二随机噪声图像、图像生成提示文本以及预生成图像,生成与图像生成提示文本匹配的目标图像。通过本申请能够提高图像的生成质量。

【技术实现步骤摘要】

本申请涉及人工智能技术等领域,尤其涉及一种图像生成方法、装置、设备及存储介质


技术介绍

1、人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中,计算机视觉技术通常包括图像处理、图像识别、图像生成、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术。图像生成是指扩散模型根据描述文本对随机噪声图像进行一系列操作,生成与描述文本相关的预测图像,然而,实践中发现,由于某种场景下的风格样本图像有限,导致基于风格样本图像训练得到的扩散模型的泛化能力比较弱,进而,使图像的生成质量比较低。


技术实现思路

1、本申请实施例提供一种图像生成方法、装置、设备及存储介质,提高图像的生成质量。

2、本申请实施例一方面提供一种图像生成方法,包括:

3、获取待生成图像的图像生成提示文本;上述图像生成提示文本反映上述待生成图像的场景信息、第一风格信息和第二风格信息,上述第二风格信息所指示的图像风格类别为上述第一风格信息所指示的图像风格类别的子类别;

4、获取基于上述第一风格信息关联的风格样本图像训练得到的风格基础模型,基于上述场景信息关联的场景样本图像训练得到的旁路模块,以及基于上述第二风格信息关联的风格样本图像训练得到的目标风格模型;

5、调用上述旁路模块和上述风格基础模型,根据第一随机噪声图像和上述图像生成提示文本,生成与上述场景信息和上述第一风格信息均匹配的预生成图像;

6、调用上述目标风格模型,根据第二随机噪声图像、上述图像生成提示文本以及上述预生成图像,生成与上述图像生成提示文本匹配的目标图像。

7、本申请实施例一方面提供一种图像生成方法,包括:

8、获取与上述场景信息关联的n个图文对、初始旁路模块以及基于通用样本图像训练得到的基础生成模型;一个图文对包括一个场景样本图像和上述场景样本图像的描述文本;n为大于1的正整数;

9、调用上述基础生成模型的扩散模块,对上述n个图文对中的场景样本图像进行加噪处理,得到n个第三带噪隐空间表征;

10、调用上述基础生成模型的去噪模块以及上述初始旁路模块,根据上述n个图文对中的描述文本,对上述n个第三带噪隐空间表征进行去噪处理,得到n个预测场景图像;

11、根据上述n个预测场景图像和上述n个图文对中的样本场景图像,对上述初始旁路模块的参数进行调整,得到训练后的旁路模块;上述旁路模块用于实现前文描述的方法。

12、本申请实施例一方面提供一种图像生成装置,包括:

13、第一获取模块,用于获取待生成图像的图像生成提示文本;上述图像生成提示文本反映上述待生成图像的场景信息、第一风格信息和第二风格信息,上述第二风格信息所指示的图像风格类别为上述第一风格信息所指示的图像风格类别的子类别;

14、第二获取模块,用于基于上述第一风格信息关联的风格样本图像训练得到的风格基础模型,基于上述场景信息关联的场景样本图像训练得到的旁路模块,以及基于上述第二风格信息关联的风格样本图像训练得到的目标风格模型;

15、第一生成模块,用于调用上述旁路模块和上述风格基础模型,根据第一随机噪声图像和上述图像生成提示文本,生成与上述场景信息和上述第一风格信息均匹配的预生成图像;

16、第二生成模块,用于调用上述目标风格模型,根据第二随机噪声图像、上述图像生成提示文本以及上述预生成图像,生成与上述图像生成提示文本匹配的目标图像。

17、本申请实施例一方面提供一种图像生成装置,包括:

18、第一获取模块,用于获取与上述场景信息关联的n个图文对、初始旁路模块以及基于通用样本图像训练得到的基础生成模型;一个图文对包括一个场景样本图像和上述场景样本图像的描述文本;n为大于1的正整数;

19、加噪处理模块,用于调用上述基础生成模型的扩散模块,对上述n个图文对中的场景样本图像进行加噪处理,得到n个第三带噪隐空间表征;

20、去噪处理模块,用于调用上述基础生成模型的去噪模块以及上述初始旁路模块,根据上述n个图文对中的描述文本,对上述n个第三带噪隐空间表征进行去噪处理,得到n个预测场景图像;

21、调整模块,用于根据上述n个预测场景图像和上述n个图文对中的样本场景图像,对上述初始旁路模块的参数进行调整,得到训练后的旁路模块;上述旁路模块用于实现前文描述的方法。

22、本申请实施例一方面提供了一种计算机设备,包括存储器和处理器,上述存储器存储有计算机程序,上述处理器执行上述计算机程序时实现上述的方法的步骤。

23、本申请实施例一方面提供了一种计算机可读存储介质,其上存储有计算机程序,上述计算机程序被处理器执行时实现上述的方法的步骤。

24、本申请实施例一方面提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法的步骤。

25、本申请中,独立训练用于进行图像风格转换的风格模型(即风格基础模型和目标风格模型),以及用于生成场景图像的旁路模块,即风格基础模型是基于第一风格信息关联的风格样本图像训练得到的,目标风格模型是基于第二风格信息关联的风格样本图像训练得到的,旁路模块是基于场景信息关联的场景样本图像训练得到的,这样可以避免同时满足场景信息和风格信息的样本图像过少,造成图像的生成质量比较低的问题,提高图像的生成质量。在实际应用中,通过将旁路模块嵌入至泛化性能更好的风格基础模型,以生成符合语义信息的预生成图像,语义信息是指场景信息和第一风格信息,通过目标风格模型,以预生成图像为控制信息进行图像风格转换,得到与图像生成提示文本匹配的目标图像,使目标图像满足场景要求的同时,满足图像风格要求,提高图像的生成质量。

本文档来自技高网...

【技术保护点】

1.一种图像生成方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述调用所述旁路模块和所述风格基础模型,根据第一随机噪声图像和所述图像生成提示文本,生成与所述场景信息和所述第一风格信息均匹配的预生成图像,包括:

3.如权利要求2所述的方法,其特征在于,所述风格基础模型的去噪模块包括第一上采样网络和第一下采样网络;

4.如权利要求3所述的方法,其特征在于,所述旁路模块包括S个旁路单元,所述第一下采样网络包括S个第一下采样单元,S为正整数;

5.如权利要求1所述的方法,其特征在于,所述调用所述目标风格模型,根据第二随机噪声图像、所述图像生成提示文本以及所述预生成图像,生成与所述图像生成提示文本匹配的目标图像,包括:

6.如权利要求5所述的方法,其特征在于,所述调用所述目标风格模型的去噪模块,根据所述L个边缘图像和所述图像生成提示文本,对所述第二带噪隐空间表征进行L次去噪处理,得到与所述图像生成提示文本匹配的第二去噪隐空间表征,包括:

7.如权利要求1所述的方法,其特征在于,所述获取基于所述第一风格信息关联的风格样本图像训练得到的风格基础模型,包括:

8.一种图像生成方法,其特征在于,包括:

9.如权利要求8所述的方法,其特征在于,所述调用所述基础生成模型的去噪模块以及所述初始旁路模块,根据所述N个图文对中的描述文本,对所述N个第三带噪隐空间表征进行去噪处理,得到N个预测场景图像,包括:

10.如权利要求9所述的方法,其特征在于,所述基础生成模型的去噪模块包括第二上采样网络和第二下采样网络;

11.如权利要求10所述的方法,其特征在于,所述初始旁路模块包括S个旁路单元,所述第二下采样网络包括S个第二下采样单元,S为正整数;

12.如权利要求8所述的方法,其特征在于,所述根据所述N个预测场景图像和所述N个图文对中的样本场景图像,对所述初始旁路模块的参数进行调整,得到训练后的旁路模块,包括:

13.如权利要求8所述的方法,其特征在于,所述获取与所述场景信息关联的N个图文对,包括:

14.一种图像生成装置,其特征在于,包括:

15.一种图像生成装置,其特征在于,包括:

16.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至13中任一项所述的方法的步骤。

17.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至13中任一项所述的方法的步骤。

18.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至13中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种图像生成方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述调用所述旁路模块和所述风格基础模型,根据第一随机噪声图像和所述图像生成提示文本,生成与所述场景信息和所述第一风格信息均匹配的预生成图像,包括:

3.如权利要求2所述的方法,其特征在于,所述风格基础模型的去噪模块包括第一上采样网络和第一下采样网络;

4.如权利要求3所述的方法,其特征在于,所述旁路模块包括s个旁路单元,所述第一下采样网络包括s个第一下采样单元,s为正整数;

5.如权利要求1所述的方法,其特征在于,所述调用所述目标风格模型,根据第二随机噪声图像、所述图像生成提示文本以及所述预生成图像,生成与所述图像生成提示文本匹配的目标图像,包括:

6.如权利要求5所述的方法,其特征在于,所述调用所述目标风格模型的去噪模块,根据所述l个边缘图像和所述图像生成提示文本,对所述第二带噪隐空间表征进行l次去噪处理,得到与所述图像生成提示文本匹配的第二去噪隐空间表征,包括:

7.如权利要求1所述的方法,其特征在于,所述获取基于所述第一风格信息关联的风格样本图像训练得到的风格基础模型,包括:

8.一种图像生成方法,其特征在于,包括:

9.如权利要求8所述的方法,其特征在于,所述调用所述基础生成模型的去噪模块以及所述初始旁路模块,根据所...

【专利技术属性】
技术研发人员:郭卉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1