System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 图像生成方法、模型训练方法、装置、设备及存储介质制造方法及图纸_技高网

图像生成方法、模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号:44471144 阅读:0 留言:0更新日期:2025-03-04 17:41
本申请实施例公开了一种图像生成方法、模型训练方法、装置、设备及存储介质,该图像生成方法包括:在接收到待生成图像的描述文本时,随机生成噪声图像;将所述噪声图像和所述描述文本输入图像生成模型,得到所述描述文本对应的第一预测噪声;所述图像生成模型在训练时是基于加入样本图像中的高斯噪声、预测的噪声分布以及分割掩码进行网络参数的调整的,所述分割掩码与所述样本图像所对应图像描述中的实体词和属性对应;根据所述噪声图像和所述第一预测噪声,生成所述描述文本所对应的目标图像。本申请实施例可以提高所生成的目标图像与描述文本之间的语义一致性和画面美观性,而且可以提高图像生成效率,可以节省存储成本。

【技术实现步骤摘要】

本申请实施例涉及图像处理,特别是涉及一种图像生成方法、模型训练方法、装置、设备及存储介质


技术介绍

1、随着扩散网络的提出,图像生成能力从最初的特定标签生成图像演变为可根据用户的文本输入进行图像生成,这在当前的素材生成,创意设计等领域得到广泛应用。在这些应用中,文生图模型被作为基础模型底座来进行能力扩展,包括可控图像生成,特定概念强化生成,局部重绘,图像编辑等。因此,对文生图基础模型的能力加强是极其重要的。

2、尽管现有技术在生成高质量图像方面取得了长足进步,但是仍存在较大的局限性,尤其是在语义一致性方面,所生成的图像往往无法准确反映文本描述的内容,即图像中的元素没有全部与文本描述相对应。目前,常见的解决方案依赖于庞大的图像数据库和复杂的匹配算法来确保生成图像与文本描述之间的语义一致性,主要是通过预设大量的图像库,通过检索地方式匹配出语义最一致的图像,或者通过推理生成多张图像,并通过投票过滤的方式筛选出最好的图像以返回。

3、上述方案虽然能够在一定程度上提高图像质量,但是对不同的用户输入存在较大的局限性,无法同时满足语义的一致和画面美观,而且往往受限于数据库的规模和多样性,且计算成本较高,特别是在处理复杂场景或多模态数据时更为明显,导致图像生成效率较低。


技术实现思路

1、本申请实施例提供一种图像生成方法、模型训练方法、装置、设备及存储介质,可以在满足语义一致性和画面美观的基础上提高图像生成效率。

2、为了解决上述问题,第一方面,本申请实施例提供了一种图像生成方法,包括:

3、在接收到待生成图像的描述文本时,随机生成噪声图像;

4、将所述噪声图像和所述描述文本输入图像生成模型,得到所述描述文本对应的第一预测噪声;所述图像生成模型在训练时是基于加入样本图像中的高斯噪声、预测的噪声分布以及分割掩码进行网络参数的调整的,所述分割掩码与所述样本图像所对应图像描述中的实体词和属性对应;

5、根据所述噪声图像和所述第一预测噪声,生成所述描述文本所对应的目标图像。

6、第二方面,本申请实施例提供了一种图像生成模型的训练方法,包括:

7、生成样本图像的图像描述;

8、确定所述图像描述中的实体词以及所述实体词所对应的属性;

9、根据所述实体词和所述属性,对所述样本图像进行分割,获取与所述实体词和所述属性对应的分割掩码;

10、将高斯噪声叠加到所述样本图像中,得到噪声图像;

11、将所述噪声图像和所述图像描述输入初始的图像生成模型,得到与所述噪声图像和所述图像描述对应的噪声分布;在所述图像生成模型中通过跨注意力机制融合所述图像描述的第一文本特征与隐藏层图像特征;

12、根据所述高斯噪声、所述噪声分布和所述分割掩码,对所述初始的图像生成模型的网络参数进行调整,得到训练完成的图像生成模型。

13、第三方面,本申请实施例提供了一种图像生成装置,包括:

14、噪声图像生成模块,用于在接收到待生成图像的描述文本时,随机生成噪声图像;

15、噪声预测模块,用于将所述噪声图像和所述描述文本输入图像生成模型,得到所述描述文本对应的第一预测噪声;所述图像生成模型在训练时是基于加入样本图像中的高斯噪声、预测的噪声分布以及分割掩码进行网络参数的调整的,所述分割掩码与所述样本图像所对应图像描述中的实体词和属性对应;

16、图像生成模块,用于根据所述噪声图像和所述第一预测噪声,生成所述描述文本所对应的目标图像。

17、第四方面,本申请实施例提供了一种图像生成模型的训练装置,包括:

18、图像描述生成模块,用于生成样本图像的图像描述;

19、实体词属性确定模块,应用于确定所述图像描述中的实体词以及所述实体词所对应的属性;

20、图像分割模块,用于根据所述实体词和所述属性,对所述样本图像进行分割,获取与所述实体词和所述属性对应的分割掩码;

21、噪声叠加模块,用于将高斯噪声叠加到所述样本图像中,得到噪声图像;

22、噪声分布预测模块,用于将所述噪声图像和所述图像描述输入初始的图像生成模型,得到与所述噪声图像和所述图像描述对应的噪声分布;在所述图像生成模型中通过跨注意力机制融合所述图像描述的第一文本特征与隐藏层图像特征;

23、参数调整模块,用于根据所述高斯噪声、所述噪声分布和所述分割掩码,对所述初始的图像生成模型的网络参数进行调整,得到训练完成的图像生成模型。

24、第五方面,本申请实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的图像生成方法或者实现如第二方面所述的图像生成模型的训练方法。

25、第六方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的图像生成方法的步骤或者实现如第二方面所述的图像生成模型的训练方法的步骤。

26、本申请实施例提供的图像生成方法、模型训练方法、装置、设备及存储介质,通过在接收到待生成图像的描述文本时,生成噪声图像,将噪声图像和描述文本输入图像生成模型,得到描述文本对应的第一预测噪声,根据噪声图像和第一预测噪声,生成描述文本所对应的目标图像,由于图像生成模型在训练时通过实体词和属性所对应的分割掩码来使得模型学习到与实体词和属性对应的图像元素,可以提高所生成的目标图像与描述文本之间的语义一致性和画面美观性,而且不需要通过检索方式或者投票过滤的方式来选取最优的图像,减少了计算成本,可以提高图像生成效率,而且不需要预设图像库,可以节省存储成本。

本文档来自技高网...

【技术保护点】

1.一种图像生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述噪声图像和所述预测噪声,生成所述描述文本所对应的目标图像,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述图像生成模型包括扩散网络和控制网络,所述扩散网络用于控制待生成图像的画面质量,所述控制网络用于控制待生成图像与所述描述文本的语义一致性;

4.根据权利要求1或2所述的方法,其特征在于,在所述将所述噪声图像和所述描述文本输入图像生成模型之前,还包括:

5.一种图像生成模型的训练方法,其特征在于,包括:

6.根据权利要求5所述的方法,其特征在于,所述根据所述高斯噪声、所述噪声分布和所述分割掩码,对所述初始的图像生成模型的网络参数进行调整,得到训练完成的图像生成模型,包括:

7.根据权利要求6所述的方法,其特征在于,所述根据所述分割掩码,确定掩码优化损失函数值,包括:

8.根据权利要求7所述的方法,其特征在于,所述掩码内部损失函数值和所述掩码外部损失函数值的计算公式如下:

9.根据权利要求5-8任一所述的方法,其特征在于,所述根据所述实体词和所述属性,对所述样本图像进行分割,获取与所述实体词和所述属性对应的分割掩码,包括:

10.根据权利要求9所述的方法,其特征在于,所述针对每个所述属性,从所述一个或多个初始分割掩码中筛选与所述属性匹配的初始分割掩码,作为与所述实体词和所述属性对应的分割掩码,包括:

11.根据权利要求10所述的方法,其特征在于,所述根据每个初始分割掩码所对应的图像特征和每个实体词属性对所对应的第二文本特征,确定与每个所述实体词属性对所对应的分割掩码,包括:

12.根据权利要求5-8任一所述的方法,其特征在于,在所述将高斯噪声叠加到所述样本图像中,得到噪声图像之前,还包括:

13.根据权利要求5-8任一所述的方法,其特征在于,所述图像生成模型包括扩散网络和控制网络,所述扩散网络用于控制待生成图像的画面质量,所述控制网络用于控制待生成图像与所述图像描述的语义一致性;

14.一种图像生成装置,其特征在于,包括:

15.一种图像生成模型的训练装置,其特征在于,包括:

16.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任意一项所述的图像生成方法或者实现权利要求5至13任意一项所述的图像生成模型的训练方法。

17.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至4任意一项所述的图像生成方法的步骤或者实现权利要求5至13任意一项所述的图像生成模型的训练方法的步骤。

...

【技术特征摘要】

1.一种图像生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述噪声图像和所述预测噪声,生成所述描述文本所对应的目标图像,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述图像生成模型包括扩散网络和控制网络,所述扩散网络用于控制待生成图像的画面质量,所述控制网络用于控制待生成图像与所述描述文本的语义一致性;

4.根据权利要求1或2所述的方法,其特征在于,在所述将所述噪声图像和所述描述文本输入图像生成模型之前,还包括:

5.一种图像生成模型的训练方法,其特征在于,包括:

6.根据权利要求5所述的方法,其特征在于,所述根据所述高斯噪声、所述噪声分布和所述分割掩码,对所述初始的图像生成模型的网络参数进行调整,得到训练完成的图像生成模型,包括:

7.根据权利要求6所述的方法,其特征在于,所述根据所述分割掩码,确定掩码优化损失函数值,包括:

8.根据权利要求7所述的方法,其特征在于,所述掩码内部损失函数值和所述掩码外部损失函数值的计算公式如下:

9.根据权利要求5-8任一所述的方法,其特征在于,所述根据所述实体词和所述属性,对所述样本图像进行分割,获取与所述实体词和所述属性对应的分割掩码,包括:

10.根据权利要求9所述的方法,其特征在于,所述针对每个所述属性,从所述...

【专利技术属性】
技术研发人员:方瀚冯泽润张华宇班超孙皓
申请(专利权)人:中电信人工智能科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1