弱监督图像合成方法、系统、设备及存储介质技术方案

技术编号：40578428 阅读：21 留言：0更新日期：2024-03-06 17:20

本发明专利技术提出一种弱监督图像合成方法、系统、设备及存储介质，该方法包括：获取社交网络的样本图像集和样本图像集对应的文本集，并对样本图像集和所述文本集进行清洗；将清洗后的样本图像集和清洗后的文本集输入到LoRA神经网络进行训练，获取训练后的LoRA神经网络；将训练后的LoRA神经网络的权重移植到Stable Diffusion模型中进行微调训练，得到训练后的Stable Diffusion模型；将待发布文本输入到训练后的Stable Diffusion模型中，获取待发布文本对应的目标合成图像。本发明专利技术通过生成推文对应的合成图像，增加数据信息多样性，并且类别标签明确，还可以提高人脸生成功能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，尤其涉及一种弱监督图像合成方法、系统、设备及存储介质。

技术介绍

1、随着社交网络媒体的流行以及多元，社交网络已经成为了越来越多人获取信息、表达观点、互动社交的重要平台。对于那些渴望在社交网络上扩展影响力、提升曝光的用户而言，每日发布有趣且有价值的推文显得极为关键。

2、推文配图是其至关重要的一环，传统的推文配图一般为自己拍摄的图或是网络上的图片。这种技术可以有效的缩短发布时间，提高工作效率，节省时间和精力。同时，还可以避免人类智慧的局限性，提供更具创意的推文方案，提高推文的品质和效果。它不仅适用于个人社交网络账号，也可以为企业、组织等提供有益的帮助。

3、传统的用于微调图像生成的扩散模型大多强调利用完全监督的信息，例如类别标签。通常训练类和测试类是相同的，一般是特定领域或是特定风格。然而，这种数据信息缺乏内容多样性，在现实的互联网环境下，社交网络媒体涉及多个领域，没有明显的类别标签，分布广且稀疏难以处理来自未知领域的标签。

技术实现思路

1、本专利技术提供一种弱监督图像合成方法、系统、设备及存储介质，其主要目的在于通过生成推文对应的合成图像，增加数据信息多样性，并且类别标签明确，还可以提高人脸生成功能。

2、第一方面，本专利技术实施例提供一种弱监督图像合成方法，包括：

3、获取社交网络的样本图像集和所述样本图像集对应的文本集，并对所述样本图像集和所述文本集进行清洗；

4、将清洗后的样本图像集和清洗后

5、将所述训练后的lora神经网络的权重移植到stable diffusion模型中进行微调训练，得到训练后的stable diffusion模型，所述微调训练中通过增加感知损失得到最终损失函数；

6、将待发布文本输入到所述训练后的stable diffusion模型中，获取所述待发布文本对应的目标合成图像。

7、进一步地，所述感知损失通过比较生成图像和样本图像在特征层上的差异来度量所述生成图像的质量。

8、进一步地，所述感知损失的计算公式如下：

9、

10、其中，lpert表示所述损失函数，fgen,j(j)表示所述生成图像在第i层、位置j处的特征表示，ftarget,j(j)表示所述样本图像在第i层、位置j处的特征表示，ni表示第i层的特征数量，i、j均为正整数。

11、进一步地，所述将所述训练后的lora神经网络的权重移植到stable diffusion模型中进行微调训练，得到训练后的stable diffusion模型，包括：

12、将stable diffusion模型中的权重参数划分为移植权重参数和待训练权重参数，并将所述待训练权重参数划分为降维矩阵和升维矩阵；

13、通过所述清洗后的样本图像集和所述清洗后的文本集，对所述降维矩阵和所述升维矩阵进行训练，最终得到所述训练后的stable diffusion模型。

14、进一步地，所述将stable diffusion模型中的权重参数划分为移植权重参数和待训练权重参数，并将所述待训练权重参数划分为降维矩阵和升维矩阵，具体计算公式如下：

15、w＝w0+δw＝w0+ba，

16、其中，w表示所述训练后的stable diffusion模型的权重参数，w0表示所述移植权重参数，δw表示所述待训练权重参数，b表示所述升维矩阵，a表示所述降维矩阵。

17、进一步地，所述对所述样本图像集和所述文本集进行清洗，包括：

18、对于所述样本图像集，将分辨率低于256像素的样本图像删除，并且将通过零样本图像分类方法对样本图像进行删减，得到初始样本图像集；

19、对于所述文本集，将图文一对多的文本、包含不可识别内容的文本、包含敏感词的文本、包含转发标志的文本、文本长度小于5个字的文本均删除，得到初始文本集。

20、进一步地，所述对所述样本图像集和所述文本集进行清洗，进一步包括：

21、通过图文匹配方法，筛选出相似度靠前的若干样本图像和若干文本，得到所述样本图像集和所述文本集进行清洗。

22、第二方面，本专利技术实施例提供一种弱监督图像合成系统，包括：

23、清洗模块，用于获取社交网络的样本图像集和所述样本图像集对应的文本集，并对所述样本图像集和所述文本集进行清洗；

24、训练模块，用于将清洗后的样本图像集和清洗后的文本集输入到lora神经网络进行训练，获取训练后的lora神经网络；

25、微调模块，用于将所述训练后的lora神经网络的权重移植到stable diffusion模型中进行微调训练，得到训练后的stable diffusion模型，所述微调训练中通过增加感知损失得到最终损失函数；

26、合成模块，用于将待发布文本输入到所述训练后的stable diffusion模型中，获取所述待发布文本对应的目标合成图像。

27、第三方面，本专利技术实施例提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种弱监督图像合成方法的步骤。

28、第四方面，本专利技术实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述一种弱监督图像合成方法的步骤。

29、本专利技术提出的一种弱监督图像合成方法、系统、设备及存储介质，将社交网络的样本图像集和样本图像集对应的文本集进行全面的清洗，并利用清洗后的样本图像集和清洗后的文本集对lora神经网络进行训练，将训练后的lora神经网络与传统的stablediffusion模型融合，通过在模型的损失函数中增加感知损失，实现细粒度的控制生成图像，提高人脸局部区域和情绪表达的准确性，使生成的图像更加具有社交风格；且通过生成推文对应的合成图像，增加数据信息多样性，并且类别标签明确。

本文档来自技高网...

【技术保护点】

1.一种弱监督图像合成方法，其特征在于，包括：

2.根据权利要求1所述的弱监督图像合成方法，其特征在于，所述感知损失通过比较生成图像和样本图像在特征层上的差异来度量所述生成图像的质量。

3.根据权利要求2所述的弱监督图像合成方法，其特征在于，所述感知损失的计算公式如下：

4.根据权利要求1所述的弱监督图像合成方法，其特征在于，所述将所述训练后的LoRA神经网络的权重移植到Stable Diffusion模型中进行微调训练，得到训练后的StableDiffusion模型，包括：

5.根据权利要求4所述的弱监督图像合成方法，其特征在于，所述将Stable Diffusion模型中的权重参数划分为移植权重参数和待训练权重参数，并将所述待训练权重参数划分为降维矩阵和升维矩阵，具体计算公式如下：

6.根据权利要求1至5任一所述的弱监督图像合成方法，其特征在于，所述对所述样本图像集和所述文本集进行清洗，包括：

7.根据权利要求6所述的弱监督图像合成方法，其特征在于，所述对所述样本图像集和所述文本集进行清洗，进一步包括：</p>

8.一种弱监督图像合成系统，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述弱监督图像合成方法的步骤。

10.一种计算机存储介质，所述计算机存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述弱监督图像合成方法的步骤。

...

【技术特征摘要】

1.一种弱监督图像合成方法，其特征在于，包括：

2.根据权利要求1所述的弱监督图像合成方法，其特征在于，所述感知损失通过比较生成图像和样本图像在特征层上的差异来度量所述生成图像的质量。

3.根据权利要求2所述的弱监督图像合成方法，其特征在于，所述感知损失的计算公式如下：

4.根据权利要求1所述的弱监督图像合成方法，其特征在于，所述将所述训练后的lora神经网络的权重移植到stable diffusion模型中进行微调训练，得到训练后的stablediffusion模型，包括：

5.根据权利要求4所述的弱监督图像合成方法，其特征在于，所述将stable diffusion模型中的权重参数划分为移植权重参数和待训练权重参数，并将所述待训练权重参数划分为降维矩阵和升维...

【专利技术属性】
技术研发人员：彭旋，逯嘉敏，陈自岩，
申请(专利权)人：中译语通科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人