一种交错扩散优化生成内容对提示词遵从程度的训练方法技术

技术编号：44041890 阅读：13 留言：0更新日期：2025-01-15 01:19

本发明专利技术公开了一种交错扩散优化生成内容对提示词遵从程度的训练方法。其中，所述方法包括：从一数据集中获取图片数据和图片数据以及与该图片数据相对应的文本数据和文本数据；将该图片数据融合第一噪声获得图片数据，并将融合后的图片数据与文本数据输入扩散生成网络模型，获得第一预测噪声；基于该第一预测噪声恢复图片数据，获得图片数据；分析该图片数据与图片数据，获取目标噪声；将该图片数据融合第一噪声获得图片数据，并将图片数据与文本数据再次输入扩散生成网络模型，获得第二预测噪声；基于目标噪声及第二预测噪声训练神经网络模型。本发明专利技术能够强化Stable Diffusion的训练过程，从而使其生成的图像结果更加贴近提示词（prompt）。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及优化stable-diffusion训练过程的，尤其涉及一种交错扩散优化生成内容对提示词遵从程度的训练方法。

技术介绍

1、稳定扩散模型（stable diffusion）是一种先进的文本到图像的生成技术，它使用深度神经网络来将输入的文本提示词（prompt）转化为详细的图像。尽管这项技术在图像生成领域取得了显著进展，但目前它在遵从文本提示方面仍有改进空间。生成的图像有时会与输入描述存在偏差，导致结果具有一定的模糊性和不确定性。

技术实现思路

1、有鉴于此，本专利技术的目的在于提出一种交错扩散优化生成内容对提示词遵从程度的训练方法，能够强化stable diffusion的训练过程，从而使其生成的图像结果更加贴近提示词（prompt）。通过在训练过程中交错使用不同的扩散步骤和提示词优化，改进模型的提示词遵从性，减少生成图像的模糊性和不确定性，从而提升在精确图像生成应用中的实用性和可靠性。

2、根据本专利技术的一个方面，提供一种交错扩散优化生成内容对提示词遵从程度的训练方法，所述方法包括如下步骤：

3、从一数据集中获取图片数据和图片数据以及与该图片数据相对应的文本数据和文本数据；

4、将该图片数据融合第一噪声获得图片数据，并将融合后的图片数据与文本数据输入扩散生成网络模型，获得第一预测噪声；基于该第一预测噪声恢复图片数据，获得图片数据；分析该图片数据与图片数据，获取目标噪声；

5、将该图片数据融合第一噪声获得图片数据，并将

6、基于目标噪声及第二预测噪声训练神经网络模型。

7、在上述技术方案中，本案的交错扩散训练方法，旨在增强stable diffusion模型的训练效率，以生成更符合提示词（prompt）要求的图像。该方法通过在训练阶段交替使用不同的扩散步骤和提示词优化策略，显著提升模型对提示词的遵从性，有效降低生成图像的模糊度和不确定性，进而增强了模型在精确图像生成领域的实用性和可靠性。具体来说，该方法通过将噪声注入图片数据，并训练模型从这些噪声中恢复出原始图像，从而增强了模型对各类噪声的鲁棒性，提升了其在多样化实际应用场景中的泛化能力。此外，将图片数据与相应的文本数据一同输入模型，使模型能够学习并掌握图像内容与文本描述之间的内在联系，进而在图像生成或文本到图像的转换任务中实现更优的表现。在训练过程中引入噪声，不仅使模型能够在存在干扰的条件下进行精确预测，而且对于应对实际应用中可能遇到的各种干扰和非理想条件具有重要意义。通过对比预测噪声与目标噪声，可以更精确地评估模型的性能，从而实现更有针对性地优化模型训练过程。该方法具有很好的适应性，能够适用于不同的数据集和任务类型。它不依赖于特定的数据分布，而是通过学习如何从噪声中提取和恢复信息，从而全面提升模型的性能。这种灵活性和高效性，使得本专利提出的交错扩散训练方法在图像生成领域具有广泛的应用前景。

8、在一些实施例中，所述噪声添加方式采用如下步骤：

9、在时间时，融合噪声后的图片数据由原始图片数据乘以一个衰减因子和第一噪声乘以另一个因子相加得到；

10、其中，表示衰减系数，随着时间的推移，逐渐减小。

11、在上述技术方案中，相较于传统的噪声添加方法，本方法通过引入时间依赖的衰减因子，逐步将噪声融入数据之中，这一过程模拟物理世界中噪声的自然累积，极大地促进了模型对数据底层结构和噪声模式的深入学习。通过衰减系数，能够在不同时间点调控噪声水平，为模型提供从轻微到严重噪声环境的全方位适应性训练。与那些仅依赖简单正向和逆向过程的方法相比，本方法的逐步去噪策略能够生成更高质量的图像，确保了生成结果的清晰度和真实感。此外，通过这种渐进式的去噪手段，模型能够更平滑地处理数据分布，有效降低了判别器过拟合的风险，进而提高了模型的推理速度和计算效率。

12、在一些实施例中，所述图片数据与图片数据满足如下条件式：

13、

14、

15、其中，表示衰减系数，表示目标噪声。

16、在上述技术方案中，的重建目标仍是，即必须成立上述关系式。关系式确保了重建目标与原始图像数据之间的一致性。如果关系式不成立，那么重建的图像可能与原始图像存在显著差异，导致重建失败。

17、根据本专利技术的另一个方面，提供一种交错扩散优化生成内容对提示词遵从程度的训练装置，包括：

18、获取模块：用于从一数据集获取图片数据和图片数据以及与该图片数据相对应的文本数据和文本数据；

19、第一噪声处理模块：用于将该图片数据融合第一噪声获得图片数据，并将融合后的图片数据与文本数据输入扩散生成网络模型，获得第一预测噪声；基于该第一预测噪声恢复图片数据，获得图片数据；分析该图片数据与图片数据，获取目标噪声；

20、第二噪声处理模块：用于将该图片数据融合第一噪声获得图片数据，并将图片数据与文本数据再次输入扩散生成网络模型，获得第二预测噪声；

21、训练模块：用于基于目标噪声及第二预测噪声训练神经网络模型。

22、在上述技术方案中，为了更好的使用上述方法，本申请提出一种交错扩散优化生成内容对提示词遵从程度的训练装置，各个模块对应上述方法的各个步骤，其具体的原理已在上文中描述，此处不再赘述。

23、根据本专利技术的又一个方面，提供一种稳定扩散模型，基于上述的训练方法训练得到。

24、在上述技术方案中，所述模型依赖于所述训练方法，基于该训练方法获得的模型改进模型的提示词遵从性，减少生成图像的模糊性和不确定性，从而提升在精确图像生成应用中的实用性和可靠性。需要注意的是，每个步骤的原理和效果已在上文描述，此处不再展开说明。

25、根据本专利技术的再一个方面，提供一种交错扩散优化生成内容对提示词遵从程度的训练设备，包括：至少一个处理器以及与所述至少一个处理器通信连接的存储器；

26、其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的方法。

27、在上述技术方案中，为了更好的运行和处理该方法，将上述方法存储至存储器，并利用处理器来执行存储的方法。需要注意的是，每个步骤的原理和效果已在上文描述，此处不再展开说明。

28、根据本专利技术的最后一个方面，提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法。

29、在上述技术方案中，为了更好的运行和使用该方法，将上述方法存储至计算机可读存储介质，并利用处理器来实现上述方法。需要注意的是，每个步骤的原理和效果已在上文描述，此处不再展开说明。

本文档来自技高网...

【技术保护点】

1.一种交错扩散优化生成内容对提示词遵从程度的训练方法，其特征在于，所述方法包括如下步骤：

2.如权利要求1所述的一种交错扩散优化生成内容对提示词遵从程度的训练方法，其特征在于，所述噪声添加方式采用如下步骤：

3.如权利要求1所述的一种交错扩散优化生成内容对提示词遵从程度的训练方法，其特征在于，

4.一种交错扩散优化生成内容对提示词遵从程度的训练装置，其特征在于，包括：

5.如权利要求4所述的一种交错扩散优化生成内容对提示词遵从程度的训练装置，其特征在于，

6.如权利要求4所述的一种交错扩散优化生成内容对提示词遵从程度的训练装置，其特征在于，

7.一种稳定扩散模型，其特征在于，基于权利要求1-3任一项所述的训练方法训练得到。

8.一种交错扩散优化生成内容对提示词遵从程度的训练设备，其特征在于，包括：至少一个处理器以及与所述至少一个处理器通信连接的存储器；

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法。

【技术特征摘要】

1.一种交错扩散优化生成内容对提示词遵从程度的训练方法，其特征在于，所述方法包括如下步骤：

2.如权利要求1所述的一种交错扩散优化生成内容对提示词遵从程度的训练方法，其特征在于，所述噪声添加方式采用如下步骤：

3.如权利要求1所述的一种交错扩散优化生成内容对提示词遵从程度的训练方法，其特征在于，

4.一种交错扩散优化生成内容对提示词遵从程度的训练装置，其特征在于，包括：

5.如权利要求4所述的一种交错扩散优化生成内容对提示词遵从程度的训练装置...

【专利技术属性】
技术研发人员：吴善思源，杨旭，严鑫毅，冯展鹏，洪炜冬，危然，
申请(专利权)人：厦门真景科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人