System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于图像处理,具体涉及一种基于扩散模型的多风格绘本生成方法。
技术介绍
1、目前,手动创作具有不同艺术风格的故事绘本耗时耗力,且需要艺术家具备较高的绘画技巧和风格把控能力。随着深度学习技术的快速发展,计算机视觉和生成式模型的能力得到了极大提升,特别是在图像生成和风格迁移领域,取得了突破性的进展。
2、现有的基于扩散模型(diffusion model)的图像生成技术,已经能够根据文本提示生成高质量的单幅图像。然而,当应用于生成复杂且连贯的多帧故事绘本时,这些技术面临一些挑战。主要问题表现在于角色和背景在不同帧之间缺乏一致性,导致角色形象和场景变化不连贯,这影响了故事的连贯性和叙事的流畅度。
3、此外,现有的风格迁移技术虽然能够将图像转换为特定的艺术风格,但它们通常只能处理单一风格的转换,缺乏在连续绘本中生成多种风格图像所需的灵活性和一致性。
4、在故事绘本生成任务中需确保生成的角色在前后帧中保持外观和特征的一致性,避免出现形象变化或失真。同时需要保证生成的结果整体风格统一以及背景的过渡平滑自然以维持空间感和叙事流畅度。因此现有技术在以下方面仍有待改进:无法高效、灵活地生成多种艺术风格的连续绘本图像;难以确保生成图像在绘本叙事中的连贯性和一致性;现有图像风格迁移算法多局限于单一场景,不具备动态多风格迁移的能力。
技术实现思路
1、为了解决这些问题,本专利技术基于扩散模型提出了一种基于扩散模型的多风格绘本生成方法,包括以下步骤:
3、步骤s2:构建基于扩散模型的绘本生成模型,模型包括预处理模块、风格一致性模块、角色一致性模块和基于注意力机制的unet模块;预处理模块对步骤s1中的绘本图像及对应的故事文本进行编码处理,获取文本嵌入、角色掩码和角色图像;
4、步骤s3:导入步骤s1的风格参考图像至风格一致性模块,获取风格特征嵌入;
5、步骤s4:导入步骤s2的文本嵌入、角色掩码和角色图像至角色一致性模块,获取角色嵌入和布局嵌入;
6、步骤s5:导入步骤s1中的绘本图像、步骤s3中的风格特征嵌入、步骤s4中的角色嵌入和布局嵌入至基于注意力机制的unet模块中的注意力块中进行绘本图像噪声预测,获取预测的绘本图像;
7、步骤s6:构建损失函数,最小化损失函数以优化绘本生成模型的参数。
8、进一步的,步骤s1中的预处理模块包括clip编码器和图像分割模型gsa;
9、步骤s1具体为:
10、步骤s11:通过clip编码器对故事文本进行编码,获取预设好数据维度的文本嵌入,表示为:
11、;
12、其中,表示正则化,表示多层感知机,n表示多层感知机进行内部操作的次数,表示自注意力操作,表示对文本进行分词操作,表示位置嵌入编码,表示输入的故事文本;
13、步骤s12:采用图像分割模型gsa对绘本图像进行分割,获取角色掩码和角色图像,表示为:
14、;
15、其中,表示绘本图像;表示选择函数,用于获得绘本图像中特定角色的掩码信息,表示图像分割模块,表示点乘。
16、进一步的,步骤s3具体为:
17、步骤s31:对于输入的风格参考图像进行处理,具体为:
18、调用图文大语言模型生成该风格参考图像的文本语义内容,然后用clip编码器的图像编码器和文本编码器分别对该风格参考图像和对应的文本语义内容进行编码,获取风格参考图像的图像编码和文本编码,将两者映射到同一个语义空间,用图像编码减去文本编码,从而获得去除了文本语义内容的风格特征嵌入,表示为:
19、;
20、其中,表示clip编码器的文本编码器,表示多模态的大语言模型,表示clip编码器的图像编码器,表示多层感知机;
21、步骤s32:对风格特征嵌入进行进一步的处理得到风格特征,表示为:
22、;
23、其中, 表示可学习的嵌入,表示自注意力操作,表示交叉注意力操作,表示全连接层,表示风格特征。
24、进一步的,角色一致性模块包括重采样模块和布局嵌入模块,
25、步骤s4具体为:
26、步骤s41:将角色图像和角色掩码输入角色一致性模块,获取对应每一个角色的重采样嵌入,随后通过mlp映射与扩散模型中间噪声进行交叉注意力计算,获取角色嵌入,表示为:
27、;
28、其中,表示重采样嵌入,表示扩散模型中间噪声,表示角色嵌入,表示交叉注意力机制,表示重采样操作,表示多层感知机;
29、步骤s42:输入文本嵌入和重采样嵌入至布局控制模块中进行处理,获取布局嵌入,表示为:
30、 ;
31、其中,表示全连接层,noise表示输入噪声。
32、进一步的,步骤s5的基于注意力机制的unet模块包括用于引导图像生成的若干注意力块;
33、步骤s5具体为:
34、;
35、其中,表示预测的绘本图像,表示unet模块,表示加噪后的绘本图像,表示加噪步数。
36、进一步的,步骤s6中的损失函数表示为:
37、;
38、其中,,,表示不同损失的权重系数,,,分别为扩散模型的损失、角色一致性的损失和风格一致性的损失。
39、本专利技术的积极进步效果在于:
40、本专利技术基于扩散模型提出了一种高效的多风格绘本生成方法,该方法能够根据风格参考图像生成任意艺术风格的故事绘本,极大简化了创作流程,同时提升了生成的绘本图像的质量和风格多样性。
本文档来自技高网...【技术保护点】
1.一种基于扩散模型的多风格绘本生成方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种基于扩散模型的多风格绘本生成方法,其特征在于,步骤S1中的预处理模块包括CLIP编码器和图像分割模型GSA具体为:
3.如权利要求2所述的一种基于扩散模型的多风格绘本生成方法,其特征在于,步骤S3具体为:
4.如权利要求3所述的一种基于扩散模型的多风格绘本生成方法,其特征在于,角色一致性模块包括重采样模块和布局嵌入模块,
5.如权利要求4所述的一种基于扩散模型的多风格绘本生成方法,其特征在于,步骤S5的基于注意力机制的Unet模块包括用于引导图像生成的若干注意力块;
6.如权利要求1所述的一种基于扩散模型的多风格绘本生成方法,其特征在于,步骤S6中的损失函数表示为:
【技术特征摘要】
1.一种基于扩散模型的多风格绘本生成方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种基于扩散模型的多风格绘本生成方法,其特征在于,步骤s1中的预处理模块包括clip编码器和图像分割模型gsa具体为:
3.如权利要求2所述的一种基于扩散模型的多风格绘本生成方法,其特征在于,步骤s3具体为:
4.如权利要求3所述的一种...
【专利技术属性】
技术研发人员:饶堃,汪强,应浩,陈厚荣,江爱文,
申请(专利权)人:江西师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。