【技术实现步骤摘要】
一种文本融合的AI生图方法
[0001]本专利技术涉及视觉设计领域,具体涉及一种文本融合的
AI
生图方法
。
技术介绍
[0002]创造力是人类智能的一个基本特征,在文本到图像
(T2I)
合成中起着至关重要的作用
。
然而,这项任务对于计算机视觉和机器学习中的大多数现有方法来说都是一个巨大的挑战,包括
Stable
‑
Diffusion2、DALLE2、Imagen
和
ERNIE
‑
ViLG2。
这些方法旨在生成模拟给定训练分布的图像,但它们往往缺乏新颖性
、
惊喜和价值
。
因此,有必要开发具有增强创造能力的机器学习系统,以克服这些局限性
。
[0003]最近的研究主要集中在组合对象上,旨在通过组合多个已知对象的文本描述直接生成新的复杂图像
。
一个例子是可组合扩散模型
(CDMs)
的应用,它生成包含多个对象在指定位置的图像
。
另一种方法是
Structure
‑
Diffusion
,它将语言结构纳入到生成的图像布局中,使其合理且不遗漏任何对象
。
此外,
Custom
‑
Diffusion
使得在以前未见过的上下文中生成合理的多对象组合成为可能
。
然而,这些组合方法只能产生独立对象的生成 ...
【技术保护点】
【技术特征摘要】
1.
一种文本融合的
AI
生图方法,其特征在于,根据原始物体文本的提示词对,生成文本融合的视觉图像,包括如下步骤:步骤
1、
给定任意文生图模型编码器
ε
(
·
)
,生成器随机生成提示词对
(p1,
p2)
,利用文字编码器分别提取它们的文字
E1=
ε
(p1)∈R
h
×
w
,
E2=
ε
(p2)∈R
h
×
w
,其中
h
,
w
为文字编码第二
、
第三维的长度;步骤
2、
随机采样列对换向量
f
以及其对应的0‑1逆向量
f
‑1,分别与文字编码融合得到采样编码
E
f
,再将融合编码输入到扩散模型,生成的物体图像为一次采样例,重复多次直到获得合适数量的采样例集合步骤
3、
进行语义筛选,计算中所有物体图像的语义编码与两提示词
CLIP
特征的距离小于硬阈值
θ
p
的集合步骤
4、
进行距离筛选,计算中所有图像的特征编码与两基准图像和距离差小于软阈值
θ1,且与两基准图像
I1,
I2距离和小于软阈值
θ2的集合中,距离和最大的5张图片步骤
5、
基准组件集制作,使用图像分割模型之后使用图像分割模型对
I1,
I2进行图像分割得到组件图像,并分别保留置信度最高的十张分割后组件图像作为组件集
C1,
C2;步骤
6、
进行组件评估,使用图像分割模型对于集合中的图像进行分割并制作待比较组件集
C
f
,并且评估分割后的结果与基准组件集计算相似度,取评分最高的图像为最优融合图像,其对应的列对换向量为最佳对换向量
f
best
;步骤
7、
重复步骤1‑6,将得到的若干制作数据集,并训练列对换向量生成网络步骤
8、
对于新的提示词使用列对换向量生成网络直接生成列对换向量,并最终直接生成文本融合最优的视觉图像
。2.
根据权利要求1所述的文本融合的
AI
生图方法,其特征在于,步骤2中随机生成的列对换向量进行采样的方式;对于提示词
p1的文字编码
E1∈R
h
×
w
,则采样时产生的列对换向量应该为
f∈{0
,
1}
w
×1,且其中随机位置上的值为
1。3.
根据权利要求1所述的文本融合的
AI
生图方法,其特征在于,步骤2中利用列对换向量与两原始文字编码的融合方式;首先求列对换向量
f
的0‑1逆向量
f
‑1,即之后可得到融合的文字编码
E
f
=
E1·
f+E2·
f
‑1,则对于采样的列对换向量
f
,其对应的生成式模型的采样例为
4.
根据权利要求1所述的文本融合的
AI
生图方法,其特征在于,步骤3中的语义层面的编码距离为,使用多模态编码器
φ
img
,
txt
(
·
,
·
)
对于采样例
I
f
与提示词
p1,
p2分别编码并计算余弦距离,记为
r(I
f
,
p1)
,计算得到的编码...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。