一种文本融合的制造技术

技术编号:39752056 阅读:15 留言:0更新日期:2023-12-17 23:50
本发明专利技术公开了一种文本融合的

【技术实现步骤摘要】
一种文本融合的AI生图方法


[0001]本专利技术涉及视觉设计领域,具体涉及一种文本融合的
AI
生图方法


技术介绍

[0002]创造力是人类智能的一个基本特征,在文本到图像
(T2I)
合成中起着至关重要的作用

然而,这项任务对于计算机视觉和机器学习中的大多数现有方法来说都是一个巨大的挑战,包括
Stable

Diffusion2、DALLE2、Imagen

ERNIE

ViLG2。
这些方法旨在生成模拟给定训练分布的图像,但它们往往缺乏新颖性

惊喜和价值

因此,有必要开发具有增强创造能力的机器学习系统,以克服这些局限性

[0003]最近的研究主要集中在组合对象上,旨在通过组合多个已知对象的文本描述直接生成新的复杂图像

一个例子是可组合扩散模型
(CDMs)
的应用,它生成包含多个对象在指定位置的图像

另一种方法是
Structure

Diffusion
,它将语言结构纳入到生成的图像布局中,使其合理且不遗漏任何对象

此外,
Custom

Diffusion
使得在以前未见过的上下文中生成合理的多对象组合成为可能

然而,这些组合方法只能产生独立对象的生成物,缺乏多目标对象融合的元素


技术实现思路

[0004]本专利技术的目的在于提供一种文本融合的
AI
生图方法,以监督的方式学习原始的两个文字编码到创造性的物体的文字编码之间的转换,以达到根据原始的物体文字编码产生创新性物体从而产生创新性图像的目的

[0005]实现本专利技术目的的技术解决方案为:第一方面,本专利技术提供一种文本融合的
AI
生图方法,根据原始物体文本的提示词对,生成文本融合的视觉图像,包括如下步骤:
[0006]步骤
1、
给定任意文生图模型编码器
ε
(
·
)
,生成器随机生成提示词对
(p1,p2)
,利用文字编码器分别提取它们的文字
E1=
ε
(p1)∈R
h
×
w

E2=
ε
(p2)∈R
h
×
w
,其中
h,w
为文字编码第二

第三维的长度;
[0007]步骤
2、
随机采样列对换向量
f
以及其对应的0‑1逆向量
f
‑1,分别与文字编码融合得到采样编码
E
f
,再将融合编码输入到扩散模型,生成的物体图像为一次采样例,重复多次直到获得合适数量的采样例集合
[0008]步骤
3、
进行语义筛选,计算中所有物体图像的语义编码与两提示词
CLIP
特征的距离小于硬阈值
θ
p
的集合
[0009]步骤
4、
进行距离筛选,计算中所有图像的特征编码与两基准图像和距离差小于软阈值
θ1,且与两基准图像
I1,I2距离和小于软阈值
θ2的集合中,距离和最大的5张图片
[0010]步骤
5、
基准组件集制作,使用图像分割模型之后使用图像分割模型对
I1,I2进行图像分割得到组件图像,并分别保留置信度最高的十张分割后组件图像作为组件集
C1,
C2;
[0011]步骤
6、
进行组件评估,使用图像分割模型对于集合中的图像进行分割并制作待比较组件集
C
f
,并且评估分割后的结果与基准组件集计算相似度,取评分最高的图像为最优融合图像,其对应的列对换向量为最佳对换向量
f
best

[0012]步骤
7、
重复步骤1‑6,将得到的若干制作数据集,并训练列对换向量生成网络
[0013]步骤
8、
对于新的提示词使用列对换向量生成网络直接生成列对换向量,并最终直接生成文本融合最优的视觉图像

[0014]进一步的,步骤2中随机生成的列对换向量进行采样的方式;对于提示词
p1的文字编码
E1∈R
h
×
w
,则采样时产生的列对换向量应该为
f∈{0,1}
w
×1,且其中随机位置上的值为
1。
[0015]进一步的,步骤2中利用列对换向量与两原始文字编码的融合方式;首先求列对换向量
f
的0‑1逆向量
f
‑1,即之后可得到融合的文字编码
E
f

E1·
f+E2·
f
‑1,
则对于采样的列对换向量
f
,其对应的生成式模型的采样例为
[0016]进一步的,步骤3中的语义层面的编码距离为,使用多模态编码器
φ
img,txt
(
·
,
·
)
对于采样例
I
f
与提示词
p1,p2分别编码并计算余弦距离,记为
r(I
f
,p1)
,计算得到的编码的余弦距离的差的绝对值
|r(I
f
,p1)

r(I
f
,p2)|
,另外硬阈值
θ
p
的确定方式为在前两次的随机提示词过程中先设置为无穷大,并观察样本例的计算值,最终通过人工观察的方式确定

[0017]进一步的,步骤4中的特征层面的编码距离为,首先根据提示词生成的标准图像之后使用多模态编码器的图像编码器
φ
img
(
·
)

I1,I2,I
f
进行编码,之后分别计算余弦距离的差的绝对值
|r(I
f
,I1)

r(I
f
,I2)|
以及余弦距离的和的绝对值的平均值
(|r(I
f
,I1)+r(I
f
,I2)|)/2。
[0018]进一步的,步骤4中的软阈值的设置方式为,前三组的提示词的采样过程中只进行语义筛选,跳过创新性筛选

基准组件集制作以及组件评估步骤,待前三组采样完毕后,对于待设置阈值集合首先获取集合的样本量
l
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本融合的
AI
生图方法,其特征在于,根据原始物体文本的提示词对,生成文本融合的视觉图像,包括如下步骤:步骤
1、
给定任意文生图模型编码器
ε
(
·
)
,生成器随机生成提示词对
(p1,
p2)
,利用文字编码器分别提取它们的文字
E1=
ε
(p1)∈R
h
×
w

E2=
ε
(p2)∈R
h
×
w
,其中
h

w
为文字编码第二

第三维的长度;步骤
2、
随机采样列对换向量
f
以及其对应的0‑1逆向量
f
‑1,分别与文字编码融合得到采样编码
E
f
,再将融合编码输入到扩散模型,生成的物体图像为一次采样例,重复多次直到获得合适数量的采样例集合步骤
3、
进行语义筛选,计算中所有物体图像的语义编码与两提示词
CLIP
特征的距离小于硬阈值
θ
p
的集合步骤
4、
进行距离筛选,计算中所有图像的特征编码与两基准图像和距离差小于软阈值
θ1,且与两基准图像
I1,
I2距离和小于软阈值
θ2的集合中,距离和最大的5张图片步骤
5、
基准组件集制作,使用图像分割模型之后使用图像分割模型对
I1,
I2进行图像分割得到组件图像,并分别保留置信度最高的十张分割后组件图像作为组件集
C1,
C2;步骤
6、
进行组件评估,使用图像分割模型对于集合中的图像进行分割并制作待比较组件集
C
f
,并且评估分割后的结果与基准组件集计算相似度,取评分最高的图像为最优融合图像,其对应的列对换向量为最佳对换向量
f
best
;步骤
7、
重复步骤1‑6,将得到的若干制作数据集,并训练列对换向量生成网络步骤
8、
对于新的提示词使用列对换向量生成网络直接生成列对换向量,并最终直接生成文本融合最优的视觉图像
。2.
根据权利要求1所述的文本融合的
AI
生图方法,其特征在于,步骤2中随机生成的列对换向量进行采样的方式;对于提示词
p1的文字编码
E1∈R
h
×
w
,则采样时产生的列对换向量应该为
f∈{0

1}
w
×1,且其中随机位置上的值为
1。3.
根据权利要求1所述的文本融合的
AI
生图方法,其特征在于,步骤2中利用列对换向量与两原始文字编码的融合方式;首先求列对换向量
f
的0‑1逆向量
f
‑1,即之后可得到融合的文字编码
E
f

E1·
f+E2·
f
‑1,则对于采样的列对换向量
f
,其对应的生成式模型的采样例为
4.
根据权利要求1所述的文本融合的
AI
生图方法,其特征在于,步骤3中的语义层面的编码距离为,使用多模态编码器
φ
img

txt
(
·

·
)
对于采样例
I
f
与提示词
p1,
p2分别编码并计算余弦距离,记为
r(I
f

p1)
,计算得到的编码...

【专利技术属性】
技术研发人员:李俊张泽栋杨健
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1