System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于布局生成的多物体图像生成方法及系统技术方案_技高网

一种基于布局生成的多物体图像生成方法及系统技术方案

技术编号:41870209 阅读:7 留言:0更新日期:2024-07-02 00:20
本发明专利技术公开一种基于布局生成的多物体图像生成方法,获取关于图像的主题文本,所述主题文本包含至少两个对象以及两个对象的位置关系;将所述关于图像的主题文本输入训练好的神经网络进行处理,得到对象在图像上的位置坐标;通过布局图像生成模型GLIGEN生成对应的图片;所述神经网络由全连接神经网络1、全连接神经网络2和全连接神经网络3组成,全连接神经网络1的输出端与全连接神经网络2输入端相连;全连接神经网络2和全连接神经网络3依次串联与现有的图像生成方法相比流程清晰、生成图像质量高、适用范围广泛。本发明专利技术充分发挥了语义与视觉信息的有机融合,为图像生成技术带来了更智能、更高质量的解决方案。

【技术实现步骤摘要】

本专利技术属于计算机,具体涉及一种基于布局生成的多物体图像生成方法及系统


技术介绍

1、图像生成技术一直是计算机视觉和人工智能领域的研究热点之一。传统的图像生成方法通常侧重于生成整个图像,这种方法对于特定应用场景和用户需求的图像生成存在一定限制。例如,在广告设计、版面编辑和创意艺术领域,用户通常需要精确控制图像中不同元素的位置和相对布局,以创造具有特定视觉效果和信息传达的图像。传统图像生成方法通常难以满足用户对图像布局的高度要求,因为它们倾向于以像素级别生成图像,而不允许用户精确控制图像中的元素位置和布局。用户为了获得可控性强的图片通常需要复杂的、细粒度的输入,比如布局。然而,与简单的文本输入相比,布局的输入给用户带来了巨大的负担。用户在使用现有图像生成工具时,往往需要耗费大量时间和精力来手动调整图像中的元素位置和相对关系,这降低了用户体验并限制了创造性。因此,布局的自动生成显得尤为重要。

2、布局生成模型可以与布局图像生成方法相结合,提高生成图像的可控性。有的学者提出利用几何参数的数据结构,像素级的合成布局,这大大的提高了训练量和模型复杂度。并且这些模型局限于离散的类别,对给定的位置关系推理能力有限。模型的输入仅为用户给定的物体对象,通过学习数据集推测对象间潜在的位置关系。因此,模型学习到的布局大部分是重复的,输入到下游图像生成任务中并不符合用户需求。


技术实现思路

1、为了解决现有技术中存在的问题,本专利技术提供一种基于布局生成的多物体图像生成方法网络构建简单、网络性能较好、使用范围广泛的基于布局生成的多物体图像生成方法。

2、为了实现上述目的,本专利技术采用的技术方案是:一种基于布局生成的多物体图像生成方法,包括以下步骤:

3、获取关于图像的主题文本,所述主题文本包含至少两个对象以及两个对象的位置关系;

4、将所述关于图像的主题文本输入训练好的神经网络进行处理,得到对象在图像上的位置坐标;

5、通过布局图像生成模型gligen生成对应的图片;

6、所述神经网络由全连接神经网络1、全连接神经网络2和全连接神经网络3组成,全连接神经网络1的输出端与全连接神经网络2输入端相连;全连接神经网络2和全连接神经网络3依次串联。

7、进一步的,所述神经网络训练包括以下步骤:

8、从图片语义理解数据集vrr-vg获取数据集,每张图片中包含多个区域,每个区域包含两个对象类别、两个对象位置以及对象间的关系,图片区域集合l如下:

9、l={l1,l2,...,li}

10、其中,li表示图片分割的第i个区域,1≤n≤i,i表示图片分割所有区域、为有限的正整数;

11、对象集合o如下:

12、o={o1,o2,...,oj}

13、其中,oj表示数据集中的第j个对象类别,共包含出现频率高的150种类别对象,1≤j≤150;对象oj在图片上的位置pj表示如下:

14、

15、其中,为对象oj在整张图像上最左侧的像素,为oj在整张图像上最右侧的像素,为对象oj在整张图像上最下方的像素,为对象oj在整张图像上最上方的像素,

16、对象关系集合r如下:

17、r={r1,r2,...,rn}

18、其中,rn表示图片分割的两个对象间的位置关系,数据集包含20种位置关系,1≤n≤20;

19、每个区域li分别包含两个对象类别、两个对象位置以及对象间的关系,表示如下:

20、li=(oo,os,po,ps,ros)

21、其中,oo,os分别表示区域内的主体对象与客体对象类别,po,ps分别表示区域内的主体对象与客体对象的位置信息,ros表示主客体对象间的位置关系,

22、模型学习的特征x集合如下:

23、x={x1,x2,...,xm}

24、其中,xm为一个区域的特征,m为正整数,xm表示如下:

25、xm=(oom,osm,rom)

26、oom,osm分别为:xm区域中的主客体对象类别文本,rom为xm区域中主客体对象的位置关系文本;

27、数据集的标签y为:

28、y={y1,y2,...,ym}

29、其中,ym为一个区域对象的位置标签,m为正整数,ym表示如下:

30、ym=(pom,psm,posm)

31、其中,posm是主客体二者联合位置编码;pom为oom在区域xm对应的位置信息,psm为osm在区域xm对应的位置信息;

32、对数据集(x,y)进行缺失值填充、归一化处理图片对象位置以及数据向量化;

33、将预处理过的数据集(x,y)按照7∶3的比例随机划分为训练集与测试集;

34、构建损失函数,设置神经网络训练参数,将训练集中的oom,osm通过clip模型提取的特征向量与rom提取的特征向量拼接后,输入到全连接神经网络2进行训练,训练时最小化损失函数loss以更新网络参数,直至网络收敛;

35、将测试集输入到训练好的神经网络,输出主体、客体物体位置信息与两者联合位置信息;

36、构建主题文本,将主题文本输入到神经网络中,输出两个对象在图片上的位置坐标,通过布局图像生成模型gligen生成对应的图片,生成的图片符合要求后,神经网络训练完成。

37、进一步的,对数据集(x,y)进行缺失值填充、归一化处理图片对象位置以及数据向量化包括:

38、1)缺失值填充

39、对数据集中未表示位置关系的对象位置关系填充;

40、2)归一化处理图片对象位置

41、数据集中图片大小不一,对图片整体像素属性进行归一化,并将其缩放,缩放后的对象oj位置pjn表示如下:

42、

43、其中,w为该图片的宽,h为图片的高;

44、3)数据向量化

45、采用clip模型从xm区域中的主客体对象类别文本oom,osm中提取文本特征,并转换为向量,将rom通过全连接神经网络1提取特征将其映射为与oom,osm相同维度的向量。

46、进一步的,训练所述神经网络时,按下式构建损失函数loss:

47、loss=loss(object)+loss(subject)+loss(combine)+λ*||w||2

48、

49、

50、

51、其中,pom、psm、posm分别表示第m个区域上主体、客体、主客体联合的真实位置,分别表示第m个区域上主体、客体、主客体联合的预测位置,m表示数据集的总区域数;λ*||w||2为正则化项,防止模型过拟合,λ为惩罚系数,w为模型权重。

52、进一步的,使用均方根误差rmse和校正决定系数adjusted r-squa本文档来自技高网...

【技术保护点】

1.一种基于布局生成的多物体图像生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于布局生成的多物体图像生成方法,其特征在于,所述神经网络训练包括以下步骤:

3.根据权利要求2所述的基于布局生成的多物体图像生成方法,其特征在于,对数据集(X,Y)进行缺失值填充、归一化处理图片对象位置以及数据向量化包括:

4.根据权利要求2所述的基于布局生成的多物体图像生成方法,其特征在于,训练所述神经网络时,按下式构建损失函数Loss:

5.根据权利要求2所述的基于布局生成的多物体图像生成方法,其特征在于,使用均方根误差RMSE和校正决定系数Adjusted R-Squared评价指标评估神经网络在测试集上的效果;均方根误差RMSE的值越趋近于0,表示网络的预测性能越好,Adjusted R-Squared越趋近于1,表示网络性能越好。

6.根据权利要求2所述的基于布局生成的多物体图像生成方法,其特征在于,生成主题文本对应的图片后,通过GLIP与CLIP模型评估图像质量,GLIP值越大表明图像布局越符合给定布局,CLIP越大表明图像内容越符合文本内容;通过GLIP与CLIP模型评估图像质量,GLIP值越大表明图像布局越符合给定布局,CLIP越大表明图像内容越符合文本内容;

7.根据权利要求1所述的基于布局生成的多物体图像生成方法,其特征在于,获取关于图像的主题文本包括:向人工智能系统中输入引导生成关于图像的主题文本的指令,人工智能系统再通过用户获取关键词,最终人工智能系统根据引导指令和所述关键词生成包含两个物体类别以及两个物体位置关系的主题文本。

8.根据权利要求2所述的基于布局生成的多物体图像生成方法,其特征在于:所述的全连接神经网络1由全连接层1、激活函数层1、全连接层2、激活函数层2、输出层1依次串联构成;全连接层1有256个神经元,全连接层2有128个神经元,输出层1有256个神经元,激活函数层1为ReLU函数,激活函数层2为Sigmoid函数。

9.根据权利要求1所述的基于布局生成的多物体图像生成方法,其特征在于:所述的全连接神经网络2由全连接层3与激活函数层3、随机失活层1、全连接层4、激活函数层4、随机失活层2、输出层2、激活函数层5依次串联构成;全连接层3有256个神经元,全连接层4有512个神经元,输出层2有512个神经元,激活函数层3、激活函数层4、激活函数层5均为ReLU函数,随机失活层1、随机失活层2的随机失活率均为0.6;

10.一种基于布局生成的多物体图像生成系统,其特征在于,包括文本获取模块、坐标获取模块以及图片生成模块;

...

【技术特征摘要】

1.一种基于布局生成的多物体图像生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于布局生成的多物体图像生成方法,其特征在于,所述神经网络训练包括以下步骤:

3.根据权利要求2所述的基于布局生成的多物体图像生成方法,其特征在于,对数据集(x,y)进行缺失值填充、归一化处理图片对象位置以及数据向量化包括:

4.根据权利要求2所述的基于布局生成的多物体图像生成方法,其特征在于,训练所述神经网络时,按下式构建损失函数loss:

5.根据权利要求2所述的基于布局生成的多物体图像生成方法,其特征在于,使用均方根误差rmse和校正决定系数adjusted r-squared评价指标评估神经网络在测试集上的效果;均方根误差rmse的值越趋近于0,表示网络的预测性能越好,adjusted r-squared越趋近于1,表示网络性能越好。

6.根据权利要求2所述的基于布局生成的多物体图像生成方法,其特征在于,生成主题文本对应的图片后,通过glip与clip模型评估图像质量,glip值越大表明图像布局越符合给定布局,clip越大表明图像内容越符合文本内容;通过glip与clip模型评估图像质量,glip值越大表明图像布局越符合给定布局,clip越大表明图像内容越符合文本内容;<...

【专利技术属性】
技术研发人员:郭龙江马铭含卫可爱李津任美睿刘勇
申请(专利权)人:陕西师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1