当前位置: 首页 > 专利查询>之江实验室专利>正文

一种图像的生成方法、装置、存储介质及电子设备制造方法及图纸

技术编号:37704508 阅读:7 留言:0更新日期:2023-06-01 23:52
本说明书公开了一种图像的生成方法、装置、存储介质及电子设备,首先可获取待生成图像的描述文本,将描述文本输入预先训练的第一模型,得到第一模型输出的描述文本对应的各目标图像。然后针对每个目标图像,将该目标图像输入预先训练的第二模型,得到第二模型输出的该目标图像的图像特征,以及将描述文本输入预先训练的第二模型,得到第二模型输出的描述文本的文本特征。最后,根据各目标图像的图像特征与文本特征之间的相似度,确定最终目标图像。该方法可根据描述文本生成多张图像,并在生成的多张图像中确定出与描述文本最相符的图像,避免了单一图像的生成带来的图像质量低下的问题,使得生成的图像质量更高,图像与文本描述更一致。本描述更一致。本描述更一致。

【技术实现步骤摘要】
一种图像的生成方法、装置、存储介质及电子设备


[0001]本申请涉及计算机
,尤其涉及一种图像的生成方法、装置、存储介质及电子设备。

技术介绍

[0002]随着科技的发展,机器学习的应用越来越广泛。其中,在图像生成领域,机器学习模型为图像的生成做出了巨大贡献。
[0003]目前,可以将一些描述文本输入图像生成软件,得到与描述文本对应的图像。一般的,这些图像生成软件中部署有图像生成模型,例如:稳定扩散模型(Stable Diffusion Models,SDMs),潜在扩散模型(Latent Diffusion Models,LDMs)。进而在用户使用该图像生成软件时,可将文本输入该图像生成软件,然后通过该软件内的图像生成模型得到一张与文本相符的图像。例如:用户输入文本为:“A Persian cat with blue eyes and white hair”,则该图像生成软件可输出一张拥有蓝色眼睛与白色毛发的波斯猫的图像。显然,如何生成与文本描述的内容一致的图像是一个至关重要的问题。
[0004]基于此,本申请说明书提供了一种图像的生成方法。

技术实现思路

[0005]本说明书提供一种图像的生成方法、装置、存储介质及电子设备,以至少部分的解决现有技术存在的上述问题。
[0006]本说明书采用下述技术方案:本说明书提供了一种图像的生成方法,所述方法包括:获取待生成图像的描述文本;将所述描述文本输入预先训练的第一模型,得到所述第一模型输出的所述描述文本对应的各目标图像;针对每个目标图像,将该目标图像输入预先训练的第二模型,得到所述第二模型输出的该目标图像的图像特征;以及将所述描述文本输入所述预先训练的第二模型,得到所述第二模型输出的所述描述文本的文本特征;根据所述各目标图像的图像特征与所述文本特征之间的相似度,确定最终目标图像。
[0007]可选地,获取待生成图像的描述文本,具体包括:获取待生成图像的原始文本;确定所述第一模型和/或所述第二模型的输入文本语种;根据所述输入文本语种以及所述原始文本,确定所述待生成图像的描述文本。
[0008]可选地,得到所述第一模型输出的所述描述文本对应的各目标图像,具体包括:使用TensorRT对所述预先训练的第一模型进行加速,通过加速运行的所述第一模型,得到所述第一模型输出的所述描述文本对应的各目标图像。
[0009]可选地,在使用TensorRT对所述预先训练的第一模型进行加速之前,所述方法还包括:将所述预先训练的第一模型中的参数转换为所述TensorRT的参数格式。
[0010]可选地,将所述描述文本输入预先训练的第一模型,具体包括:获取待生成图像的图像风格;确定与所述图像风格对应的提示文本;将所述提示文本与所述描述文本输入预先训练的第一模型。
[0011]可选地,将所述描述文本输入预先训练的第一模型,得到所述第一模型输出的所述描述文本对应的各目标图像,具体包括:获取至少两个所述第一模型的随机种子;其中,所述随机种子用于使得所述第一模型生成目标图像;针对每个随机种子,将该随机种子与所述描述文本输入所述第一模型,使得所述第一模型根据该随机种子初始化噪声图像,并根据所述噪声图像以及所述描述文本得到该随机种子对应的目标图像。
[0012]可选地,所述第二模型中至少包括:文本编码器和图像编码器;将该目标图像输入预先训练的第二模型,得到所述第二模型输出的该目标图像的图像特征,具体包括:将该目标图像输入所述图像编码器,得到所述图像编码器输出的该目标图像的图像特征;将所述描述文本输入所述预先训练的第二模型,得到所述第二模型输出的所述描述文本的文本特征,具体包括:将所述描述文本输入所述文本编码器,得到所述文本编码器输出的所述描述文本的文本特征。
[0013]可选地,所述第一模型为稳定扩散模型;所述第二模型为对比文本图像模型。
[0014]可选地,根据所述各目标图像的图像特征与所述文本特征之间的相似度,确定最终目标图像,具体包括:将各相似度中最大的相似度对应的目标图像作为最终目标图像。
[0015]本说明书提供了一种图像的生成装置,包括:文本获取模块,用于获取待生成图像的描述文本;第一输入模块,用于将所述描述文本输入预先训练的第一模型,得到所述第一模型输出的所述描述文本对应的各目标图像;第二输入模块,用于针对每个目标图像,将该目标图像输入预先训练的第二模型,得到所述第二模型输出的该目标图像的图像特征;以及将所述描述文本输入所述预先训练的第二模型,得到所述第二模型输出的所述描述文本的文本特征;图像确定模块,用于根据所述各目标图像的图像特征与所述文本特征之间的相似度,确定最终目标图像。
[0016]可选地,所述文本获取模块具体用于,获取待生成图像的原始文本;确定所述第一模型和/或所述第二模型的输入文本语种;根据所述输入文本语种以及所述原始文本,确定
所述待生成图像的描述文本。
[0017]可选地,所述第一输入模块具体用于,使用TensorRT对所述预先训练的第一模型进行加速,通过加速运行的所述第一模型,得到所述第一模型输出的所述描述文本对应的各目标图像。
[0018]可选地,所述第一输入模块还用于,将所述预先训练的第一模型中的参数转换为所述TensorRT的参数格式。
[0019]可选地,所述第一输入模块具体用于,获取待生成图像的图像风格;确定与所述图像风格对应的提示文本;将所述提示文本与所述描述文本输入预先训练的第一模型。
[0020]可选地,所述第一输入模块具体用于,获取至少两个所述第一模型的随机种子;其中,所述随机种子用于使得所述第一模型生成目标图像;针对每个随机种子,将该随机种子与所述描述文本输入所述第一模型,使得所述第一模型根据该随机种子初始化噪声图像,并根据所述噪声图像以及所述描述文本得到该随机种子对应的目标图像。
[0021]可选地,所述第二模型中至少包括:文本编码器和图像编码器;所述第二输入模块具体用于,将该目标图像输入所述图像编码器,得到所述图像编码器输出的该目标图像的图像特征;将所述描述文本输入所述文本编码器,得到所述文本编码器输出的所述描述文本的文本特征。
[0022]可选地,所述第一模型为稳定扩散模型;所述第二模型为对比文本图像模型。
[0023]可选地,所述图像确定模块具体用于,将各相似度中最大的相似度对应的目标图像作为最终目标图像。
[0024]本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述图像的生成方法。
[0025]本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述图像的生成方法。
[0026]本说明书采用的上述至少一个技术方案能够达到以下有益效果:在本说明书提供的图像的生成方法中,获取待生成图像的描述文本,然后将该描述文本输入到第一模型中,得到各目标图像。根本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像的生成方法,其特征在于,所述方法包括:获取待生成图像的描述文本;将所述描述文本输入预先训练的第一模型,得到所述第一模型输出的所述描述文本对应的各目标图像;针对每个目标图像,将该目标图像输入预先训练的第二模型,得到所述第二模型输出的该目标图像的图像特征;以及将所述描述文本输入所述预先训练的第二模型,得到所述第二模型输出的所述描述文本的文本特征;根据所述各目标图像的图像特征与所述文本特征之间的相似度,确定最终目标图像。2.如权利要求1所述的方法,其特征在于,获取待生成图像的描述文本,具体包括:获取待生成图像的原始文本;确定所述第一模型和/或所述第二模型的输入文本语种;根据所述输入文本语种以及所述原始文本,确定所述待生成图像的描述文本。3.如权利要求1所述的方法,其特征在于,得到所述第一模型输出的所述描述文本对应的各目标图像,具体包括:使用TensorRT对所述预先训练的第一模型进行加速,通过加速运行的所述第一模型,得到所述第一模型输出的所述描述文本对应的各目标图像。4.如权利要求3所述的方法,其特征在于,在使用TensorRT对所述预先训练的第一模型进行加速之前,所述方法还包括:将所述预先训练的第一模型中的参数转换为所述TensorRT的参数格式。5.如权利要求1所述的方法,其特征在于,将所述描述文本输入预先训练的第一模型,具体包括:获取待生成图像的图像风格;确定与所述图像风格对应的提示文本;将所述提示文本与所述描述文本输入预先训练的第一模型。6.如权利要求1所述的方法,其特征在于,将所述描述文本输入预先训练的第一模型,得到所述第一模型输出的所述描述文本对应的各目标图像,具体包括:获取至少两个所述第一模型的随机种子;其中,所述随机种子用于使得所述第一模型生成目标图像;针对每个随机种子,将该随机种子与所述描述文本输入所述第一模型,使得所述第一模型根据该随机种子初始化噪声图像,并根据所述噪声图像以及所述描述文本得到该随机种子对应的目标图像。7.如权利要求1所述的方法,其特征在于,所述第二模型中至少包括:文本编码器和图像编码器;将该目标图像输入预先训练的第二模型,得到所述第二模型输出的该目标图像的图像特征,具体包括:将该目标图像输入所述图像编码器,得到所述图像编码器输出的该目标图像的图像特征;将所述描述文本输入所述预先训练的第二模型,得到所述第二模型输出的所述描述文本的文本特征,具体包括:
将所述描述文本输入所述文本编码器,得到所述文本编码器输出的所述描述文本的文本特征。8.如权利要求1所述的方法,其特征在于,所述第一模型为稳定扩散模型;所述第二模型为对比文本图像模型。9.如权利要求1所述的方法,其特征在于,根据所述各目标图像的图像特征与所述文本特征之间的相似度,确定最终目标图像,具体包括:将各相似度中最大的相似度对应的目标图像作为最终目标图像。10.一种图像的输出装置,其特征...

【专利技术属性】
技术研发人员:李太豪齐旺
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1