【技术实现步骤摘要】
图像生成方法、装置、设备和存储介质
[0001]本申请涉及图像处理
,特别是涉及一种图像生成方法
、
装置
、
设备和存储介质
。
技术介绍
[0002]目前,用户通常通过专业的图像编辑软件,对图像当中的图像要素进行编辑,例如增加
、
删除或修改图像要素等,从而得到符合用户需求的图像
。
[0003]然而,当用户通过图像编辑软件手动编辑图像时,需要用户学习图像编辑的基础知识以及图像编辑软件的使用方式,并且,编辑图像的过程中通常需要耗费用户大量精力
。
由此可见,现有方式,效率较低
。
技术实现思路
[0004]本申请主要解决的技术问题是提供一种图像生成方法
、
装置
、
设备和存储介质,能够提高生成用户期望的目标图像的效率
。
[0005]为了解决上述技术问题,本申请第一方面提供了一种图像生成方法,包括:获取原始图像;显示对原始图像分析得到的图像描述文本;响应于对图像描述文本的编辑指令,获取图像描述文本编辑之后的目标描述文本;显示基于目标描述文本所生成的目标图像
。
[0006]为了解决上述技术问题,本申请第二方面提供了一种图像生成装置,包括:图像获取模块,用于获取原始图像;文本显示模块,用于显示对原始图像分析得到的图像描述文本;文本编辑模块,用于响应于对图像描述文本的编辑指令,获取图像描述文本编辑之后的目标描述文本;图像显示模块,用于显
【技术保护点】
【技术特征摘要】
1.
一种图像生成方法,其特征在于,包括:获取原始图像;显示对所述原始图像分析得到的图像描述文本;响应于对所述图像描述文本的编辑指令,获取所述图像描述文本编辑之后的目标描述文本;显示基于所述目标描述文本所生成的目标图像
。2.
根据权利要求1所述的方法,其特征在于,所述图像描述文本至少包括所述原始图像的简单描述文本
。3.
根据权利要求2所述的方法,其特征在于,所述简单描述文本的获取步骤包括:获取所述原始图像的图像编码特征;基于所述图像编码特征进行模态转换,得到所述原始图像以文本推理表达的文本编码特征;将所述文本编码特征输入大语言模型,并获取所述大语言模型的输出文本作为所述简单描述文本
。4.
根据权利要求2所述的方法,其特征在于,在所述响应于对所述图像描述文本的编辑指令,获取所述图像描述文本编辑之后的目标描述文本之后,以及在所述显示基于所述目标描述文本所生成的目标图像之前,所述方法还包括:基于所述目标描述文本,生成所述原始图像的复杂描述文本,作为新的目标描述文本;所述显示基于所述目标描述文本所生成的目标图像,包括:显示基于所述新的目标描述文本所生成的目标图像
。5.
根据权利要求4所述的方法,其特征在于,所述复杂描述文本的获取步骤包括:基于注意力机制处理所述目标描述文本的第一编码特征,得到注意力文本特征;基于所述第一编码特征和所述注意力文本特征进行融合,得到第一融合特征;基于所述第一融合特征以及所述第一融合特征经特征提取所得到的提取特征进行融合,得到第二融合特征;基于所述第二融合特征进行解码,得到所述复杂描述文本
。6.
根据权利要求5所述的方法,其特征在于,所述基于注意力机制处理所述目标描述文本的第一编码特征,得到注意力文本特征,包括:获取所述第一编码特征由第一提取网络所提取的特征作为查询特征,并获取所述第一编码特征由第二提取网络所提取的特征作为键特征,以及选择所述第一编码特征作为值特征;基于所述查询特征
、
所述键特征和所述值特征进行处理,得到所述注意力文本特征
。7.
根据权利要求1所述的方法,其特征在于,在所述图像描述文本包括简单描述文本和复杂描述文本的情况下,所述目标图像的生成步骤包括:获取所述简单描述文本响应于所述编辑指令之后的第一目标文本,并获取所述复杂描述文本响应于所述编辑指令之后的第二目标文本;获取所述第一目标文本的第二编码特征,并获取所述第二目标文本的文本提取特征;基于所述第二编码特征和所述文本提取特征进行加权,得到文本加权特征;基于所述文本加权特征,生成得到所述目标图像
。
8.
根据权利要求1所述方法,其特征在于,所述目标图像基于图像生成模型得到,所述图像生成模型的训练步骤包括:获取样本图像;其中,所述样本图像标注有样本简单描述文本和样本复杂描述文本;基于所述样本图像的样本图像编码特征,生成所述样本图像的预测简单描述文本;基于所述预测简单描述文本生成所述样本图像的预测复杂描述文本;基于所述预测简单描述文本的样本文本编码特征和所述预测复杂描述文本的样本文本提取特征,生成预测图像;至少基于所述预测复杂描述文本与所述样本复杂描述文本之间的文本差异和所述样本文本编码特征与所述样本文本提取特征之间的第一分布差异,调整所述图像生成模型的网络参数
。9.
根据权利要求8所述的方法,其特征在于,所述基于所述预测简单描述文本生成所述样本图像的预测复杂描述文本,包括:基于所述样本文本编码特征,得到注意力机制的样本查询特征
、
样本键特征和样本值特征,并基于所述样本查询特征
、
所述样本键特征和所述样本值特征,得到样本注意力文本特征;基于...
【专利技术属性】
技术研发人员:刘聪,张海薇,何山,高建清,杨硕,殷保才,殷兵,郜静文,胡国平,魏思,王士进,刘权,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。