文本生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37331579 阅读:11 留言:0更新日期:2023-04-21 23:09
本发明专利技术提供一种文本生成方法、装置、电子设备及存储介质,涉及人工智能技术领域,该方法包括:获取目标对象的初始文本和目标对象的图像;将初始文本和图像输入至多模态文本生成模型,得到多模态文本生成模型输出的目标对象的目标文本;多模态文本生成模型是基于样本文本、样本图像和标签数据进行训练得到,用于生成目标对象的目标文本。本发明专利技术提供的方法,通过多模态文本生成模型根据输入的目标对象的多模态信息,实现了目标对象的目标文本的生成,提升了目标文本生成的效率和全面性,进而提升用户体验。提升用户体验。提升用户体验。

【技术实现步骤摘要】
文本生成方法、装置、电子设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种文本生成方法、装置、电子设备及存储介质。

技术介绍

[0002]商品的营销文案是商品营销管理的重要组成部分,旨在为潜在客户提供商品的关键信息。
[0003]相关技术中,通常是使用单模态信息作为输入,比如根据文本生成文本,输入的单模态信息较为单一,使得生成的商品营销文本信息不能够全面反应商品的关键信息,用户不能够全面了解商品的属性,导致商品的销量低。

技术实现思路

[0004]本专利技术提供一种文本生成方法、装置、电子设备及存储介质,用以解决现有技术中商品的销量低的问题。
[0005]本专利技术提供一种文本生成方法,包括:
[0006]获取目标对象的初始文本和所述目标对象的图像;
[0007]将所述初始文本和所述图像输入至多模态文本生成模型,得到所述多模态文本生成模型输出的所述目标对象的目标文本;所述多模态文本生成模型是基于样本文本、样本图像和标签数据进行训练得到,用于生成所述目标对象的目标文本。
[0008]根据本专利技术提供的一种文本生成方法,所述多模态文本生成模型包括:全局特征提取模块、局部特征提取模块、编码器和解码器,所述将所述初始文本和所述图像输入至多模态文本生成模型,得到所述多模态文本生成模型输出的所述目标对象的目标文本,包括:
[0009]将所述图像输入至所述全局特征提取模块,得到所述全局特征提取模块输出的所述图像的全局特征;所述全局特征用于对所述编码器和所述解码器的隐藏层进行初始化;
[0010]将所述图像输入至所述局部特征提取模块,得到所述局部特征提取模块输出的所述图像的局部特征;所述局部特征用于生成图像上下文向量;
[0011]将所述初始文本和所述局部特征输入至所述编码器,得到所述编码器输出的文本编码向量和图像编码向量;
[0012]将所述文本编码向量和所述图像编码向量输入至所述解码器,得到所述解码器输出的文本解码序列和图像解码序列;
[0013]基于所述文本编码向量、所述图像编码向量、所述文本解码序列和所述图像解码序列,确定所述目标对象的所述目标文本。
[0014]根据本专利技术提供的一种文本生成方法,所述多模态文本生成模型还包括:注意力模块、词汇分布模块和单词分布模块,所述基于所述文本编码向量、所述图像编码向量、所述文本解码序列和所述图像解码序列,确定所述目标对象的所述目标文本,包括:
[0015]将所述文本编码向量、所述图像编码向量、所述文本解码序列和所述图像解码序
列输入至所述注意力模块,得到所述注意力模块输出的加权融合上下文向量;
[0016]将所述文本解码序列输入至所述词汇分布模块,得到所述词汇分布模块输出的所述文本解码序列中每个词对应的概率;
[0017]基于所述加权融合上下文向量、所述文本解码序列和所述图像解码序列,确定控制参数;
[0018]将所述控制参数、所述概率和所述编码器中隐藏层的权重之和输入至所述单词分布模块,得到所述单词分布模块输出的目标单词;
[0019]基于所述目标单词,生成所述目标对象的目标文本。
[0020]根据本专利技术提供的一种文本生成方法,所述将所述文本编码向量、所述图像编码向量、所述文本解码序列和所述图像解码序列输入至所述注意力模块,得到所述注意力模块输出的加权融合上下文向量,包括:
[0021]将所述文本编码向量、所述图像编码向量、所述文本解码序列和所述图像解码序列输入至所述注意力模块,得到文本上下文向量和图像上下文向量;
[0022]将所述文本上下文向量和所述图像上下文向量进行加权融合,得到所述加权融合上下文向量。
[0023]根据本专利技术提供的一种文本生成方法,所述将所述文本上下文向量和所述图像上下文向量进行加权融合,得到所述加权融合上下文向量,包括:
[0024]将所述文本上下文向量和所述图像上下文向量,采用公式(1)进行加权融合,得到所述加权融合上下文向量;
[0025][0026]其中,表示所述加权融合上下文向量,表示t时间步所述文本上下文向量c
t
的权重,表示t时间步所述图像上下文向量的权重,W
m
和V
m
表示神经网络的权重。
[0027]根据本专利技术提供的一种文本生成方法,所述将所述控制参数、所述概率和所述编码器中隐藏层的权重之和输入至所述单词分布模块,得到所述单词分布模块输出的目标单词,包括:
[0028]将所述控制参数、所述概率和所述编码器中隐藏层的权重之和输入所述单词分布模块,得到所述目标单词生成的概率分布;
[0029]基于所述概率分布,确定所述目标单词。
[0030]本专利技术还提供一种文本生成装置,包括:
[0031]获取模块,用于获取目标对象的初始文本和所述目标对象的图像;
[0032]文本生成模块,用于将所述初始文本和所述图像输入至多模态文本生成模型,得到所述多模态文本生成模型输出的所述目标对象的目标文本;所述多模态文本生成模型是基于样本文本、样本图像和标签数据进行训练得到,用于生成所述目标对象的目标文本。
[0033]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文本生成方法。
[0034]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文本生成方法。
[0035]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文本生成方法。
[0036]本专利技术提供的文本生成方法、装置、电子设备及存储介质,通过获取目标对象的初始文本和所述目标对象的图像;将初始文本和所述图像输入至多模态文本生成模型,得到所述多模态文本生成模型输出的所述目标对象的目标文本;所述多模态文本生成模型是基于样本文本、样本图像和标签数据进行训练得到,用于生成所述目标对象的目标文本,通过多模态文本生成模型根据输入的目标对象的多模态信息,实现了目标对象的目标文本的生成,提升了目标文本生成的效率和全面性,进而提升用户体验。
附图说明
[0037]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0038]图1是现有技术提供的端到端模型的结构示意图;
[0039]图2是现有技术提供的PGN模型的结构示意图;
[0040]图3是本专利技术提供的文本生成方法的流程示意图;
[0041]图4是本专利技术提供的多模态文本生成模型的结构示意图;
[0042]图5是本专利技术提供的文本生成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本生成方法,其特征在于,包括:获取目标对象的初始文本和所述目标对象的图像;将所述初始文本和所述图像输入至多模态文本生成模型,得到所述多模态文本生成模型输出的所述目标对象的目标文本;所述多模态文本生成模型是基于样本文本、样本图像和标签数据进行训练得到,用于生成所述目标对象的目标文本。2.根据权利要求1所述的文本生成方法,其特征在于,所述多模态文本生成模型包括:全局特征提取模块、局部特征提取模块、编码器和解码器,所述将所述初始文本和所述图像输入至多模态文本生成模型,得到所述多模态文本生成模型输出的所述目标对象的目标文本,包括:将所述图像输入至所述全局特征提取模块,得到所述全局特征提取模块输出的所述图像的全局特征;所述全局特征用于对所述编码器和所述解码器的隐藏层进行初始化;将所述图像输入至所述局部特征提取模块,得到所述局部特征提取模块输出的所述图像的局部特征;所述局部特征用于生成图像上下文向量;将所述初始文本和所述局部特征输入至所述编码器,得到所述编码器输出的文本编码向量和图像编码向量;将所述文本编码向量和所述图像编码向量输入至所述解码器,得到所述解码器输出的文本解码序列和图像解码序列;基于所述文本编码向量、所述图像编码向量、所述文本解码序列和所述图像解码序列,确定所述目标对象的所述目标文本。3.根据权利要求2所述的文本生成方法,其特征在于,所述多模态文本生成模型还包括:注意力模块、词汇分布模块和单词分布模块,所述基于所述文本编码向量、所述图像编码向量、所述文本解码序列和所述图像解码序列,确定所述目标对象的所述目标文本,包括:将所述文本编码向量、所述图像编码向量、所述文本解码序列和所述图像解码序列输入至所述注意力模块,得到所述注意力模块输出的加权融合上下文向量;将所述文本解码序列输入至所述词汇分布模块,得到所述词汇分布模块输出的所述文本解码序列中每个词对应的概率;基于所述加权融合上下文向量、所述文本解码序列和所述图像解码序列,确定控制参数;将所述控制参数、所述概率和所述编码器中隐藏层的权重之和输入至所述单词分布模块,得到所述单词分布模块输出的目标单词;基于所述目标单词,生成所述目标对象的目标文本。4.根据权利要求3所述的文本生成方法,其特征在于,所述将所述文本编码向量、所...

【专利技术属性】
技术研发人员:唐霞李小超谢水庚何伟
申请(专利权)人:北京航天云路有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1