基于多模态信息输入的人工智能文本创作方法技术

技术编号:35520193 阅读:48 留言:0更新日期:2022-11-09 14:39
本发明专利技术公开了基于多模态信息输入的人工智能文本创作方法,该方法包括多模态数据构造以及文本创作模型两部分。本发明专利技术能够同时处理多模态图文序列信息作为输入,在给定主题词的条件下进行文本生成,将AI创作领域由单个模态到文本生成的工作扩展到由多个模态到文本的生成,更加符合人类创作的过程。此外,在方法上本发明专利技术的模型结构和训练方式更加合理,实验结果可靠,同时也印证了本发明专利技术方法的有效性,该方法也更易于后续扩展、迁移和再创造。迁移和再创造。迁移和再创造。

【技术实现步骤摘要】
基于多模态信息输入的人工智能文本创作方法


[0001]本专利技术涉及人工智能、深度学习、自然语言生成
,尤其是涉及一种基于多模态信息输入的人工智能文本创作方法。

技术介绍

[0002]歌词生成和诗歌写作是两个典型的AI创作任务,其中生成的文本需要遵循一些格式和韵律。早期的歌词生成工作大多基于约束或基于检索的方法,试图通过将最佳相关的后一句与前一句的匹配来生成。后来的研究使用长短期记忆(LSTM)或自动编码器等神经网络来处理此任务,或是在解码器中添加分层注意机制。最近,预训练语言模型可以提供更好的基于条件的结果并考虑更多的韵律和节奏。在诗歌生成的任务中,早期的模型主要关注关键词扩展和对诗人的意图进行建模,直到随着像GPT这样的大型预训练语言模型的出现成为里程碑。除了文本信息之外,其他工作还尝试用图像启发诗歌生成。这些研究采用视觉输入来模拟人类的场景感知过程。基本上,这些方法从单个图像输入生成诗歌。现有的Images2Poem通过从图像流中选择具有代表性的图像并采用自适应自注意力机制进行解码,从图像流中生成中国古典诗歌,这与本申请的工作类似。
[0003]另一个相关的领域是通过采用多模态数据生成文本摘要的多模态摘要技术。然而,生成的摘要高度依赖源文本,这与本申请的主题限制的多模态创作任务不同。其他相关的任务如视觉叙事,它以多个连续图像作为输入,旨在生成连贯的故事。为了解决这个问题,许多工作利用CNN对图像流进行编码,并利用RNN类的模块来生成故事句子,或者使用分层结构以及一些专门设计的注意力机制。还有其他一些作品赋予模型适应主题的能力或结合视频进行视觉叙事。
[0004]尽管以上这些AI创作相关的工作要么基于文本要么基于图像进行文本生成,但它们都没有同时将图像和文本的多模态信息并结合主题词作为输入或条件进行创作。尽管基于图像写诗的工作有许多有希望的结果,但它们中的大多数从图像中识别关键字,例如图片中的对象或情绪,并采用关键字作为输入来影响诗歌生成过程。同时,仅仅输入多张图片的Images2Poem方法与本申请的工作类似,但构建的图像(每首诗约20幅图像)主要是一首诗中提到的对象,与本申请试图从一系列图像和其各自对应的文本中捕获顺序语义的模型有很大不同。为了模拟人类在创作过程中的具身体验,同时并非所有体验(例如感觉)都可以很好地可视化和表示,本申请构造了一个特定的数据集来适应本申请的设定和任务。本申请的目标是在给定的主题下,通过模拟人类的具身体验,给定具有顺序关系的多组图文对,能够生成与输入图像和对应文本颇具关联的文本,以此来填补在人工智能创作领域适应各种多模态输入进行文本生成的空白。
[0005]对于多模态摘要生成和视觉叙事任务而言,尽管有工作基于多模态信息进行生成,但很少有工作像本申请的设置一样同时使用主题和成对的图像文本输入更自由的文本创作的研究,这是对人类过往经历和体验的更真实的模拟。
[0006]公开于该
技术介绍
部分的信息仅仅旨在加深对本专利技术的总体
技术介绍
的理解,而
不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

技术实现思路

[0007]本专利技术的目的在于提供一种基于多模态信息输入的人工智能文本创作方法,以解决现有技术中存在的问题。
[0008]为了实现上述目的,本专利技术采用以下技术方案:
[0009]本专利技术提供一种基于多模态信息输入的人工智能文本创作方法,所述文本创造方法包括多模态数据构造以及文本创作模型两部分;其中,
[0010]所述多模态数据构造的具体方法如下:首先从网络上爬取大量的歌词,并对其进行符合特定模式地拆分成不同的段落,这些段落由不同的分句构成;将歌名作为任务中需要用到的主题信息,在一个大规模的电影梗概的图文数据集GraphMovie上,采用CADM模型将每个分句作为查询的关键信息进行检索并得到多个图文对候选;对所述图文对候选中的一部分进行人工标注并用包含标注信息的这部分训练一个精排模型来提高图文对候选的质量;同时,不同相关性的排名信息将有助于构造不同质量的正负样本,用于后续模型的训练;由此,对于每个歌词段落,都能获取不同相关性质量的图文对候选序列来构成数据样本,进而形成特定任务下的数据集;
[0011]所述文本创作模型由四个部分组成;前三部分构成编码器,具体来说,原始图像和文本首先由多通道序列处理器处理以生成它们的语义嵌入;然后,每一步的嵌入被分成不同的部分来影响最终的输出;最后,不同的模态与注意力网络融合在一起;最后一部分是解码器,旨在预测最终的输出句子。
[0012]作为一种进一步的技术方案,所述文本创作模型的第一部分具体为:原始图像和文本的格式和语义在不同的空间中呈现;为了适应它们,设计多通道序列处理器,首先将不同的模态序列经过多模态预训练模型WenLan映射到相同的高维空间,然后输入到这些编码器神经网络中;这些编码器可以是循环神经网络或Transformer,最终可以通过权衡有效性和效率来选择具体采用的模块;输出则是一个隐式的嵌入序列;对于输入的图片和文本序列都经过这样的处理。
[0013]作为一种进一步的技术方案,所述文本创作模型的第二部分具体为:文本创作模型是一个序列到序列的架构;然而,与机器翻译类传统任务不同,每个输入词严格对应一个输出词,在本申请的问题中,图像或文本可能会影响输出序列的跨度;为了对这些限制特点进行建模,设计了一个定制的模块来捕捉输入对输出的影响;具体来说,让上一节中推导出的隐藏嵌入具体地影响输出序列;对于这些隐藏嵌入,在各个通道内设计了模态间的注意力机制,用来捕获不同时间步对于其他时间步的影响,以此来得到包含不同其他时间步信息的某个时间步的综合隐藏嵌入;为了将直觉编码到定制的模块中,进一步引入了一个正则化器来约束注意力权重的学习;形式上,最小化注意力权重和一个预定义的分布之间的距离,从而定义一个这两者之间的KL损失函数来进行优化和学习;通过最小化KL损失,使用先验规则化注意力权重,这编码了更大的输入

输出距离应该导致更低影响的直觉,从而让模型能够对输入的顺序有好的敏感性;用关于注意力权重分布的先验知识来缩小探索空间,以带来更好的收敛率和优化解决方案。
[0014]作为一种进一步的技术方案,所述文本创作模型的第三部分具体为:基于上面输
出的部分隐藏嵌入,融合不同的模态来推导出编码器的输出;具体来说,编码器的输出由L个嵌入组成,每个嵌入对主题、视觉和文本信息进行综合性的编码;通过迭代来自不同步骤的隐藏嵌入对第k步骤的影响来计算总的输出嵌入;对于每一对步骤,不同的模态以一种特定的注意力方式加权组合在一起;直观地说,对于同一个输出句子,不同的模态可能扮演不同的角色;因此,在组合它们时采用模态间的注意力机制;如果比较上述两个注意力机制,可能会发现前者部署在同一模态的不同步骤中,而后者的目标是在同一步骤中捕捉不同模态的贡献;这样的设计实际上形成了一个2D注意力机制,从而以更细粒度的方式对不同位置和模态的影响进行建模。
[0015]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多模态信息输入的人工智能文本创作方法,其特征在于,所述文本创造方法包括多模态数据构造以及文本创作模型两部分;其中,所述多模态数据构造的具体方法如下:首先从网络上爬取大量的歌词,并对其进行符合特定模式地拆分成不同的段落,这些段落由不同的分句构成;将歌名作为任务中需要用到的主题信息,在一个大规模的电影梗概的图文数据集GraphMovie上,采用CADM模型将每个分句作为查询的关键信息进行检索并得到多个图文对候选;对所述图文对候选中的一部分进行人工标注并用包含标注信息的这部分训练一个精排模型来提高图文对候选的质量;同时,不同相关性的排名信息将有助于构造不同质量的正负样本,用于后续模型的训练;由此,对于每个歌词段落,都能获取不同相关性质量的图文对候选序列来构成数据样本,进而形成特定任务下的数据集;所述文本创作模型由四个部分组成;前三部分构成编码器,具体来说,原始图像和文本首先由多通道序列处理器处理以生成它们的语义嵌入;然后,每一步的嵌入被分成不同的部分来影响最终的输出;最后,不同的模态与注意力网络融合在一起;最后一部分是解码器,旨在预测最终的输出句子。2.根据权利要求1所述的基于多模态信息输入的人工智能文本创作方法,其特征在于,所述文本创作模型的第一部分具体为:原始图像和文本的格式和语义在不同的空间中呈现;为了适应它们,设计多通道序列处理器,首先将不同的模态序列经过多模态预训练模型WenLan映射到相同的高维空间,然后输入到这些编码器神经网络中;这些编码器可以是循环神经网络或Transformer,最终可以通过权衡有效性和效率来选择具体采用的模块;输出则是一个隐式的嵌入序列;对于输入的图片和文本序列都经过这样的处理。3.根据权利要求1所述的基于多模态信息输入的人工智能文本创作方法,其特征在于,所述文本创作模型的第二部分具体为:文本创作模型是一个序列到序列的架构;然而,与机器翻译类传统任务不同,每个输入词严格对应一个输出词,在本申请的问题中,图像或文本可能会影响输出序列的跨度;为了对这些限制特点进行建模,设计了一个定制的模块来捕捉输入对输出的影响;具体来说,让上一节中推导出的隐藏嵌入具体地影响输出序列;对于这些隐藏嵌入,在各个通道内设计了模态间的注意力机制,用来捕获不同时间步对于其他时间步的影响,以此来得到包含不同其他时间步信息的某个时间步的综合隐藏嵌入;为了将直觉编码到定制的模块中,进一步引入了一个正则化器来约束注意力权重的学习;形式上,最小化注意力权重和一个预定义的分布之间的距离,从而定义一个这两者之间的KL损失函数来进行优化和学习;通过最小化KL损失,使用先验规则化注意力权重,这编码了更大的输...

【专利技术属性】
技术研发人员:曹乾陈旭宋睿华
申请(专利权)人:中国人民大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1