基于多模态信息输入的人工智能文本创作方法技术

技术编号：35520193 阅读：48 留言：0更新日期：2022-11-09 14:39

本发明专利技术公开了基于多模态信息输入的人工智能文本创作方法，该方法包括多模态数据构造以及文本创作模型两部分。本发明专利技术能够同时处理多模态图文序列信息作为输入，在给定主题词的条件下进行文本生成，将AI创作领域由单个模态到文本生成的工作扩展到由多个模态到文本的生成，更加符合人类创作的过程。此外，在方法上本发明专利技术的模型结构和训练方式更加合理，实验结果可靠，同时也印证了本发明专利技术方法的有效性，该方法也更易于后续扩展、迁移和再创造。迁移和再创造。迁移和再创造。

全部详细技术资料下载

【技术实现步骤摘要】
基于多模态信息输入的人工智能文本创作方法

[0001]本专利技术涉及人工智能、深度学习、自然语言生成
，尤其是涉及一种基于多模态信息输入的人工智能文本创作方法。

技术介绍

[0002]歌词生成和诗歌写作是两个典型的AI创作任务，其中生成的文本需要遵循一些格式和韵律。早期的歌词生成工作大多基于约束或基于检索的方法，试图通过将最佳相关的后一句与前一句的匹配来生成。后来的研究使用长短期记忆(LSTM)或自动编码器等神经网络来处理此任务，或是在解码器中添加分层注意机制。最近，预训练语言模型可以提供更好的基于条件的结果并考虑更多的韵律和节奏。在诗歌生成的任务中，早期的模型主要关注关键词扩展和对诗人的意图进行建模，直到随着像GPT这样的大型预训练语言模型的出现成为里程碑。除了文本信息之外，其他工作还尝试用图像启发诗歌生成。这些研究采用视觉输入来模拟人类的场景感知过程。基本上，这些方法从单个图像输入生成诗歌。现有的Images2Poem通过从图像流中选择具有代表性的图像并采用自适应自注意力机制进行解码，从图像流中生成中国古典诗歌，这与本申请的工作类似。
[0003]另一个相关的领域是通过采用多模态数据生成文本摘要的多模态摘要技术。然而，生成的摘要高度依赖源文本，这与本申请的主题限制的多模态创作任务不同。其他相关的任务如视觉叙事，它以多个连续图像作为输入，旨在生成连贯的故事。为了解决这个问题，许多工作利用CNN对图像流进行编码，并利用RNN类的模块来生成故事句子，或者使用分层结构以及一些专门设计的注意力机制。还有其他一...

【技术保护点】

【技术特征摘要】
1.基于多模态信息输入的人工智能文本创作方法，其特征在于，所述文本创造方法包括多模态数据构造以及文本创作模型两部分；其中，所述多模态数据构造的具体方法如下：首先从网络上爬取大量的歌词，并对其进行符合特定模式地拆分成不同的段落，这些段落由不同的分句构成；将歌名作为任务中需要用到的主题信息，在一个大规模的电影梗概的图文数据集GraphMovie上，采用CADM模型将每个分句作为查询的关键信息进行检索并得到多个图文对候选；对所述图文对候选中的一部分进行人工标注并用包含标注信息的这部分训练一个精排模型来提高图文对候选的质量；同时，不同相关性的排名信息将有助于构造不同质量的正负样本，用于后续模型的训练；由此，对于每个歌词段落，都能获取不同相关性质量的图文对候选序列来构成数据样本，进而形成特定任务下的数据集；所述文本创作模型由四个部分组成；前三部分构成编码器，具体来说，原始图像和文本首先由多通道序列处理器处理以生成它们的语义嵌入；然后，每一步的嵌入被分成不同的部分来影响最终的输出；最后，不同的模态与注意力网络融合在一起；最后一部分是解码器，旨在预测最终的输出句子。2.根据权利要求1所述的基于多模态信息输入的人工智能文本创作方法，其特征在于，所述文本创作模型的第一部分具体为：原始图像和文本的格式和语义在不同的空间中呈现；为了适应它们，设计多通道序列处理器，首先将不同的模态序列经过多模态预训练模型WenLan映射到相同的高维空间，然后输入到这些编码器神经网络中；这些编码器可以是循环神经网络或Transformer，最终可以通过权衡有效性和效率来选择具体采用的模块；输出则是一个隐式的嵌入序列；对于输入的图片和文本序列都经过这样的处理。3.根据权利要求1所述的基于多模态信息输入的人工智能文本创作方法，其特征在于，所述文本创作模型的第二部分具体为：文本创作模型是一个序列到序列的架构；然而，与机器翻译类传统任务不同，每个输入词严格对应一个输出词，在本申请的问题中，图像或文本可能会影响输出序列的跨度；为了对这些限制特点进行建模，设计了一个定制的模块来捕捉输入对输出的影响；具体来说，让上一节中推导出的隐藏嵌入具体地影响输出序列；对于这些隐藏嵌入，在各个通道内设计了模态间的注意力机制，用来捕获不同时间步对于其他时间步的影响，以此来得到包含不同其他时间步信息的某个时间步的综合隐藏嵌入；为了将直觉编码到定制的模块中，进一步引入了一个正则化器来约束注意力权重的学习；形式上，最小化注意力权重和一个预定义的分布之间的距离，从而定义一个这两者之间的KL损失函数来进行优化和学习；通过最小化KL损失，使用先验规则化注意力权重，这编码了更大的输...

【专利技术属性】
技术研发人员：曹乾，陈旭，宋睿华，
申请(专利权)人：中国人民大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人