一种基于序列编码与图像特征学习的内容感知图形布局生成方法、系统及装置制造方法及图纸

技术编号：42524311 阅读：3 留言：0更新日期：2024-08-27 19:34

本发明专利技术公开了一种基于序列编码与图像特征学习的内容感知图形布局生成方法、系统及装置，该方法设计了序列编码模块用于将序列约束语句进行编码学习，多尺度特征网络对图形进行特征学习，再将序列特征与图像特征连接送入transformer编码器和解码器对特征全局进行处理，实现生成符合序列约束的内容感知图形布局。本发明专利技术将序列特征与图像特征进行融合，送入transformer编码器与解码器。最后，通过引入自注意力机制的自注意变换模块对向量进行全局建模，实现全局特征的交互和整合，从而生成符合序列语句约束的内容感知图形布局。本发明专利技术可用于海报、网页、杂志自动生成等领域。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉与图形学领域，特别是涉及一种基于序列编码与图像特征学习的内容感知图形布局生成方法、系统及装置。

技术介绍

1、图形布局生成是计算机视觉和图形学领域的重要研究方向之一，广泛应用于海报自动生成、杂志自动生成、网页设计等多媒体信息生成领域。然而，传统图形布局设计基于一定的规则进行设计，缺乏灵活性且无法满足不同的应用场景。

2、近年来，深度学习技术在计算机视觉领域取得了显著的突破。卷积神经网络（cnn）被广泛应用于处理图像数据，其能够有效地捕捉图像的空间特征信息。另一方面，transformer模块是一种基于自注意力机制的方法，能够关注到全局的特征信息。然而，对于同一张图像来说，海报的展示需求往往是多样的，如何让模型既能够学习图像特征信息，又对用户展示需求的序列语句进行编码学习，生成满足用户序列约束的内容感知图形布局成为亟需解决的难题。

技术实现思路

1、本专利技术目的在于针对现有技术中的不足，提供了一种基于序列编码与图像特征学习的内容感知图形布局生成方法、系统及装置。对序列与图像进行特征提取与学习，再进行全局处理，实现生成符合序列约束的内容感知图形布局。

2、本专利技术的目的是通过以下技术方案来实现的：第一方面，本专利技术提供了一种基于序列编码与图像特征学习的内容感知图形布局生成方法，该方法包括以下步骤：

3、（1）序列特征提取：获取样本可约束序列信息，结合序列词库映射、正弦余弦位置编码、transformer编码器和全连接网络用于提取序列特征；

4、（2）多尺度图像特征提取：基于多尺度特征卷积层对输入图像进行特征提取，将具有最高语义两层特征进行融合，作为最终图像特征；

5、（3）特征全局学习：将序列特征与图像特征进行连接，并展平为一维向量，通过自注意变换模块对序列和图像特征信息进行语言与视觉表示学习，利用自注意力机制建立全局上下文信息的关联，以学习全局特征；

6、（4）图形布局生成：对学习到的全局序列特征与图像特征进行维度映射和非线性变换，生成图形元素类别信息与位置信息。

7、进一步地，预处理包括：根据已标注的图像与布局信息，为每个样本随机生成对应的序列语句，作为序列样本。

8、进一步地，对输入的图像数据进行伸缩变换，每个数据样本对应一个序列标注和一个布局标注。

9、进一步地，每个图像数据为rgb三通道，长宽分别为750和513个像素。

10、进一步地，序列特征提取模块中位置编码采用正弦余弦位置编码。

11、进一步地，通过自注意变换模块进行全局特征学习，所述自注意变换模块包括多个transformer编码器，每个transformer编码器包括自注意力机制和前馈神经网络，自注意力机制能够学习全局特征的相关性，捕捉序列与图像数据中的长距离依赖关系。

12、进一步地，使用序列语句、图像和标注布局信息训练整体模型，并通过随机梯度下降优化算法迭代地调整模型参数，以提高模型的准确性和泛化能力。

13、进一步地，图形布局生成具体过程为：在自注意变换模块的transformer编码器的输出上添加全连接层，将学习到的全局特征进行维度映射和非线性变换，然后利用softmax分类器对图形元素类别进行判定，并利用sigmoid函数对图形元素进行位置信息预测。

14、第二方面，本专利技术还提供了一种基于序列编码与图像特征学习的内容感知图形布局生成系统，该系统包括：序列特征提取模块、多尺度图像特征提取模块、特征全局学习模块和图形布局生成模块；

15、所述序列特征提取模块用于设计一种带有正弦余弦位置编码的transformer编码器对序列语句进行编码特征学习；

16、所述多尺度图像特征提取模块用于提取图像多尺度特征信息，并融合最后富有高语义信息的两层特征，其中低分辨率特征信息进行上采样融合加入到高分辨率特征信息中得到最终的图像特征融合信息；

17、所述特征全局学习模块用于将连接的序列特征与图像特征展平为一维向量，通过自注意变换模块对序列特征与图像特征进行语言和视觉表示学习，利用自注意力机制建立全局上下文信息的关联，以学习全局特征；并在嵌入编码结果上加入位置编码信息；

18、所述图形布局生成模块用于对学习到的全局序列特征与图像特征进行维度映射和非线性变换，实现生成满足序列约束的内容感知图形布局。

19、第三方面，本专利技术还提供了一种基于序列编码与图像特征学习的内容感知图形布局生成装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现所述的一种基于序列编码与图像特征学习的内容感知图形布局生成方法。

20、第四方面，本专利技术还提供了一种计算机可读存储介质，其上存储有程序，所述程序被处理器执行时，实现所述的一种基于序列编码与图像特征学习的内容感知图形布局生成方法。

21、第五方面，本专利技术还提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时，实现所述的一种基于序列编码与图像特征学习的内容感知图形布局生成方法。

22、本专利技术的有益效果在于：

23、1、融合了序列映射与特征提取网络、多尺度卷积特征提取网络、transformer编码器的优势，提高了序列和图像数据的表示能力和特征提取能力，有效的提高了模型的训练稳定性和收敛速度，并且建立全局特征的融合信息。

24、2、通过引入自注意力机制，能够捕捉全局上下文信息，改善序列特征与图像特征提取与融合。自注意力机制能够学习到序列特征与图像特征中不同位置的依赖关系，提高图形布局生成质量。

25、3、先使用序列特征编码网络和多尺度卷积网络对序列和图像进行编码与特征提取，再由transformer编码器与解码器在提取的特征上建立全局关系，从而很好的建模学习序列特征与图像特征之间的关系。

26、4、在集合建模学习序列信息与图像信息后，模型能够完成生成符合序列约束的内容感知图形布局任务。通过综合利用序列特征提取模块、多尺度卷积特征融合模块、transformer编码器和解码器的特点，本专利技术的方法能够提取并融合丰富的序列特征信息与图像特征信息，提高模型训练稳定性和收敛速度，建立全局信息感受野，可以完成生成符合序列约束的内容感知图形布局。

27、综上所述，本专利技术提供了基于序列编码与图像特征学习的内容感知图形布局生成方法及系统，可广泛应用于辅助海报生成、杂志生成、网页设计等多媒体信息生成领域。该方法能够有效地满足对于同一张图像不同的展示需求的图形布局生成任务，具有较高的应用前景和商业价值。

本文档来自技高网...

【技术保护点】

1.一种基于序列编码与图像特征学习的内容感知图形布局生成方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于序列编码与图像特征学习的内容感知图形布局生成方法，其特征在于，根据图像与图形布局标注信息随机制作对应的序列语句，并对输入图像进行尺寸调整和颜色标准化操作。

3.根据权利要求1所述的一种基于序列编码与图像特征学习的内容感知图形布局生成方法，其特征在于，步骤（1）中，对序列语句数据进行序列映射编码，对映射后的序列数据进行正弦余弦位置编码，随后送入序列transformer编码器，对整个序列进行全局建模与学习。

4.根据权利要求1所述的一种基于序列编码与图像特征学习的内容感知图形布局生成方法，其特征在于，步骤（2）中，基于多尺度卷积层提取多尺度图像特征，保留最高语义两层特征图进行上采样融合，并将序列特征拓展为与图像特征具有相同尺寸大小的特征向量，再将其与融合后的图像特征进行连接。

5.根据权利要求1所述的一种基于序列编码与图像特征学习的内容感知图形布局生成方法，其特征在于，步骤（3）中，自注意变换包含多个transf

6.根据权利要求5所述的一种基于序列编码与图像特征学习的内容感知图形布局生成方法，其特征在于，transformer编码器中在嵌入编码特征向量结果基础上加入位置编码向量信息，位置编码向量的维度与嵌入编码特征向量的维度相同。

7.一种实现权利要求1-6任一项所述方法的基于序列编码与图像特征学习的内容感知图形布局生成系统，其特征在于，该系统包括：

8.一种基于序列编码与图像特征学习的内容感知图形布局生成装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，其特征在于，所述处理器执行所述可执行代码时，实现如权利要求1-6中任一项所述的一种基于序列编码与图像特征学习的内容感知图形布局生成方法。

9.一种计算机可读存储介质，其上存储有程序，其特征在于，所述程序被处理器执行时，实现如权利要求1-6中任一项所述的一种基于序列编码与图像特征学习的内容感知图形布局生成方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-6任一项所述的一种基于序列编码与图像特征学习的内容感知图形布局生成方法。

...

【技术特征摘要】

1.一种基于序列编码与图像特征学习的内容感知图形布局生成方法，其特征在于，该方法包括以下步骤：

5.根据权利要求1所述的一种基于序列编码与图像特征学习的内容感知图形布局生成方法，其特征在于，步骤（3）中，自注意变换包含多个transformer编码器与解码器，每个transformer编码器包括自注意力机制和前馈神经网络，自注意力机制学习全局特征的相关性，捕捉时空序列...

【专利技术属性】
技术研发人员：许威威，许晨晨，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人