一种文本生成遥感图像的方法技术

技术编号：44177000 阅读：19 留言：0更新日期：2025-02-06 18:21

本发明专利技术公开了一种基于文本生成遥感图像的方法，融合了自然语言处理（NLP）和计算机视觉（CV）技术。该方法通过解析文本描述，利用动态层次化原型块进行层次化原型学习和动态原型学习，生成高质量的遥感图像。具体来说，将文本图像对经过编码器处理获得文本图像标记，将两者拼接的联合标记输入到动态层次化原型层中提取特征，该方法通过结合Hopfield网络和自注意力机制，增强了模型的记忆和信息检索能力，从而提高了遥感图像特征表示的丰富性和准确性。此外，采用动态原型学习策略，使模型能够逐步学习和适应更多的原型，在处理复杂数据时表现出更高的鲁棒性和准确性。最终，该方法能够生成在视觉上与文本描述一致，且具有高质量细节的遥感图像。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及遥感技术和人工智能的交叉领域，具体是涉及一种文本生成遥感图像的方法。

技术介绍

1、遥感图像被视为地球的“相片”，是重要的地球观测数据。它能从远程生成广泛的实时数据，在土地和城市规划、环境监测、军事目标识别等领域发挥关键作用。随着科技进步，对遥感图像的理解取得了实质性进展，地理信息系统的进步促进了遥感数据的可视化。此外，机器学习和人工智能的发展，将文本描述转化为高语义相关的图像，连接了自然语言与计算机视觉，也推动了人工智能在“理解”方面的发展。

2、正如该领域广泛认可的那样，自然图像和遥感图像在视图和内容上存在显著差异。遥感图像呈现出复杂多样的数据，需要广泛理解各种地理方面和现象之间的相互作用。自然影像以水平视角记录，前景和背景在人的视线中一目了然，图像中的主角往往占据大部分区域，易于识别。另一方面，遥感图像以垂直视图（上帝视图）记录，包含大量对象和更复杂的情况，前景和背景难以区分，图像中的主角大小与背景相近，甚至隐藏在背景中，即使是人类也很难发现，这些因素使得生成遥感图像比生成自然图像更难。此外，随着遥感数据的爆炸式增长，传统的遥感图像处理技术在没有繁琐的手工操作的情况下创造出想要的内容仍然是一个挑战。

3、尽管最近在文本到自然图像的生成方面取得了成功，但文本到高分辨率遥感图像的生成仍然具有挑战性。bejiga等人提出了第一个处理文本到遥感图像生成的工作，其中应用条件gan从古代地理区域的文本描述生成极低空间分辨率的灰度遥感图像。他们后来改进了文本编码，使用预训练的doc2vec编码器来捕

技术实现思路

1、为克服以上现有技术的不足，本专利技术的目的在于提供一种文本生成遥感图像的方法，通过引入层次化原型层以及置信度驱动的动态原型学习策略，提高了遥感图像特征表示的丰富性和准确性，模型能够逐步学习和适应更多的原型，使模型在处理复杂数据时表现出更高的鲁棒性和准确性。为了实现上述技术目的，本专利技术采用如下技术方案。

2、一种文本生成遥感图像的方法，具体包括以下步骤：

3、s1：准备训练数据集rsicd，获取文本描述以及对应的真实遥感图像；

4、s2：训练一个矢量量化生成对抗网络(vqgan)；

5、s3：通过文本和图像编码器对文本图像对进行编码；

6、s4：将文本和图像标记进行拼接；

7、s5：将联合拼接序列输入到动态层次化原型块中提取特征；

8、s6：训练过程采用动态原型学习策略；

9、s7：利用训练好的模型来生成遥感图像。

10、进一步的，所述步骤s1具体如下：提取每张图片的文本描述到单独txt文件中，输入为rsicd数据集的原始json文件，输出为包含所有文本描述、包含所有训练样本文件名和包含所有测试样本文件名的txt文件。

11、进一步的，所述步骤s2具体如下：预先生成一个离散数值的codebook，其中。在的每一个编码位置都去中去寻找最近的code，生成相同维度的变量。然后在已经数值离散化的基础上使用cnn encoder进行编码：

12、

13、自监督损失如下：

14、

15、其中，上式中的第一项为重建损失，为梯度终止操作。此外，还加入了gan中的对抗损失，其损失函数可以表示为：

16、

17、总结来说就是：

18、

19、进一步的，所述步骤s3具体如下：（1）首先将文本中的每个字符视为一个独立的标记，统计所有字符对的频率，选择最频繁的字符进行合并，形成新的标记，最后重复上述步骤，直到达到预定的标记数量。设n为输入句子的最大长度，在输入文本描述中的字数小于n的情况下，使用0作为占位符来填充空标记，将输入文本使用byte pair encoding（bpe）转换为文本标记，然后使用预训练的词嵌入模型将文本标记转换为向量表示。（2）使用预训练的图像编码器将输入图像转换为一系列图像标记，然后将图像标记转换为向量表示，通过上述步骤，将文本和图像信息转换为统一的标记表示。

20、进一步的，所述步骤s4具体如下：将文本标记和图像标记按照文本标记在前，图像标记在后的顺序拼接在一起，形成一个联合标记序列，然后为每个标记增加了位置编码，帮助模型理解标记之间的相对位置关系。

21、进一步的，所述步骤s5具体如下：将联合标记序列输入到第一个动态层次化原型块中的layerscale和prenorm层，经过标准化和缩放后的标记序列再输入到引入了温度参数的hopfield层，hopfield层通过能量函数的最小化来存储和检索代表性原型，然后再将经过hopfield层处理后的标记序列输入到层次化原型层。

22、标记序列进入到层次化原型层后，首先进入到第一个hopfield层存储和检索信息，再进入第一个自注意力层捕捉序列中不同位置之间的依赖关系，然后进入第二个hopfield层进一步细化特征表示，最后进入第二个自注意力层增强特征之间的交互。在前向传播过程中，输入数据依次通过这些层次结构进行处理，最终输出结合了各层次的特征表示，公式如下：

23、

24、其中，和分别代表第一层和第二层hopfield层，和分别表示第一层和第二层的自注意力层。

25、在每个动态层次化原型块中引入多个层次化原型层，每个动态层次化原型块包含两个层次化原型层和两个标准的 hopfield 层和自注意力层。公式如下：

26、

27、其中，p表示动态层次化原型块，ls表示layerscale，pn表示prenorm，hl表示hopfiled层，表示层次化原型层，表示自注意力层，表示原型的数量。

28、将经过层次化原型层处理后的标记序列再次输入到layerscale和prenorm层，进行标准化和缩放。再将经过标准化和缩放后的标记序列输入到自注意力层来计算查询、键和值向量之间的相似度，捕捉标记序列中的长距离依赖关系，然后将经过第一个动态层次化原型块处理后的标记序列依次输入到后续的动态层次化原型块中。

29、进一步的，所述步骤s6具体如下：在训练的过程中，模型会定期（每100步）生成图像并计算其置信度，生成图像的本文档来自技高网...

【技术保护点】

1.一种文本生成遥感图像的方法，其特征在于，包括以下的步骤：

2.根据权利要求1所述的文本生成遥感图像方法，其特征在于，在所述步骤S2中，预先生成一个离散数值的Codebook，，在的每一个编码位置都去中去寻找其距离最近的code，然后，使用CNN Encoder进行编码：。

3.根据权利要求1所述的文本生成遥感图像方法，其特征在于，在所述步骤S3中，首先将文本中的每个字符视为一个独立的标记，统计所有字符对的频率，选择最频繁的字符进行合并，形成新的标记，最后重复上述步骤，直到达到预定的标记数量；设n为输入句子的最大长度，在输入文本描述中的字数小于n的情况下，使用0作为占位符来填充空标记，再使用预训练的词嵌入模型将文本标记转换为向量表示；

4.根据权利要求1所述的文本生成遥感图像方法，其特征在于，在所述步骤S4中，将文本标记和图像标记按照文本标记在前，图像标记在后的顺序拼接在一起，形成一个联合标记序列，然后为每个标记增加位置编码。

5.根据权利要求1所述的文本生成遥感图像方法，其特征在于，在所述步骤S5中，将联合标记序列输入到第一个动

6.根据权利要求1所述的文本生成遥感图像方法，其特征在于，在所述步骤S6，在训练的过程中，模型会定期生成图像并计算其置信度；首先，模型根据输入文本生成图像，然后，模型计算生成图像的Logits值，再将Logits值通过归一化指数函数转换为概率分布，归一化指数函数的公式为：，其中，指的是第i个logits值，取概率分布中的最大值作为置信度，并计算其平均值，置信度的计算公式为：，其中，为样本数量，为第i个样本的logits值；

7.根据权利要求1所述的文本生成遥感图像方法，其特征在于，在所述步骤S7中，在经过多个层次化原型层的处理后，模型生成预测的图像标记；生成过程可以表示为：，其中，是模型的生成函数，是联合拼接序列，然后计算预测图像标记与原始标记之间的交叉熵损失，交叉熵损失定义为：，其中，是原始图像标记的概率分布，是预测图像标记的概率分布；预测的图像标记通过解码器网络被转换为图像像素值，生成最终的高质量遥感图像。

...

【技术特征摘要】

1.一种文本生成遥感图像的方法，其特征在于，包括以下的步骤：

2.根据权利要求1所述的文本生成遥感图像方法，其特征在于，在所述步骤s2中，预先生成一个离散数值的codebook，，在的每一个编码位置都去中去寻找其距离最近的code，然后，使用cnn encoder进行编码：。

3.根据权利要求1所述的文本生成遥感图像方法，其特征在于，在所述步骤s3中，首先将文本中的每个字符视为一个独立的标记，统计所有字符对的频率，选择最频繁的字符进行合并，形成新的标记，最后重复上述步骤，直到达到预定的标记数量；设n为输入句子的最大长度，在输入文本描述中的字数小于n的情况下，使用0作为占位符来填充空标记，再使用预训练的词嵌入模型将文本标记转换为向量表示；

4.根据权利要求1所述的文本生成遥感图像方法，其特征在于，在所述步骤s4中，将文本标记和图像标记按照文本标记在前，图像标记在后的顺序拼接在一起，形成一个联合标记序列，然后为每个标记增加位置编码。

5.根据权利要求1所述的文本生成遥感图像方法，其特征在于，在所述步骤s5中，将联合标记序列输入到第一个动态层次化原型块中进行标准化和缩放；经过标准化和缩放后的标记序列输入到...

【专利技术属性】
技术研发人员：周国清，王伟懿，
申请(专利权)人：桂林理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人