一种基于双重注意力机制的建模方法技术

技术编号：44808964 阅读：2 留言：0更新日期：2025-03-28 19:55

本申请公开了一种基于双重注意力机制的建模方法，将四维张量作为输入数据；通过深度卷积长短期记忆网络提取所述输入数据的时空特征，对输入的每个特征通道分别应用ConvLSTM2D层，并在特征维度上进行拼接；将时间分布的空间注意力和特征注意力集成到深度学习框架，通过时间分布的Flatten层将每个时间步的空间特征展开为一维向量；将所述一维向量应用全局平均池化层在时间维度上对特征进行聚合；通过输出层预测目标值。本发明专利技术通过利用双重注意力机制，针对随时间变化的重要空间位置和特征利用算法建模，无需预分析数据的优势，提高多个时空场景下的预测准确性、可解释性和泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据建模处理，尤其涉及一种基于双重注意力机制的建模方法。

技术介绍

1、近年来，数字孪生(digital twin)作为物理世界在数字空间中的高精度映射，已成为智能制造、智慧城市和地球系统科学等领域的关键技术。数字孪生通过实时获取和分析物理系统的数据，实现对系统状态的实时监控、预测和优化。然而，构建高精度的数字孪生需要对物理系统进行精确的建模和模拟，特别是在涉及复杂时空动态和多维特征的情况下。

2、传统的地球系统模型通常是基于方程驱动的，依赖预先定义的方程来表示物理过程。这些模型在捕捉地球系统过程中的复杂非线性交互和高维数据方面面临挑战，且难以满足数字孪生对实时性和精确性的要求。此外，它们通常缺乏在不同区域和场景中的灵活性和泛化能力。

3、人工智能(artificial intelligence，ai)方法，特别是深度学习模型，已被应用于地球系统建模和数字孪生的构建，以应对这些挑战。然而，许多ai模型充当了黑箱，缺乏可解释性，限制了它们在理解底层过程和指导决策方面的实用性。

4、注意力机制在ai中显示出通过关注输入数据中最相关部分来提高模型性能和可解释性的潜力。然而，现有模型通常仅使用单一的注意力机制，且局限于特定的应用，无法充分捕捉复杂的时空动态和特征重要性，这在数字孪生的高精度建模中成为限制因素。基于方程驱动的模型难以捕捉物理系统中复杂的非线性交互，缺乏灵活性和泛化能力，难以满足数字孪生对高精度和实时性的要求。传统的ai模型虽然功能强大，但通常作为黑箱，缺乏可解释性，限制了其在数

技术实现思路

1、本申请实施例提供了一种基于双重注意力机制的建模方法，以至少部分的解决上述技术问题。

2、本申请实施例采用下述技术方案：

3、第一方面，本申请实施例提供一种基于双重注意力机制的建模方法，所述方法包括：

4、a)将四维张量作为输入数据；

5、b)通过深度卷积长短期记忆网络提取所述输入数据的时空特征，对输入的每个特征通道分别应用convlstm2d层，并在特征维度上进行拼接；

6、c)将时间分布的空间注意力和特征注意力集成到深度学习框架，所述时间分布的空间注意力通过对输入数据在时间维度上使用时间分布包装的二维卷积层计算空间注意力权重，所述特征注意力机制通过对输入数据在时间维度上使用时间分布包装的二维卷积层计算特征注意力权重；

7、d)通过时间分布的flatten层将每个时间步的空间特征展开为一维向量；

8、e)将所述一维向量应用全局平均池化层在时间维度上对特征进行聚合；

9、f)通过输出层预测目标值。

10、进一步地，所述空间注意力权重通过对每个时间步的输入数据进行卷积操作并应用sigmoid激活函数计算得到，计算空间注意力权重的公式为：

11、αt＝σ(conv2d(ht))

12、

13、其中，conv2d为二维卷积操作，填充方式为"same"，σ()为sigmoid激活函数，为时间步数t的输入。

14、进一步地，所述特征注意力权重通过对每个时间步的输入数据进行1×1卷积操作并应用softmax激活函数计算得到，其中，计算特征注意力权重的公式为：

15、βt＝softmax(conv2d1×1(ht))

16、

17、确保在每个空间位置上，所有特征的注意力权重之和为1：

18、

19、其中，softmax激活函数在通道维度上应用。

20、进一步地，所述模型的训练过程使用均方误差作为损失函数，并使用自适应矩估计优化器进行优化。

21、进一步地，所述训练策略包括提前停止和动态调整学习率。

22、进一步地，所述四维张量包括时间步数、空间维度的高度、宽度和特征数量。

23、进一步地，在所述深度卷积lstm层之后，应用批归一化层和dropout层，以稳定训练过程并防止过拟合。

24、进一步地，在模型推理过程中，提取空间和特征注意力权重αt和βt，

25、

26、进一步地，模型实现环境使用python语言，深度学习框架采用tensorflow或pytorch。

27、第二方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行第一方面所述的方法步骤。

28、本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

29、(1)本专利技术提供一种灵活的、数据无关的时空算法建模方法，能够有效捕捉物理系统中复杂的时空模式和特征变化，为数字孪生的高精度建模提供支持。

30、(2)本专利技术通过利用双重注意力机制，在ai驱动的物理系统模型中增强可解释性，揭示随时间变化的重要空间位置和特征，提升数字孪生的透明度和可控性。

31、(3)本专利技术提高多个时空场景下的预测准确性和泛化能力，利用算法建模无需预分析数据的优势，支持数字孪生在不同物理系统中的应用。

本文档来自技高网...

【技术保护点】

1.一种基于双重注意力机制的建模方法，其特征在于，

2.根据权利要求1所述的一种基于双重注意力机制的建模方法，其特征在于，所述空间注意力权重通过对每个时间步的输入数据进行卷积操作并应用sigmoid激活函数计算得到，计算空间注意力权重的公式为：

3.根据权利要求1所述的一种基于双重注意力机制的建模方法，其特征在于，所述特征注意力权重通过对每个时间步的输入数据进行1×1卷积操作并应用softmax激活函数计算得到，其中，计算特征注意力权重的公式为：

4.根据权利要求1所述的一种基于双重注意力机制的建模方法，其特征在于，所述模型的训练过程使用均方误差作为损失函数，并使用自适应矩估计优化器进行优化。

5.根据权利要求1所述的一种基于双重注意力机制的建模方法，其特征在于，所述训练策略包括提前停止和动态调整学习率。

6.根据权利要求1所述一种基于双重注意力机制的建模方法，其特征在于，所述四维张量包括时间步数、空间维度的高度、宽度和特征数量。

7.根据权利要求1所述一种基于双重注意力机制的建模方法，其特征在于，在所述深度

8.根据权利要求1所述一种基于双重注意力机制的建模方法，其特征在于，在模型推理过程中，提取空间和特征注意力权重αt和βt，

9.根据权利要求1所述一种基于双重注意力机制的建模方法，其特征在于，模型实现环境使用Python语言，深度学习框架采用TensorFlow或PyTorch。

10.一种电子设备，其特征在于，包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行所述权利要求1～9之任一所述方法。

...

【技术特征摘要】

1.一种基于双重注意力机制的建模方法，其特征在于，

5.根据权利要求1所述的一种基于双重注意力机制的建模方法，其特征在于，所述训练策略包括提前停止和动态调整学习率。

6....

【专利技术属性】
技术研发人员：夏萃慧，
申请(专利权)人：夏萃慧，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人