基于双经验池TDDPG和DDPG-双重3Q学习模型的水体富营养化预测方法技术

技术编号：42944729 阅读：23 留言：0更新日期：2024-10-11 16:02

本发明专利技术是一种基于双经验池TDDPG和DDPG‑双重3Q学习模型的水体富营养化预测方法，用于水质监测。本发明专利技术方法将水体富营养化预测问题转换为马尔可夫决策问题，获取水体富营养化的水质多参数时序，构建基于双经验池的TDDPG预测模型、ADDPG预测模型和RDPG预测模型，由历史数据预测未来水质数据；将三个预测模型的初步预测结果、预测结果的误差分别作为第一重和第二重3Q学习的状态集，智能体在单个时间步决策选择的初步预测结果和误差，将二者叠加获取最终预测结果，计算水体富营养化程度。本发明专利技术提高了预测水质数据的精度和准确性，避免陷入局部最优，兼顾了训练效率，为水体富营养化预测提供了准确有效的实用方案。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于水质监测，涉及人工智能技术、水体富营养化检测技术，具体涉及一种基于双经验池tddpg模型和ddpg-双重3q学习模型的水体富营养化预测方法。

技术介绍

1、近年来，水环境污染已成为全球共同关注的问题，其中水体富营养化问题尤为严重。富营养化导致水中氮、磷等营养盐过量，破坏水生态系统平衡，促使某些物种过度繁殖，引发水华，危害日常生活。据联合国环境规划署数据显示，全球河湖富营养化威胁生物生存的区域逐年增加。富营养化的治理难度大，因此及时预见并采取有效措施至关重要。水体富营养化是多种因素共同作用的结果，包括氮磷营养盐、叶绿素、cod(化学需氧量)、温度等。人类活动是主要原因之一，使营养盐大量流入水体，刺激藻类繁殖，导致水体污染。同时，藻类自身繁殖能力强，形成恶性循环，加剧生态平衡破坏。季节变化也影响水质指标，导致不同时段的富营养化程度不同。因此，长期监测和预测水质指标对水生态环境治理至关重要。针对多因素水质数据进行预测，是防范富营养化的必要措施。水体富营养化预测模型面临着挑战，因其复杂性和非线性特征，传统模型处理能力有限，难以捕捉关联和保留长期特征信息。因此，构建更高效、更精确的预测模型具有重要意义。

2、目前，水体富营养化的预测模型分为机理驱动模型与数据驱动模型两类。

3、机理驱动的水体富营养化建模：基于藻类生长的生理知识和水环境系统的物理、化学定律，模拟藻类生物量变化。从简单的单营养物负荷模型到复杂的生态动力学模型，这些模型能够较好地理解藻类增殖过程中的内外部影响因素。然而，该方法在预测过程中需

4、数据驱动的水体富营养化建模：利用大量历史数据监测内外部环境因子的相互关系，以预测水体富营养化情况。该方法不需先验知识，能挖掘隐藏于系统中的内在规律，因而得到广泛应用。主要分为数理统计模型和人工智能模型两类。数理统计模型通过处理历史数据，利用相关性分析、回归分析等方法探索影响因子对状态变量的作用，发现其发展规律。随着计算机技术的进步，人工智能模型在水体富营养化预测中扮演重要角色。由于水体富营养化是一个高度非线性、复杂的生态反应过程，人工智能模型通过智能算法处理多种因素的影响，提供有效解决方案。这些模型利用计算机硬件和软件系统的提升，运算速度和精度大幅提高，为预测和解决非线性问题提供了有效手段。

5、目前基于深度强化学习的水体富营养化预测存在以下主要问题：

6、(1)深度强化学习结合了深度学习的结构和强化学习的思想，但它的侧重点更多的是在强化学习上，解决的仍然是决策问题，所以首先要将水体富营养化时间序列预测问题转化成mdp(马尔可夫决策过程)问题。由于多因素水质数据量过大，模型进行预测时无法对数据特征进行一个长期保留，ddpg(deep deterministic policy gradient，深度确定策略梯度)模型的经验池结构能够存储历史数据特征，但传统ddpg模型的actor网络对多因素水质数据特征提取效率较低，导致ddpg模型在进行多因素水质数据预测时的训练效率降低。

7、(2)在利用深度强化学习模型来解决水体富营养化预测问题时，通常既要考虑模型的训练效率问题，同时也要考虑预测精度的问题。现有的深度强化学习模型只能针对特有的环境来设计mdp来解决水体富营养化预测问题，却无法做到对模型训练效率以及预测精度的兼顾，在解决实际水体富营养化预测问题时实用性较低。

技术实现思路

1、本专利技术针对上述使用深度强化学习技术进行水体富营养化预测存在的问题，提供了一种基于双经验池tddpg模型和ddpg-双重3q学习模型的水体富营养化预测方法，解决现有深度强化学习模型无法保留历史数据长期有效特征的问题，并进一步提高预测模型的训练效率以及预测精度，提高预测模型的实用性。

2、本专利技术提供的一种基于双经验池tddpg模型和ddpg-双重3q学习模型的水体富营养化预测方法，包括如下步骤：

3、步骤1：获取目标水域的水质监测数据，用马尔可夫决策过程表示水质监测时序数据，将水体富营养化时间序列预测问题转换为马尔可夫决策问题；

4、从目标水域的水质监测数据中得到历史水质多参数时序数据，将水体富营养化的预测问题转换为马尔可夫决策问题，马尔可夫决策过程中的状态st对应t时刻的一组水质参数，动作对应预测操作，智能体对状态st执行一个动作后转移到下一个状态st+1；由预测的未来时间的水质参数评估水体富营养化程度；

5、步骤2：对历史水质多参数时序使用基于双经验池的tddpg预测模型进行预测，输出未来时间的水质多参数时序；所述的基于双经验池的tddpg预测模型构建方式包含：

6、步骤21：改进ddpg网络，设置专家经验池，与随机经验池构成双经验池；训练时actor在线网络将预测的四元组(当前状态，动作，奖励，下一时刻状态)存入随机经验池，同时critic网络在更新目标q值函数时生成下一时刻的近似估计动作，将近似估计动作对应的四元组存入专家经验池；训练过程中从双经验池中随机抽取样本进行训练；

7、步骤22：设置ddpg网络中的actor在线网络与actor目标网络各使用一个独立的transformer结构对输入的水质多参数时序提取状态特征，再输入actor网络进行动作决策；

8、步骤23：标记基于双经验池的tddpg预测模型中的智能体为第一智能体；通过优化动作的决策策略，使得第一智能体与环境交互后获得的总奖励值最大化，总奖励值越大代表智能体预测越准确；设基于双经验池的tddpg预测模型输出未来时间的水质多参数时序的第一初步预测结果；

9、步骤3：构建addpg预测模型和rdpg预测模型，输入历史水质多参数时序，预测未来时间的水质多参数时序；

10、所述的addpg预测模型使用attention网络对历史水质多参数时序提取特征，再使用步骤21改进的ddpg网络进行动作决策；标记addpg预测模型中的智能体为第二智能体，优化第二智能体的动作决策策略；设通过addpg预测模型输出未来时间的水质多参数时序的第二初步预测结果；

11、所述的rdpg预测模型使用lstm网络对历史水质多参数时序提取特征，再使用步骤21改进的ddpg网络进行动作决策；标记rdpg预测模型中的智能体为第三智能体，优化第三智能体的动作决策策略；设通过rdpg预测模型输出未来时间的水质多参数时序的第三初步预测结果；

12、步骤4：构建ddpg-双重3q学习模型，对未来时间的水质多参数时序进行最终预测；

13、所述ddpg-双重3q学习模型中，将第一、第二和第三初步预测结果作为状态模型集输入第一重学习，设ddpg-双重3q学习模型中的智能体为b，智能体b决策单个时间步选择的初步预测结果及对应的预测模型；将第一、第二和第三初步预测结果的误差作为状态模型输入第二重学习，智能体b本文档来自技高网...

【技术保护点】

1.一种基于双经验池TDDPG和DDPG-双重3Q学习模型的水体富营养化预测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述的步骤4中，构建的DDPG-双重3Q学习模型中，在第一重3Q学习中，智能体B在单个时间步获得双经验池TDDPG预测模型、ADDPG预测模型和RDPG预测模型的初步预测结果以及对应的三个Q值，利用三个Q值更新最终Q学习策略Q*，基于Q*进行选择哪个状态模型的决策。

3.根据权利要求1所述的方法，其特征在于，所述的步骤22中，使用的Transformer结构包含的编码器和解码器各有6层。

【技术特征摘要】

1.一种基于双经验池tddpg和ddpg-双重3q学习模型的水体富营养化预测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述的步骤4中，构建的ddpg-双重3q学习模型中，在第一重3q学习中，智能体b在单个时间步获得双经验池tddpg预测模...

【专利技术属性】
技术研发人员：王立，卢俊峰，宁超然，王小艺，许继平，赵峙尧，张慧妍，于家斌，孙茜，白玉廷，
申请(专利权)人：北京工商大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人