System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及无线物联网路由,具体涉及基于深度对比强化学习的无线路由优化方法及网络系统。
技术介绍
1、物联网(internet of things,iot)技术作为新型计算机技术的重要组成在社会信息化、现代化发展中起着至关重要的作用。作为物联网底层的重要支撑技术之一,无线传感器网络(wireless sensor networks,wsns)已经成为学术界和工业界关注的焦点,目前已广泛地应用于车联网、智慧城市、工业4.0等新兴领域,旨在为其提供高效的数据采集和传输服务。wsn由部署在目标监测区域内的大量资源受限的传感器节点组成,通过无线通信技术以多跳形式将数据发送到用户服务器。在wsn中,路由协议是至关重要的组成部分,也是当前国内外研究的热点之一。此外,由于wsn中的节点通常采用电池供电,节点的计算和存储能力相对较弱,同时发送数据包也需要耗费能量。因此,该网络面临着诸如网络延迟、网络生存时间短、网络能耗不均匀等问题。路由算法的研究和创新将为构建能量高效、安全、可靠的物联网通信系统提供重要支持。
2、然而,传统无线多跳网络中的路由算法存在诸多问题:1)簇首的选择往往不合理,可能导致远距离的簇头因长距离传输数据而过早消耗能量,这不仅浪费能量,还导致网络分割;2)大多数算法未考虑到簇头节点的当前能量状态。如果能量较低的节点被选为簇首,将加速节点的能量消耗,从而影响整个网络的寿命;3)一些传统的路由决策算法采用固定的路由规则,缺乏对网络状态的感知。这可能导致某些等效路径负载较高,难以实现自适应的流量卸载,容易导致负载不均衡
3、传统的路由算法包括距离矢量算法、链路状态算法等,它们被广泛应用在传统网络中,但在大规模、动态的物联网环境中可能面临效率和可扩展性的问题。针对物联网特点,研究者提出了一些专用的路由算法,例如基于位置的路由、能量感知路由等,以满足物联网设备的低功耗、高效率的通信需求。为了在wsn中有效收集数据,传感器节点可能需要根据某种场景进行动态部署,然而,在动态和复杂的网络环境下实现高效的路由算法更为困难。
4、一些研究正在探索将强化学习算法应用于路由决策,通过学习网络状态和流量模式来优化路由选择,提高网络性能。强化学习作为机器学习的一个分支,被广泛应用于研究无线资源路由优化算法。基于强化学习的路由决策算法对网络流量状态具有高度感知能力,能够根据流量变化动态地调整不同传输路径的数据发送量,实现流量自适应卸载和资源调度。专利cn109361601a介绍了一种基于强化学习的sdn路由规划方法,其中使用q-learning算法作为路由决策模型。该模型的输入包括网络拓扑信息、流量矩阵和qos等级,输出是满足要求的最短路径。尽管该方法旨在提高网络链路的带宽利用率,减少网络拥塞,但它存在缺陷,即每条流量只沿着选取的固定最短路径转发,可能导致路径负载不均衡。
5、专利cn110611619a提出了一种基于ddpg强化学习的智能化路由决策方法,该方法利用ddpg算法构建了基于强化学习的路由决策模型。该模型以网络流量矩阵信息作为输入,并通过强化学习算法以最小化网络等效路径中最大带宽利用率与最小带宽利用率差值的绝对值为目标,动态调整不同传输路径的数据量,实现负载均衡。然而,该算法仅使用一组等效路径中的最大带宽利用率和最小带宽利用率的数值来判断网络负载均衡状态,难以有效调整其他路径的带宽,可能导致其他路径负载不均衡。此外,专利cn110611619a中的数据集较小,难以满足强化学习算法的训练需求,导致模型在许多情况下表现不佳,网络依然存在负载分布不均衡的情况。
6、然而,基于深度强化学习(deep reinforcement learning,drl)的路由优化算法仍面临以下挑战:1)计算和存储资源消耗大:drl模型通常较大,需要较多的内存和计算资源。这在资源有限的物联网设备上可能导致不可行性或性能下降;2)数据需求大:drl算法通常需要大量的训练数据来学习合适的策略。尤其是在动态和复杂的物联网环境中获取足够的标记数据是一项挑战。
7、总之,以上现有路由优化方法中存在如下问题:(1)传统路由算法路由度量考虑不全面,仅考虑单一方面的路由度量。节点和链路的路由度量特征,缺乏对候选转发节点的剩余能量、跳数、期望传输次数、缓冲区队列数、潜在子节点数等混合路由度量信息未全面综合考虑,这将导致网络中的能量效率、数据传输可靠性以及网络稳定性等问题未得到有效改善;(2)对于仅采用简单线性相加的混合路由度量函数,仅采用基于专家主观经验来确定各路由度量权重系数。然而,这些系数通常在网络运行过程中无法根据网络的客观实际需求而自适应的调整,这将会在一定程度上影响网络的性能;(3)基于深度强化学习的路由算法能够根据网络运行环境自适应地优化相关的权重系数,但是终端上部署相应的深度强化学习模型会消耗节点大量的计算、存储和能量资源在模型的训练过程,这对资源受限节点的智能化带来了新的挑战。
技术实现思路
1、本专利技术目的在于提供基于深度对比强化学习的无线路由优化方法及网络系统,本专利技术是一种对比学习协助的深度强化学习模型(称为深度对比强化学习模型)来实现面向物联网高效数据传输的分布式路由优化方法。本专利技术将深度对比强化学习模型的训练和推理任务解耦,旨在缓解终端设备的计算和存储压力,同时为服务器提供更加丰富和多样化的模型训练数据,从而加速深度对比强化学习模型的收敛并提升网络性能。此外,本专利技术综合考量了包含历史信息的多个路由度量(跳数、剩余能量、缓冲器队列数、时延等),并引入对比学习提升决策模型的特征表示能力,采用多尺度卷积神经网络从不同维度提取各候选转发节点的路由度量特征,通过比较不同路径的相对优劣,模型可以更好地理解环境中的差异,从而提高路由选择效果。
2、本专利技术通过下述技术方案实现:
3、第一方面,本专利技术提供了基于深度对比强化学习的无线路由优化方法,该方法应用于物联网无线多跳网络和服务器中,服务器上部署有深度对比强化学习模型,网络包括一个汇聚节点和多个无线终端节点,每个终端节点上部署有actor网络作为分布式的路由决策模型;该方法包括:
4、将整个时间划分为多个连续的超帧周期,每个超帧周期包括一个控制周期和一个数据传输周期;
5、基于超帧周期,每个节点入网时从服务器上获取当前最新路由决策模型;在控制周期,该节点基于最新路由决策模型和局部状态向量s,生成当前最优动作a并将其映射为最优转发节点;在数据传输周期,该节点传输数据给最优转发节点;在每个数据传输周期结束后,该节点统计相关网络性能指标(包投递率(packet delivery ratio,pdr)、端到端时延(end to end delay,e2e delay)和能量效率(energy efficiency,ee)等性能指标),根据构建的奖励函数,采用非线性计分法计算相应的奖励值r;直至深度对比强化学习模型收敛前,该节点将在每个超帧周期内采集的经验信息<s,a,r,s′>上传至服务器本文档来自技高网...
【技术保护点】
1.基于深度对比强化学习的无线路由优化方法,其特征在于,该方法应用于物联网无线多跳网络和服务器中,所述服务器上部署有深度对比强化学习模型,所述网络包括一个汇聚节点和多个无线终端节点,每个终端节点上部署有Actor网络作为分布式的路由决策模型;该方法包括:
2.根据权利要求1所述的基于深度对比强化学习的无线路由优化方法,其特征在于,在控制周期,该节点基于最新路由决策模型和局部状态向量s,生成当前最优动作a并将其映射为最优转发节点,包括:
3.根据权利要求2所述的基于深度对比强化学习的无线路由优化方法,其特征在于,所述节点信息包括节点的能量效率信息、跳数、期望传输次数、缓冲器队列数和潜在子点数;
4.根据权利要求2所述的基于深度对比强化学习的无线路由优化方法,其特征在于,将局部状态向量s输入到最新路由决策模型中,生成最优动作a,并将最优动作a映射为相应的最优转发节点,包括:
5.根据权利要求1所述的基于深度对比强化学习的无线路由优化方法,其特征在于,所述深度对比强化学习模型是将对比学习引入到深度强化学习模型中,通过学习样本的相对关系,通
6.根据权利要求5所述的基于深度对比强化学习的无线路由优化方法,其特征在于,所述奖励值r是采用深度对比强化学习模型的奖励函数进行计算,奖励函数的计算公式为:
7.根据权利要求1所述的基于深度对比强化学习的无线路由优化方法,其特征在于,并从经验池中抽取部分经验信息并训练所述深度对比强化学习模型,包括:
8.根据权利要求7所述的基于深度对比强化学习的无线路由优化方法,其特征在于,所述优势函数的公式为:
9.根据权利要求7所述的基于深度对比强化学习的无线路由优化方法,其特征在于,当训练回合数达到对比学习训练阈值时,服务器还从经验库D中每次抽取相应的样本数据来协助训练路由决策模型,包括:
10.基于深度对比强化学习的无线网络系统,其特征在于,该无线网络系统是基于权利要求1至9中任一所述的基于深度对比强化学习的无线路由优化方法;该无线网络系统包括物联网无线多跳网络和服务器,所述网络包括一个汇聚节点和多个无线终端节点;
...【技术特征摘要】
1.基于深度对比强化学习的无线路由优化方法,其特征在于,该方法应用于物联网无线多跳网络和服务器中,所述服务器上部署有深度对比强化学习模型,所述网络包括一个汇聚节点和多个无线终端节点,每个终端节点上部署有actor网络作为分布式的路由决策模型;该方法包括:
2.根据权利要求1所述的基于深度对比强化学习的无线路由优化方法,其特征在于,在控制周期,该节点基于最新路由决策模型和局部状态向量s,生成当前最优动作a并将其映射为最优转发节点,包括:
3.根据权利要求2所述的基于深度对比强化学习的无线路由优化方法,其特征在于,所述节点信息包括节点的能量效率信息、跳数、期望传输次数、缓冲器队列数和潜在子点数;
4.根据权利要求2所述的基于深度对比强化学习的无线路由优化方法,其特征在于,将局部状态向量s输入到最新路由决策模型中,生成最优动作a,并将最优动作a映射为相应的最优转发节点,包括:
5.根据权利要求1所述的基于深度对比强化学习的无线路由优化方法,其特征在于,所述深度对比强化学习模型是将对比学习引入到深度强化学习模型中,通过学习样本的相对关系,通过对比学习提高深度强化...
【专利技术属性】
技术研发人员:罗世龙,林贤文,严明俊,李昌波,陈姜林,
申请(专利权)人:重庆可兰达科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。