【技术实现步骤摘要】
一种基于Sarsa算法的通联队列管控方法
[0001]本专利技术涉及一种通联队列管控方法,特别是一种基于算法的通联队列管控方法。
技术介绍
[0002]强化学习也被称为再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。经典强化学习问题通常被建模为马尔可夫决策过程(Markov DecisionProcess,MDP),即下一时刻的状态仅由当前时刻的动作决定,与过去的信息无关。一个标准的MDP通常可以表示为一个四元组M=(S,A,r,P),其中S表示所有状态的集合,A表示所有动作的集合,r表示奖赏函数,P表示状态转移函数。强化学习的目标是最大化带有折扣的期望回报。 算法(参考:基于改进SARSA(λ)移动机器人路径规划[J].长春工业大学学报,2019(1).)是一种基于值函数的强化学习算法, λ是一个衰变值,它可以通过记下离目标越近的选择就越重要,越需要被好好的更新的方式加快 算法的收敛速度,最终实现快速计算最优解。
[0003]受限于在山岳丛林、高原高寒山地、山林地、荒漠地等荒野救援应用场景下,卫星通信、北斗用户机、短波电台、超短波电台等装备提供的通信设备条件远远低于有线网络环境,如何在有限的通信资源环境中为用户提供智能、高效的通联能力是荒野救援场景下的技术难点。目前,商用通信领域对通信智能化管控技术已有研究成果,但大部分是针对企业或商用的业务应用场景,这些成果并不适用于通信条件受到复杂地理环境限制的应用环境 ...
【技术保护点】
【技术特征摘要】
1.一种基于算法的通联队列管控方法,其特征在于,包括以下步骤:步骤1,针对弱连接和高机动的网络通信环境,根据不同类型的通信设备,进行通信信道估计建模,得到通信装备信道估计模型;步骤2,对上层应用报文的通信响应时间建模,得到通信响应时间模型;步骤3,对上层应用报文的关键等级建模,得到报文关键等级模型;步骤4,基于算法制定通联智能管控策略,对所述的通信装备信道估计模型、通信响应时间模型和报文关键等级模型的通联通信能力进行计算,完成所述的通联队列管控。2.根据权利要求1所述的一种基于算法的通联队列管控方法,其特征在于,步骤1中所述的进行通信信道估计建模的方法包括:步骤1
‑
1,实时分析所述网络通信环境中的系统通信报文的历史传输状态;步骤1
‑
2,分析并计算当前时间内通信报文使用的通信信道及其对应的成功率;步骤1
‑
3,进行通信信道估计建模。3.根据权利要求2所述的一种基于算法的通联队列管控方法,其特征在于,步骤1
‑
2中所述的分析并计算当前时间内通信报文使用的通信信道及其对应的成功率,方法如下:;其中, 表示历史报文选择通信信道a发送成功的概率, 表示历史报文选择通信信道b发送成功的概率, 表示历史报文选择通信信道n发送成功的概率,其中,a表示卫星通信信道,b表示短波电台通信信道,n表示其他设备通信信道, 表示步骤1。4.根据权利要求3所述的一种基于算法的通联队列管控方法,其特征在于,步骤1
‑
3中所述的进行通信信道估计建模,方法如下:根据公式:其中, 表示在当前网络通信环境下,选择通信信道a即卫星通信信道、通信信道b即短波电台通信信道、通信信道n即其它设备通信信道等通信方式成功发送当前报文的权值, 表示在信道估计建模中使用,n表示选择不同的通信信道;进行通信信道估计建模:其中, 表示选择通信信道a即卫星通信信道成功发送报文的权值, 表示选择通信信道b即短波电台通信信道成功发送报文的权值, 表示选择通信信道n即其它设备通信信道成功发送报文的权值。5.根据权利要求4所述的一种基于算法的通联队列管控方法,其特征在于,步骤2中所述的对上层应用报文的通信响应时间建模,包括以下步骤:步骤2
‑
1,实时分析系统未发送报文信息,分析计算未发送报文使用的通信信道;步骤2
‑
2,估计各个通信信道未发送报文数目;
步骤2
‑
3,计算得出新增报文使用各个通信信道的通信响应时间;步骤2
‑
4,对上层应用报文的通信响应时间建模。6.根据权利要求5所述的一种基于 算法的通联队列管控方法,其特征在于,步骤2
‑
2中所述的估计各个通信信道未发送报文数目,方法如下:;其中, 表示通信信道a缓存的待发送报文数目, 表示通信信道b缓存的待发送报文数目, 表示通...
【专利技术属性】
技术研发人员:吴鹏,史星宇,郑华利,陆生,朱峰,朱江,汪磊,施晓东,葛光富,钱丰,费超,刘欢连,靳朝,李彭,
申请(专利权)人:中国电子科技集团公司第二十八研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。