基于强化学习的传感器采样调度方法技术

技术编号:38207994 阅读:12 留言:0更新日期:2023-07-21 16:57
本发明专利技术涉及工业物联网领域,公开了一种基于强化学习的传感器采样调度方法、装置、设备及介质,包括:将各第一传感器的状态和动作输入与各第一传感器对应的第一智能体,第一智能体输出第一传感器动作对应的第一动作价值;将各第二传感器的状态和动作依次输入第二智能体,第二智能体依次输出各第二传感器动作对应的第二动作价值;其中,当前第二传感器的状态包括输入第二智能体的顺序排序在当前第二传感器之前的各其他第二传感器的动作;根据第一动作价值和第二动作价值,得到待调度传感器的优选动作价值;根据优选动作价值确定待调度传感器的采样调度方法。提升传感器采集信息的新鲜度效果。鲜度效果。鲜度效果。

【技术实现步骤摘要】
基于强化学习的传感器采样调度方法


[0001]本专利技术涉及工业物联网
,尤其涉及一种基于强化学习的传感器采样调度方法、装置、设备及介质。

技术介绍

[0002]随着5G商用网络部署范围不断扩大,物联网络发展进入了新的发展阶段。根据思科的报告,到2023年,全球将有147亿互联网设备,平均全球每个人将会有1.8个传感器。而根据爱立信的移动报告,到2026年,将有269亿的互联网设备接入。
[0003]其中,工业物联网(Industrial Internet of Things,IIoT)设备占据很大的比重,是物联网最重要的发展方向之一。工业物联网被视为工业系统最大的范式转变之一,它有可能彻底改变工业生产的现有体。由于泛在链接和泛在计算,工业物联网由端到端的通信网络转变为一个具备信息收集、处理、分析能力的综合系统。由于系统是以信息为中心的,因此系统的主要成员都为信息服务,比如捕捉信息的传感器,存储信息的缓存单元,利用信息的决策器。在不间断运行的工业系统中,服务质量受新鲜信息的传输时效性影响最大。比如,工业自动化生产流水线中控制器需要实时掌握机器的信息,以便做出使系统平稳运行的操作。
[0004]综上,如何调度IIoT中的信息,使得控制服务可以获得新鲜的系统信息是一个重要的问题。

技术实现思路

[0005]本专利技术提供一种基于强化学习的传感器采样调度方法、装置、计算机设备及介质,通过合理调度工业物联网中的信息,使得控制服务可以获得新鲜的系统信息,更优地实现工业生产实时调度的效果,进一步促进技术落地,实现工业生产效率的优化。
[0006]第一方面,提供了一种基于强化学习的传感器采样调度方法,包括:
[0007]根据待调度传感器的分类构建多智能体决策模型,其中,待调度传感器包括第一传感器和第二传感器,多智能体模型包括第一智能体和第二智能体,第一智能体与第一传感器一一对应,第二智能体与多个第二传感器对应;
[0008]将各第一传感器的状态和动作输入与各第一传感器对应的第一智能体,第一智能体输出第一传感器动作对应的第一动作价值;
[0009]将各第二传感器的状态和动作依次输入第二智能体,第二智能体依次输出各第二传感器动作对应的第二动作价值;其中,当前第二传感器的状态包括输入第二智能体的顺序排序在当前第二传感器之前的各其他第二传感器的动作;当前第二类传感为当前利用第二智能体运算第二动作价值的第二类传感;
[0010]根据第一动作价值和第二动作价值,得到待调度传感器的优选动作价值;
[0011]根据优选动作价值确定待调度传感器的采样调度方法。
[0012]在一些实施例中,待调度传感器包括第一传感器和第二传感器,包括:
[0013]待调度传感器包括支持智能体运算的第一传感器和不支持智能体运算的第二传感器。
[0014]在一些实施例中,根据待调度传感器的分类构建多智能体决策模型,包括:
[0015]构建多智能体决策模型为马尔科夫博弈过程,多智能体决策模型的数学语言表示为{N,S,{ai}
i=1,2,...N
,П,Γ,{ri}
i=1,2...N
};
[0016]其中,N表示多智能体的数目;
[0017]S表示所有智能体共享的环境状态集,S={S
i
}
i=1,2,3,...N
,每一个传感器共享的状态信息包括AP信息池中传感器信息的AOI值和每个传感器自身电池信息,信息对应应用关系,具体表达式为:
[0018][0019]式中,a
i
表示第i个智能体的动作集,智能体的动作集用智能体的信息更新策略表示:
[0020]a
i
(t)=α
i
(t)={x
i
(t),q
i
(t),p
i
(t)}
[0021]Π表示智能体动作选择策略的合集,Π={π1,π2,...π
N
},每一个π
i
表示的是S
i

a
i
的概率;
[0022]Γ表示状态转移概率,用S
×
a1×
a2×
...
×
a
N

S

表示。
[0023]r表示的是多智能体合作行为的立即奖励;其中,立即奖励由应用的AoCI的绝对值和应用AoCI的相对值两部分的加权和组成;
[0024]在传感器耗尽电池能源时和/或一个预设计算周期结束,智能体获得

r
b
的惩罚项作为最终奖励;在传感器顺利完成周期内的信息采集任务后,根据运行过程中的峰值AoCI,会获得r
f
(Δ)的额外奖励。
[0025]在一些实施例中,将各第二传感器的状态和动作依次输入第二智能体,第二智能体依次输出各第二传感器动作对应的第二动作价值,包括:
[0026]对第二传感器进行顺序编号,其中,顺序编号用于表示第二传感器输入第二智能体的顺序;
[0027]按照顺序编号依次将各第二传感器的状态和动作输入第二智能体,其中,每次决策为一个sub

step,每一步个sub

step获得的奖励对于第二智能体的更新是需要折扣因子的,具体表示为:
[0028]G
ss
=r
ss+1
+γ2r
ss+2
+...=∑γ
2i
r
ss+i+1
[0029]式中,γ2是折扣因子,且0≤γ2≤1,在sub

step的第ss步采用的策略获得的奖励值是R
ss
,则后续奖励是R
ss+1
,R
ss+2
,价值函数V
π
(s)是在采用策略π时,累积回报在状态s处的期望值,具体表示为:
[0030]V
π
(s)=E{G
ss
|S
ss
=s}=E
π
{∑γ
2n
r
ss+n+1
|S
ss
=s}
[0031]其中,策略π需要满足以下条件:
[0032]arg
A
maxV
π
(s)=arg
A
maxEΣ
π
{r2
n
r
ss+n+1
|S
ss
=s}
[0033][0034]在一些实施例中,根据第一动作价值和第二动作价值,得到待调度传感器的优选动作价值,包括:
[0035]利用贪婪算法根据第一动作价值和第二动作价值,确定各第一智能体和第二智能体输出的最大动作价值,得到待调度传感器的优选动作价值,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的传感器采样调度方法,其特征在于,包括:根据待调度传感器的分类构建多智能体决策模型,其中,所述待调度传感器包括第一传感器和第二传感器,所述多智能体模型包括第一智能体和第二智能体,所述第一智能体与所述第一传感器一一对应,所述第二智能体与多个所述第二传感器对应;将各所述第一传感器的状态和动作输入与各所述第一传感器对应的所述第一智能体,所述第一智能体输出所述第一传感器动作对应的第一动作价值;将各所述第二传感器的状态和动作依次输入所述第二智能体,所述第二智能体依次输出各所述第二传感器动作对应的第二动作价值;其中,当前第二传感器的状态包括输入所述第二智能体的顺序排序在所述当前第二传感器之前的各其他第二传感器的动作;所述当前第二类传感为当前利用所述第二智能体运算第二动作价值的第二类传感;根据所述第一动作价值和第二动作价值,得到所述待调度传感器的优选动作价值;根据所述优选动作价值确定所述待调度传感器的采样调度方法。2.如权利要求1所述的基于强化学习的传感器采样调度方法,其特征在于,所述待调度传感器包括第一传感器和第二传感器,包括:所述待调度传感器包括支持智能体运算的第一传感器和不支持智能体运算的第二传感器。3.如权利要求1所述的基于强化学习的传感器采样调度方法,其特征在于,所述根据待调度传感器的分类构建多智能体决策模型,包括:构建多智能体决策模型为马尔科夫博弈过程,所述多智能体决策模型的数学语言表示为{N,S,{a
i
}
i=1,2,...N
,Π,Γ,{r
i
}
i=1,2...N
};其中,N表示多智能体的数目;S表示所有智能体共享的环境状态集,S={S
i
}
i=1,2,3,...N
,每一个传感器共享的状态信息包括AP信息池中传感器信息的AOI值和每个传感器自身电池信息,信息对应应用关系,具体表达式为:式中,a
i
表示第i个智能体的动作集,智能体的动作集用智能体的信息更新策略表示:a
i
(t)=α
i
(t)={x
i
(t),q
i
(t),p
i
(t)}∏表示智能体动作选择策略的合集,Π={π1,π2,...π
N
},每一个π
i
表示的是S
i

a
i
的概率;Γ表示状态转移概率,用S
×
a1×
a2×
...
×
a
N

S

表示;r表示的是多智能体合作行为的立即奖励;其中,立即奖励由应用的AoCI的绝对值和应用AoCI的相对值两部分的加权和组成;在传感器耗尽电池能源时和/或一个预设计算周期结束,智能体获得

r
b
的惩罚项作为最终奖励;在传感器顺利完成周期内的信息采集任务后,根据运行过程中的峰值AoCI,会获得r
f
(Δ)的额外奖励。4.如权利要求1所述的基于强化学习的传感器采样调度方法,其特征在于,所述将各所述第二传感器的状态和动作依次输入所述第二智能体,所述第二智能体依次输出各所述第二传感器动作对应的第二动作价值,包括:对所述第二传感器进行顺序编号,其中,所述顺序编号用于表示所述第二传感器输入
所述第二智能体的顺序;按照所述顺序编号依次将各所述第二传感器的状态和动作输入所述第二智能体,其中,每次决策为一个sub

step,每一步个sub

step获得的奖励对于所述第二智能体的更新是需要折扣因子的,具体表示为:G
ss
=r
ss+1
+γ2r
ss+2
+...=∑γ
2i
r
ss+i+1
式中,γ2是折扣因子,且0...

【专利技术属性】
技术研发人员:王莹张秋阳费子轩赵俊伟王雪
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1