当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于随机博弈在线学习的众包用户信息年龄管理算法制造技术

技术编号:23860044 阅读:34 留言:0更新日期:2020-04-18 13:18
本发明专利技术涉及一种基于随机博弈在线学习的众包用户信息年龄管理算法,采取最大化未来期望收益的方法,让众包用户在学习过程中自适应地动态调整数据包产生速率,根据学习结果获取不同状态下的最佳选择策略,使得使用该策略的用户长期收益最大化。解决众包用户在动态环境下自适应选择可以最大化长期收益的最佳选择策略的问题,将众包用户之间的竞争描述为随机博弈模型,使用在线学习算法获得最佳数据包产生速率选择策略。

An information age management algorithm of crowdsourcing users based on online learning of stochastic game

【技术实现步骤摘要】
一种基于随机博弈在线学习的众包用户信息年龄管理算法
本专利技术属于众包和在线学习领域,尤其涉及一种基于随机博弈在线学习的众包用户信息年龄管理算法。
技术介绍
随着物联网(IoT)技术的快速发展和便携式设备的广泛普及,对实时信息更新的需求越来越迫切,例如新闻、天气预报和交通状况等。在大多数的情况下,过时的信息几乎没有用处。为了收集实时的交通数据,谷歌地图邀请用户群体在自己的位置提交实时路况信息,比如报告是否存在交通堵塞或者交通事故,使用该地图的其他用户则可以及时看到这些交通消息,并根据这些信息来更好地规划自己的路线。这种众包的做法越来越多,它结合了群体的集体努力来保持信息的实时更新。众包集结了群体的力量来完成特定的任务。众包平台招募用户来执行特定的感知任务。为了能提供足够及时的数据信息,众包平台需要吸引大量的用户。然而,生成和传输信息会消耗用户移动设备上的资源,因此,众包平台需要设计有效的激励机制来补偿用户对电池、计算能力等资源的消耗,以鼓励用户贡献更多的信息。众包平台通常会根据用户完成任务的数量给予相应的奖励。信息年龄(Age-of-information,AoI)作为一种评价信息新鲜度的新指标被引入,它度量了用户采集的数据信息从生成到被接收之间经过的时间。现有的这类关于AoI的经济问题更多的是将两个众包平台之间的竞争定义为一种非合作博弈,而对试图从平台得到理想的利润的用户之间的竞争进行研究的文献还比较少。从用户的角度看,特别是用户如何管理AoI以从众包平台获得最优的回报,目前还没有研究。具体地说,在众包进行过程中,用户根据当前观测到的信道质量和自己当前的AoI来确定数据包的生成速率,生成的数据包会被传输到众包平台上,但是成功传输的数据包的比例会受到信道质量的影响,信道质量越高,传输成功的概率也就越大。接收到新生成的数据包,众包平台将更新用户的AoI。如果在当前时间段中被接收到的数据包越多,那么用户的AoI将越低,也就意味着信息越新。然后,平台根据接收到的用户数据包数量和信息的AoI计算出用户的贡献,并按贡献的比例向用户分发固定数额的奖励。一般来说,众包平台根据用户对于众包任务的贡献比例,在固定的奖励池中为用户分配不同的奖励。这说明用户获得的奖励不仅取决于自己的贡献,还受到其他用户贡献的影响,这就会导致用户之间的激烈竞争。让问题更加复杂的是,由于无线信道质量的不确定性,并不是所有用户生成的数据都能顺利交付到平台上。如果信道质量较差,即使用户生成大量的数据包,也只有很少比例的数据包能被成功传输到众包平台,考虑到生成数据包的成本,信道质量也会影响用户的收益。
技术实现思路
本专利技术针对现有技术的不足,提供一种基于随机博弈学习的众包用户信息年龄管理算法。本专利技术的技术方案为一种近似纳什均衡学习算法,包含以下步骤:步骤1,输入初始随机探索概率参数θ0,折现系数γ,∈-纳什均衡的近似参数∈,用户1和用户2生成数据包的单位成本{c1,c2},初始平均AoI{f1(0),f2(0)},以及初始信道状态{q1(0),q2(0)}。设置当前迭代数t=0。初始化用户的状态s(0)={s1(0),s2(0)},在所有离散状态下的状态值{V1[s1(t),s2(t)],V2[s1(t),s2(t)]}及策略对π(0)={π1(0),π2(0)}。信息年龄(Age-of-information,AoI)。步骤2,计算随机探索概率参数步骤3,两个用户分别以1-θ的概率根据当前策略π(t)={π1(t),π2(t)}选择动作a(t)={a1(t),a2(t)},即数据包产生的速率;以θ的概率随机选择动作a(t)={a1(t),a2(t)};步骤4,根据两个用户的动作a(t)={a1(t),a2(t)},以及用户当前状态s(t)={s1(t),s2(t)},可以计算得到用户1对于众包平台的贡献比例其中mi(t)是指用户i成功传输到众包平台的数据包数量。用户1的期望收益为r1[s(t),a(t)]=PoC1[s(t),a(t)]×W(t)-c1a1(t),其中W(t)是众包平台所提供的总奖励。同样,用户2对于众包平台的贡献比例为用户2的期望收益为r2[s(t),a(t)]=PoC2[s(t),a(t)]×W(t)-c2a2(t)。在Δt时间内,用户i所产生的数据包的总数可表示为Ji(t)=ai(t)×Δt,每一个数据包j都被标记为{τi,j,j,Ji(t)},分别表示其生成时间、次序和该时段内生成包的总数。对于每一个数据包j来说,其AoI为其中αi,j是数据包j被众包平台成功接受的时间,Δi,l(t-1)是上一个时间段中最后一个被接受的数据包l的AoI。故可计算用户i在该时间段中产生的所有数据包的AoI为用户i在t轮迭代后的AoI更新为众包用户的状态转换包括信道质量的转换和用户AoI的转换,两者是相互独立的。因此,t+1轮迭代中的用户状态s(t+1)={s1(t+1),s2(t+1)}的转移概率为P[s(t+1)|s(t),a(t)]=P[f1(t+1)|f1(t),a1(t)]×P[f2(t+1)|f2(t),a2(t)]×P[q1(t+1)]×P[q2(t+1)],其中P[q1(t+1)]和P[q2(t+1)]可根据无线电传播模型进行估计,AoI的转移概率为:步骤5,根据更新用户1的最佳策略π1(t+1),根据更新用户2的最佳策略π2(t+1)。步骤6,根据Vi[s(t+1)]=[1-η(t+1)]Vi[s(t)]+η(t+1)ri[s,a1(t+1),a2(t+1)]+γVi[s′(t)]分别更新两个用户的状态值V1(t+1),V2(t+1),其中η∈[0,1)为用户学习率,在第t次迭代中,大小为η随着迭代次数的增加而减少,有助于算法后期的收敛。步骤7,如果用户的策略收敛,结束算法并输出策略对;否则增值t,返回步骤2。而且,在步骤3中,采取θ探索方法,设置随机探索选择概率参数θ,两个用户分别以1-θ的概率根据当前策略π(t)={π1(t),π2(t)}选择动作a(t)={a1(t),a2(t)},即数据包产生的速率;以θ的概率随机选择动作a(t)={a1(t),a2(t)};θ随着算法的迭代数t的增加逐渐递减,因此算法前期探索性较强,避免过早的局部收敛;后期用户根据最佳策略选择动作的概率增大,有助于后期的收敛。而且,在步骤4中,用户1和用户2的策略达到近似纳什均衡,两个用户的动作都为近似占优策略。假设用户1和用户2的最佳策略和分别最大化它们各自的效益,即最佳策略对。随机博弈中的最佳策略对使得每一轮中的常和博弈达到纳什均衡。然而在二元矩阵博弈中,标准纳什均衡可能并不存在。因此,我们用∈-近似纳什均衡代替,以使得策略对收敛。用表示近似最佳策略对,对于任意状态s∈S,都有其中并且∈>0。因此,用户i在状态s下的状态值的计算可以写为两个用户的近似最佳策略对计算方式分别为和本专利技术利用众包用户关系随机博弈建模和在线学习本文档来自技高网
...

【技术保护点】
1.一种基于随机博弈在线学习的众包用户信息年龄管理算法,其特征在于,包含以下步骤:/n步骤1,初始化众包数据和当前信道的属性,具体包括:/n输入初始随机探索概率参数θ

【技术特征摘要】
1.一种基于随机博弈在线学习的众包用户信息年龄管理算法,其特征在于,包含以下步骤:
步骤1,初始化众包数据和当前信道的属性,具体包括:
输入初始随机探索概率参数θ0,折现系数γ,∈-纳什均衡的近似参数∈,用户1和用户2生成数据包的单位成本{c1,c2},初始平均AoI{f1(0),f2(0)},以及初始信道状态{q1(0),q2(0)};设置当前迭代数t=0;初始化用户的状态s(0)={s1(0),s2(0)},在所有离散状态下的状态值{V1[s1(t),s2(t)],V2[s1(t),s2(t)]}及策略对π(0)={π1(0),π2(0)};
步骤2,计算随机探索概率参数
步骤3,两个用户分别以1-θ的概率根据当前策略π(t)={π1(t),π2(t)}选择动作a(t)={a1(t),a2(t)},即数据包产生的速率;以θ的概率随机选择动作a(t)={a1(t),a2(t)};
步骤4,根据两个用户的动作以及用户当前状态,计算得到用户1对于众包平台的贡献比例期望收益为,用户2对于众包平台的贡献比例为和期望收益;
在Δt时间内,计算用户i在该时间段中产生的所有数据包的AoI,用户i在t轮迭代后的AoI;并计算得出t+1轮迭代中的用户AoI的转移概率;
使用户1和用于2的策略达到近似纳什均衡,即最佳策略对;
用表示近似最佳策略对,对于任意状态s∈S,都有其中并且∈>,因此,用户i在状态s下的状态值的计算可以写为
两个用户的近似最佳策略对计算方式分别为和
步骤5,利用步骤4中最佳策略对更新用户1用户2的最佳策略;
步骤6,根据步骤4所得结果分别更新两个用户的状态值;
步骤7,如果用户的策略收敛,结束算法并输出策略对;否则增值t...

【专利技术属性】
技术研发人员:陈艳姣朱笑天
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1