当前位置: 首页 > 专利查询>福州大学专利>正文

一种基于强化学习的稀疏群智感知在线用户招募方法技术

技术编号:34571579 阅读:20 留言:0更新日期:2022-08-17 13:03
本发明专利技术涉及一种基于强化学习的稀疏群智感知在线用户招募方法,包括以下步骤:步骤S1:获取历史感知数据;步骤S2:构建用户的历史轨迹数据;步骤S3:构建用户招募模型和预算保留模型;步骤S4:训练用户招募模型和预算保留模型;步骤S5:利用预算保留模型判断是否在当前周期保留预算,若判断为“是”,则等待下一个周期到来再重复步骤S5,否则,跳转至步骤S6;步骤S6:招募贡献最大的一个用户,支付其相应的报酬后回到步骤S5;步骤S7:重复步骤S5和S6,直到预算不足或所有周期结束;步骤S8:结合推断算法推断完整的数据。该方法通过交替执行用户招募决策和预算保留决策,在预算和时间限制下,在线招募一组近似最优的用户完成稀疏群智感知任务。知任务。知任务。

【技术实现步骤摘要】
一种基于强化学习的稀疏群智感知在线用户招募方法


[0001]本专利技术涉及稀疏群智感知用户招募方法
,特别是一种基于强化学习的稀疏群智感知在线用户招募方法。

技术介绍

[0002]稀疏群智感知旨在招募用户来收集部分子区域的感知数据,并推断剩余子区域的感知数据,这具有广泛的应用,包括环境感知和交通监测等。现有的技术方案通常以离线方式招募用户,缺点是依赖于提前知道或准确预测用户的轨迹,无法在用户轨迹出现偏差时做出调整,从而可能错过一些重要子区域的数据。另外,现有的技术方案无法依据物理世界的一些不确定性因素(例如,用户轨迹的不确定性)自适应地分割预算,从而进行意外追偿。

技术实现思路

[0003]有鉴于此,本专利技术的目的在于提供一种基于强化学习的稀疏群智感知在线用户招募方法,实现自适应预算分割,并在预算和时间限制下获得一个近似最优的用户集合。
[0004]为实现上述目的,本专利技术采用如下技术方案:一种基于强化学习的稀疏群智感知在线用户招募方法,包括以下步骤:
[0005]步骤S1:划分目标感知区域,获取历史感知数据;
[0006]步骤S2:构建用户的历史轨迹数据;
[0007]步骤S3:利用强化学习构建用户招募模型和预算保留模型;
[0008]步骤S4:利用历史数据训练用户招募模型和预算保留模型;
[0009]步骤S5:利用预算保留模型判断是否在当前周期保留预算,若判断为“是”,则等待下一个周期到来再重复步骤S5,否则,跳转至步骤S6;
[0010]步骤S6:利用用户招募模型招募贡献大的一个用户,支付其相应的报酬后回到步骤S5;
[0011]步骤S7:重复步骤S5和S6,直到预算不足或所有周期结束;
[0012]步骤S8:利用招募到的用户收集部分感知数据,结合推断算法推断完整的数据。
[0013]在一较佳的实施例中:所述步骤S1中划分目标感知区域,获取历史感知数据的操作过程为:
[0014]步骤S101:将完整目标感知区域利用网格法划分,划分为m个子区域;
[0015]步骤S102:连接历史感知数据库,获取m个子区域中的历史感知数据。
[0016]在一较佳的实施例中:所述步骤S2中构建用户的历史轨迹数据的操作过程为:
[0017]步骤S201:连接并读取原始的GPS轨迹数据库,获取所有候选用户的历史GPS轨迹;
[0018]步骤S202:将所有候选用户的历史GPS轨迹转变为位置点轨迹;
[0019]步骤S203:将所有位置点轨迹转化为向量表示,作为用户最终的历史轨迹;其中,如果位置点在步骤S1划分的m个子区域范围内,则用相应的子区域编号表示,否则,用

1表示;最后,得到所有候选用户的历史轨迹数据。
[0020]在一较佳的实施例中:所述步骤S3中利用强化学习构建用户招募模型和预算保留模型的具体实现过程为:
[0021]步骤S301:构建基于强化学习的用户招募模型,包括建模状态、动作和奖励;其中,用户招募模型的状态S
r
:包含多种影响用户招募模型执行下一个动作的因素,具体包括历史招募情况、当前招募情况、子区域覆盖情况、当前任务时段属于星期几和当前任务时段五种因素;用户招募模型的动作A
r
:表示下一个被招募的用户;用户招募模型的奖励R
r
:表示招募某一个用户后对当前任务时段数据推断精度的影响程度,奖励的计算公式如下:
[0022][0023]其中,和分别是招募一个用户之前和之后的数据推断误差;
[0024]步骤S302:构建基于强化学习的预算保留模型,包括建模状态、动作和奖励;其中,预算保留模型的状态S
j
:包含多种影响预算保留模型执行下一个动作的因素,具体包括周期覆盖情况、剩余预算百分比、当前任务时段属于星期几和当前剩余时间四种因素;预算保留模型的动作A
j
:表示是否保留预算至下一个周期;预算保留模型的奖励R
j
:表示执行预算保留决策后对当前招募的影响程度,奖励的计算公式如下:
[0025][0026]式中,ΔCoverageCycle表示保留预算至下一个周期后,该周期招募到的用户相比上一个周期的周期覆盖增量。
[0027]在一较佳的实施例中:所述步骤S4中训练用户招募模型和预算保留模型的具体实现过程为:
[0028]步骤S401:利用历史数据,使用DQN算法来训练用户招募模型和预算保留模型,DQN算法通过学习一个两层的全连接神经网络来估计每个状态

动作对的Q值Q(S,A):
[0029][0030]其中,R是在状态S下执行动作A所获得的奖励;动作A

是使用贪婪法在当前状态S所对应Q值中选择的对应动作,S

是执行完动作A

所产生的状态S

,γ是折现因子,表示DQN算法对未来奖励的短视;是综合奖励的期望;
[0031]步骤S402:根据各状态因素的特点,混合多种方式对用户招募模型的状态进行编码,其中,历史招募情况和当前招募情况表示为用户编号的排列组合,每个用户编号用二进制编码,子区域覆盖情况通过统计被招募的用户历史上覆盖每个子区域的次数,以统计结果作为编码,当前任务时段属于星期几和当前任务时段用二进制编码;
[0032]步骤S403:根据各状态因素的特点,混合多种方式对预算保留模型的状态进行编码,其中,周期覆盖情况通过统计被招募的用户历史上覆盖每个周期的次数,以统计结果作为编码,剩余预算百分比、当前任务时段属于星期几和当前任务时段用二进制编码;
[0033]步骤S404:分别将编码后的状态输入用户招募模型和预算保留模型,使用随机梯
度下降算法来学习它们各自最佳的模型参数,损失函数L(θ
t
)为:
[0034][0035]在一较佳的实施例中:所述步骤S8中利用推断算法推断完整的数据的具体实现过程为:
[0036]步骤S801:通过招募到的用户收集部分感知数据,得到不完整的感知矩阵E


[0037]步骤S802:对于不完整的感知矩阵E

,利用低秩性来得到推断矩阵
[0038][0039]由于上述非凸优化问题难以求解,进而通过奇异值分解,创建近似矩阵在某些条件下,最小化的秩等价于最小化从而可将上式调整为:
[0040][0041]进一步加入时空约束,从而更好地捕捉感知数据中的时空相关性:
[0042][0043]式中,λ
t
和λ
s
分别为时间权重和空间权重;为时间约束矩阵,控制同一感知区域不同时刻的数据相关性;为空间约束矩阵,控制同一时刻不同感知区域的数据相关性,|| ||
F
为Frobenius范数;
[0044]步骤S803:利用交替最小本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的稀疏群智感知在线用户招募方法,其特征在于:包括以下步骤:步骤S1:划分目标感知区域,获取历史感知数据;步骤S2:构建用户的历史轨迹数据;步骤S3:利用强化学习构建用户招募模型和预算保留模型;步骤S4:利用历史数据训练用户招募模型和预算保留模型;步骤S5:利用预算保留模型判断是否在当前周期保留预算,若判断为“是”,则等待下一个周期到来再重复步骤S5,否则,跳转至步骤S6;步骤S6:利用用户招募模型招募贡献大的一个用户,支付其相应的报酬后回到步骤S5;步骤S7:重复步骤S5和S6,直到预算不足或所有周期结束;步骤S8:利用招募到的用户收集部分感知数据,结合推断算法推断完整的数据。2.根据权利要求1所述的一种基于强化学习的稀疏群智感知在线用户招募方法,其特征在于:所述步骤S1中划分目标感知区域,获取历史感知数据的操作过程为:步骤S101:将完整目标感知区域利用网格法划分,划分为m个子区域;步骤S102:连接历史感知数据库,获取m个子区域中的历史感知数据。3.根据权利要求1所述的一种基于强化学习的稀疏群智感知在线用户招募方法,其特征在于:所述步骤S2中构建用户的历史轨迹数据的操作过程为:步骤S201:连接并读取原始的GPS轨迹数据库,获取所有候选用户的历史GPS轨迹;步骤S202:将所有候选用户的历史GPS轨迹转变为位置点轨迹;步骤S203:将所有位置点轨迹转化为向量表示,作为用户最终的历史轨迹;其中,如果位置点在步骤S1划分的m个子区域范围内,则用相应的子区域编号表示,否则,用

1表示;最后,得到所有候选用户的历史轨迹数据。4.根据权利要求1所述的一种基于强化学习的稀疏群智感知在线用户招募方法,其特征在于:所述步骤S3中利用强化学习构建用户招募模型和预算保留模型的具体实现过程为:步骤S301:构建基于强化学习的用户招募模型,包括建模状态、动作和奖励;其中,用户招募模型的状态S
r
:包含多种影响用户招募模型执行下一个动作的因素,具体包括历史招募情况、当前招募情况、子区域覆盖情况、当前任务时段属于星期几和当前任务时段五种因素;用户招募模型的动作A
r
:表示下一个被招募的用户;用户招募模型的奖励R
r
:表示招募某一个用户后对当前任务时段数据推断精度的影响程度,奖励的计算公式如下:其中,和分别是招募一个用户之前和之后的数据推断误差;步骤S302:构建基于强化学习的预算保留模型,包括建模状态、动作和奖励;其中,预算保留模型的状态S
j
:包含多种影响预算保留模型执行下一个动作的因素,具体包括周期覆盖情况、剩余预算百分比、当前任务时段属于星期几和当前剩余时间四种因素;预算保留模型的动作A
j
:表示是否保留预算至下一个周期;预算保留模型的奖励R
j
:表示执...

【专利技术属性】
技术研发人员:郭志鹏於志勇郭贤伟涂淳钰
申请(专利权)人:福州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1