一种基于强化学习的稀疏群智感知在线用户招募方法技术

技术编号：34571579 阅读：28 留言：0更新日期：2022-08-17 13:03

本发明专利技术涉及一种基于强化学习的稀疏群智感知在线用户招募方法，包括以下步骤：步骤S1：获取历史感知数据；步骤S2：构建用户的历史轨迹数据；步骤S3：构建用户招募模型和预算保留模型；步骤S4：训练用户招募模型和预算保留模型；步骤S5：利用预算保留模型判断是否在当前周期保留预算，若判断为“是”，则等待下一个周期到来再重复步骤S5，否则，跳转至步骤S6；步骤S6：招募贡献最大的一个用户，支付其相应的报酬后回到步骤S5；步骤S7：重复步骤S5和S6，直到预算不足或所有周期结束；步骤S8：结合推断算法推断完整的数据。该方法通过交替执行用户招募决策和预算保留决策，在预算和时间限制下，在线招募一组近似最优的用户完成稀疏群智感知任务。知任务。知任务。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的稀疏群智感知在线用户招募方法

[0001]本专利技术涉及稀疏群智感知用户招募方法
，特别是一种基于强化学习的稀疏群智感知在线用户招募方法。

技术介绍

[0002]稀疏群智感知旨在招募用户来收集部分子区域的感知数据，并推断剩余子区域的感知数据，这具有广泛的应用，包括环境感知和交通监测等。现有的技术方案通常以离线方式招募用户，缺点是依赖于提前知道或准确预测用户的轨迹，无法在用户轨迹出现偏差时做出调整，从而可能错过一些重要子区域的数据。另外，现有的技术方案无法依据物理世界的一些不确定性因素(例如，用户轨迹的不确定性)自适应地分割预算，从而进行意外追偿。

技术实现思路

[0003]有鉴于此，本专利技术的目的在于提供一种基于强化学习的稀疏群智感知在线用户招募方法，实现自适应预算分割，并在预算和时间限制下获得一个近似最优的用户集合。
[0004]为实现上述目的，本专利技术采用如下技术方案：一种基于强化学习的稀疏群智感知在线用户招募方法，包括以下步骤：
[0005]步骤S1：划分目标感知区域，获取历史感知数据；
[0006]步骤S2：构建用户的历史轨迹数据；
[0007]步骤S3：利用强化学习构建用户招募模型和预算保留模型；
[0008]步骤S4：利用历史数据训练用户招募模型和预算保留模型；
[0009]步骤S5：利用预算保留模型判断是否在当前周期保留预算，若判断为“是”，则等待下一个周期到来再重复步骤S5，否则，跳转至步骤S6；
[0...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的稀疏群智感知在线用户招募方法，其特征在于：包括以下步骤：步骤S1：划分目标感知区域，获取历史感知数据；步骤S2：构建用户的历史轨迹数据；步骤S3：利用强化学习构建用户招募模型和预算保留模型；步骤S4：利用历史数据训练用户招募模型和预算保留模型；步骤S5：利用预算保留模型判断是否在当前周期保留预算，若判断为“是”，则等待下一个周期到来再重复步骤S5，否则，跳转至步骤S6；步骤S6：利用用户招募模型招募贡献大的一个用户，支付其相应的报酬后回到步骤S5；步骤S7：重复步骤S5和S6，直到预算不足或所有周期结束；步骤S8：利用招募到的用户收集部分感知数据，结合推断算法推断完整的数据。2.根据权利要求1所述的一种基于强化学习的稀疏群智感知在线用户招募方法，其特征在于：所述步骤S1中划分目标感知区域，获取历史感知数据的操作过程为：步骤S101：将完整目标感知区域利用网格法划分，划分为m个子区域；步骤S102：连接历史感知数据库，获取m个子区域中的历史感知数据。3.根据权利要求1所述的一种基于强化学习的稀疏群智感知在线用户招募方法，其特征在于：所述步骤S2中构建用户的历史轨迹数据的操作过程为：步骤S201：连接并读取原始的GPS轨迹数据库，获取所有候选用户的历史GPS轨迹；步骤S202：将所有候选用户的历史GPS轨迹转变为位置点轨迹；步骤S203：将所有位置点轨迹转化为向量表示，作为用户最终的历史轨迹；其中，如果位置点在步骤S1划分的m个子区域范围内，则用相应的子区域编号表示，否则，用
‑
1表示；最后，得到所有候选用户的历史轨迹数据。4.根据权利要求1所述的一种基于强化学习的稀疏群智感知在线用户招募方法，其特征在于：所述步骤S3中利用强化学习构建用户招募模型和预算保留模型的具体实现过程为：步骤S301：构建基于强化学习的用户招募模型，包括建模状态、动作和奖励；其中，用户招募模型的状态S
r
：包含多种影响用户招募模型执行下一个动作的因素，具体包括历史招募情况、当前招募情况、子区域覆盖情况、当前任务时段属于星期几和当前任务时段五种因素；用户招募模型的动作A
r
：表示下一个被招募的用户；用户招募模型的奖励R
r
：表示招募某一个用户后对当前任务时段数据推断精度的影响程度，奖励的计算公式如下：其中，和分别是招募一个用户之前和之后的数据推断误差；步骤S302：构建基于强化学习的预算保留模型，包括建模状态、动作和奖励；其中，预算保留模型的状态S
j
：包含多种影响预算保留模型执行下一个动作的因素，具体包括周期覆盖情况、剩余预算百分比、当前任务时段属于星期几和当前剩余时间四种因素；预算保留模型的动作A
j
：表示是否保留预算至下一个周期；预算保留模型的奖励R
j
：表示执...

【专利技术属性】
技术研发人员：郭志鹏，於志勇，郭贤伟，涂淳钰，
申请(专利权)人：福州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人