基于循环神经网络与强化学习的动态二分图分配长度决策方法技术

技术编号：30893398 阅读：12 留言：0更新日期：2021-11-22 23:35

本发明专利技术公开了一种基于循环神经网络与强化学习的动态二分图分配长度决策方法，包括：S1：判断当前时刻是否有工人或任务到达；S2：若到达的是工人则将其加入可用工人集；S3：根据时间信息获取当前可用的工人集和可用的任务集；S4：读取工人集和任务集的参数信息；S5：将工人参数和任务参数输入至强化学习网络中；S6：若不进行分配，则直接跳至S8，若分配则进行S7；S7：使用匈牙利算法对当前可用工人集和可用任务集进行任务分配，并记录分配奖励；S8：将过期的工人和任务从可用工人集W与可用任务集T中除去,并记录过期惩罚；S9：根据得到的奖励与惩罚训练强化学习网络并进入下一时刻，返回至S1等待新到达的工人或任务。至S1等待新到达的工人或任务。至S1等待新到达的工人或任务。

全部详细技术资料下载

【技术实现步骤摘要】
基于循环神经网络与强化学习的动态二分图分配长度决策方法

[0001]本专利技术涉及动态任务分配
，尤其涉及一种基于循环神经网络与强化学习的动态二分图分配长度决策方法。

技术介绍

[0002]动态二分图在匹配过程中需要对分配长度进行决策的原因是：在动态情况下工人和任务随机到达、离开，并且任务有不同难度，工人有不同能力使用工人能力与任务难度计算任务完成率；如果贪婪地在工人或任务到达时就直接分配难以最大化总完成率，而如果等待工人和任务达到固定的数量再进行分配可能导致工人和任务大量过期影响结果。
[0003]目前最接近的技术为Wang Y等
[1]于2019年提出的基于Q learning的RQL(Restricted Q
‑
learning)方法于动态二分图情况下对分配长度进行动态决策。具体方法为根据当前工人任务状态选择不同动作得到的奖励使用贝尔曼方程持续更新Q值，将这些Q值保存到一个Q表上。在某一状态下Q值最大的动作即为当前最优动作。对状态于动作的定义如下：状态为工人和任务的时间和难度、能力等信息，但这样会使状态空间大到Q表无法记录的程度，因此减小状态空间，使用当前工人、任务各自的数量组成二元组作为当前的状态。动作即为目标分配长度，在当前工人任务达到目标分配长度时进行分配。分配的奖励为使用匈牙利算法进行分配得到的总完成率作为奖励。状态转移，当前状态加上下一个时刻到达的工人任务的数量。
[0004]使用以往的方法可以进行分配长度决策，但还存在许多的不足：工人和任务有时间约束，...

【技术保护点】

【技术特征摘要】
1.一种基于循环神经网络与强化学习的动态二分图分配长度决策方法，其特征在于包括：S1：判断当前时刻是否有工人或任务到达，如果没有则直接结束，如果有则进入S2；S2：若到达的是工人则将其加入可用工人集W，如果是任务则将其加入可用任务集T；S3：根据时间信息获取当前可用的工人集W＝{w1,w2,...,w
n
}和可用的任务集T＝{t1,t2,...,t
m
}；S4：读取工人集和任务集的参数信息；其中工人集参数为包含所有工人能力和剩余时间的紧迫程度；任务集参数为包含所用任务的难度和剩余时间紧迫程度；S5：将工人参数和任务参数输入至强化学习网络中，所述强化学习网络输出分配Q值和不分配Q值，选择其中较大的Q值对应的动作在当前时刻进行动作执行；S6：若不进行分配，则直接跳至S8，若分配则进行S7；S7：使用匈牙利算法对当前可用工人集W＝{w1,w2,...,w
n
}和可用任务集T＝{t1,t2,...,t
m
}进行任务分配，并记录分配奖励；S8：将过期的工人和任务从可用工人集W与可用任务集T中除去,并记录过期惩罚；S9：根据得到的奖励与惩罚训练强化学习网络并进入下一时刻，返回至S1等待新到达的工人或任务。2.根据权利要求1所述的动态二分图分配长度决策方法，其特征在于：判断是否有新工人和新众包任务到达，读取工人和众包任务信息，将一个工人采用一个四元组w＝<l
w
,s
w
,e
w
,a
w
>描述，其中l
w
表示工人位置，s
w
表示工人到达的时间，e
w
表示工人的离开时间，a
w
表示工人的能力，一个众包任务采用五元组t＝<l
t
,r
t
,s
t
,e
t
,d
t
>描述，其中l
t
表示任务的位置，s
t
表示任务开始的时间，e
t
表示任务的截止时间，r
t
表示任务分配范围，当距离在此范围内的工...

【专利技术属性】
技术研发人员：陈荣，刘岳，
申请(专利权)人：大连海事大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人