本发明专利技术公开了一种包裹分离系统及方法,该系统包括:传送带模块;机器视觉处理模块;嵌入式设备,从机器视觉处理模块获取相关数据,利用策略网络推理并收集相关数据放入经验池中以供工作站端对策略网络的训练,并在获得训练好的策略网络后,从机器视觉处理模块获取各包裹当前的位置信息,利用训练好的策略网络推理进行智能决策,输出各传送带的速度值;服务器,获取嵌入式设备上传的数据,并提供给工作站用于策略网络的训练,接收工作站上传的最新策略网络参数以供下载;一个或多个工作站,从服务器端获取嵌入式设备从经验池上传的数据,采用离线强化学习算法并行训练策略网络和Q值网络,并于训练好后上传最新的策略网络参数到服务器。务器。务器。
【技术实现步骤摘要】
一种包裹分离系统及方法
[0001]本专利技术涉及计算机及工业控制
,特别是涉及一种智能决策的包裹分离系统及方法。
技术介绍
[0002]传统的包裹分离系统主要基于机械臂和固定速度传送带阵列。
[0003]基于机械臂的包裹分离系统可灵活准确的进行包裹分拣,但其效率较低,一个机械臂最高的分拣速度仅为1000件/小时,对于大规模的物流中心,其分拣效率低,若采用多个并行机械臂同时工作以提高分拣效率,则又存在成本过高的问题。
[0004]基于固定速度传送带装置的包裹分拣系统通过设定传送带装置的速度,将包裹在传送带装置上移动,但其通常对包裹的体积有明确的要求,若包裹的体积不确定,则该系统难以达到良好的效果。该系统有体积大,灵活性差的特点,一般只在大型物流中心使用。
[0005]对于基于传送带阵列的包裹分拣系统,目前的研究主要集中在如何改变传送带阵列的结构,使其适应不同应用场景以及不同包裹的需求,例如修改传送带装置的排列方式,改变传送带的长度以及速度,使用多层传送带减少装置占用面积等。基于机械臂的包裹分拣系统主要在机械臂的结构以及控制算法方面进行改进,以提升机械臂工作的效率,并且更好的控制机械臂的生产成本。
[0006]随着电商物流行业的快速发展,电子商务的规模越来越大。传统的人工分拣已不能满足要求,需要设计一种智能化的包裹分离系统,依靠传送带阵列的智能决策高效率率包裹分离系统可以在有限的空间条件下,高效率率地分离大量包裹。该分离系统基于智能决策,可根据当前包裹的数量、大小,位置分布等信息自动调整决策,具有很强的灵活性,在各种规模的物流中心均有较大的需求。因此智能决策的高效率率包裹分离系统具有重要的实用价值。
[0007]对于分离包裹的策略,较为直观的思路是:设定包裹到达终点线的时间间隔,根据该时间间隔反推各包裹的速度,并根据包裹速度反推传送带的速度。由此来根据当前传送带阵列上包裹的位置灵活地进行决策。该思路需要给当前传送带上的包裹设定优先级,来决定包裹到达终点线的顺序,直观的方法是根据包裹距离终点线的远近来设定优先级,距离终点线近的优先级高,距离终点线远的优先级低。该方法存在一个问题,当两个包裹距离较近时,两个包裹在同一个传送带上,若给传送带一个较大的速度,使优先级较高的包裹快速通过终点线,此时与高优先级包裹共用传送带的低优先级包裹也将到达距终点线较近的位置,并难以分离。因此在该情况下,包裹分离失败。
技术实现思路
[0008]为克服上述现有技术存在的不足,本专利技术之目的在于提供一种包裹分离系统及方法,以通过离线强化学习算法实现高效率包裹分离的目的。
[0009]为达上述及其它目的,本专利技术提出一种包裹分离系统,包括:
[0010]传送带模块,包括若干传送带,用于接收需要分拣的大批包裹,通过嵌入式设备控制各传送带速度从而达到分离包裹的目的;
[0011]机器视觉处理模块,与嵌入式设备交互,通过设置于传送带上方的深度相机,采集传送带阵列正上方的图像,并对图像进行处理,获得当前传送带阵列上包裹的当前状态s
t
以及根据当前状态s
t
和回报函数计算出的奖励r提供给嵌入式设备;
[0012]嵌入式设备,包含策略网络,从所述机器视觉处理模块获取相关数据,利用策略网络推理并收集相关数据放入经验池中以供工作站端对策略网络的训练,并在获得训练好的策略网络后,从所述机器视觉处理模块获取各包裹当前的位置信息,根据各包裹当前的位置信息利用训练好的策略网络推理进行智能决策,输出各传送带的速度值以改变各传送带的速度,从而达到包裹分拣的目的;
[0013]服务器,用于获取嵌入式设备上传的数据,并提供给工作站用于策略网络的训练,接收工作站上传的最新策略网络参数,以供嵌入式设备下载;
[0014]一个或多个工作站,其包含策略网络和Q值网络,用于从服务器端获取嵌入式设备从经验池上传的数据,采用离线强化学习算法并行的训练策略网络和Q值网络,并于训练好后上传最新的策略网络参数到服务器。
[0015]优选地,所述传送带包括:
[0016]第一子传送带,为一个可变速度传送带,用于接收需要分拣的大批包裹,并将包裹传送给第二子传送带进行进一步的分拣,所述第一子传带的传送带速度由所述嵌入式设备控制;
[0017]第二子传送带,为可变速传送带阵列部分,共包含m*n个传送带,由所述嵌入式设备控制该m*n个传送带的速度,从而改变传送带上包裹的速度,从而达到分离包裹的目的;
[0018]第三子传送带,为恒定速度传送带部分,用于连接第一子传带和第二子传送带包裹分拣完成后的其他流程。
[0019]优选地,所述嵌入式设备从机器视觉处理模块获取包裹当前的位置信息后,其策略网络根据当前状态st输出传送带阵列运行速度向量,经过固定时间τ,再次从所述机器视觉处理模块提取包裹当前的位置信息,所述机器视觉处理模块推理出速度信息后记为下一时刻的状态s
t
+1,所述机器视觉处理模块根据包裹的位置信息和评价标准计算出获得的奖励r,由所述嵌入式设备将上述当前状态s
t
、动作a、奖励r及下一时刻的状态st+1存入经验池中。
[0020]优选地,当经验池中的数据量大于指定批处理大小后,所述嵌入式设备将经验池中的数据上传至服务器,并间隔若干时间间隔从服务器下载最新的策略网络的参数。
[0021]优选地,工作站每隔若干时间间隔,通过以太网接口获取服务器端的嵌入式设备从经验池上传的数据,采用离线强化学习算法并行的训练策略网络和Q值网络后上传最新的策略网络参数到服务器以供所述嵌入设备每隔若干时间间隔下载。
[0022]优选地,在所述策略网络中加入熵正则化以避免包裹分离策略过早的陷入局部最优。
[0023]优选地,在训练过程中,所述策略网络需要优化的函数为:
[0024][0025]其中,E表示对中括号内的随机变量求期望,s
t
~D表示t时刻的状态从经验池D中采样,Q
θ
(s
t
,a
t
)表示Q值网络,π
φ
(a
t
|s
t
)表示策略网络。
[0026]优选地,在训练过程中,所述Q值网络需要优化的函数为:
[0027][0028]其中,
[0029]其中,J
Q
(θ)为优化函数,θ为Q值网络Q
θ
(s
t
,a
t
)的参数,D表示经验池中的数据,s
t
表示当前状态,at表示策略网络π
φ
(a
t
|s
t
)根据当前状态采取的动作,r(st,at)表示当前状态动作对的即时回报,γ表示衰减系数,表示对下一个时刻状态的期望价值,p为状态转移概率,s
t
+1~p表示t+1时刻的状态服从状态转移概率p,V(s...
【技术保护点】
【技术特征摘要】
1.一种包裹分离系统,包括:传送带模块,包括若干传送带,用于接收需要分拣的大批包裹,通过嵌入式设备控制各传送带速度从而达到分离包裹的目的;机器视觉处理模块,与嵌入式设备交互,通过设置于传送带上方的深度相机,采集传送带阵列正上方的图像,并对图像进行处理,获得当前传送带阵列上包裹的当前状态s
t
以及根据当前状态s
t
和回报函数计算出的奖励r提供给嵌入式设备;嵌入式设备,包含策略网络,从所述机器视觉处理模块获取相关数据,利用策略网络推理并收集相关数据放入经验池中以供工作站端对策略网络的训练,并在获得训练好的策略网络后,从所述机器视觉处理模块获取各包裹当前的位置信息,根据各包裹当前的位置信息利用训练好的策略网络推理进行智能决策,输出各传送带的速度值以改变各传送带的速度,从而达到包裹分拣的目的;服务器,用于获取嵌入式设备上传的数据,并提供给工作站用于策略网络的训练,接收工作站上传的最新策略网络参数,以供嵌入式设备下载;一个或多个工作站,其包含策略网络和Q值网络,用于从服务器端获取嵌入式设备从经验池上传的数据,采用离线强化学习算法并行的训练策略网络和Q值网络,并于训练好后上传最新的策略网络参数到服务器。2.如权利要求1所述的一种包裹分离系统,其特征在于,所述传送带包括:第一子传送带,为一个可变速度传送带,用于接收需要分拣的大批包裹,并将包裹传送给第二子传送带进行进一步的分拣,所述第一子传带的传送带速度由所述嵌入式设备控制;第二子传送带,为可变速传送带阵列部分,共包含m*n个传送带,由所述嵌入式设备控制该m*n个传送带的速度,从而改变传送带上包裹的速度,从而达到分离包裹的目的;第三子传送带,为恒定速度传送带部分,用于连接第一子传带和第二子传送带包裹分拣完成后的其他流程。3.如权利要求2所述的一种包裹分离系统,其特征在于:所述嵌入式设备从机器视觉处理模块获取包裹当前的位置信息后,其策略网络根据当前状态st输出传送带阵列运行速度向量,经过固定时间τ,再次从所述机器视觉处理模块提取包裹当前的位置信息,所述机器视觉处理模块推理出速度信息后记为下一时刻的状态s
t
+1,所述机器视觉处理模块根据包裹的位置信息和评价标准计算出获得的奖励r,由所述嵌入式设备将上述当前状态s
t
、动作a、奖励r及下一时刻的状态st+1存入经验池中。4.如权利要求3所述的一种包裹分离系统,其特征在于:当经验池中的数据量大于指定批处理大小后,所述嵌入式设备将经验池中的数据上传至服务器,并间隔若干时间间隔从服务器下载最新的策略网...
【专利技术属性】
技术研发人员:吕岳,李威远,吕淑静,
申请(专利权)人:华东师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。