港口调度方法技术

技术编号:39566509 阅读:8 留言:0更新日期:2023-12-03 19:17
本发明专利技术涉及港口调度管理技术领域,提供一种港口调度方法

【技术实现步骤摘要】
港口调度方法、装置、电子设备和存储介质


[0001]本专利技术涉及港口调度管理
,尤其涉及一种港口调度方法

装置

电子设备和存储介质


技术介绍

[0002]目前,港口码头尤其是内陆港口制定生产调度计划仍然依赖于人工经验,工作人员根据预报进港的船舶信息遵循先来先服务

重要客户优先及港口效益优先等原则制定生产调度计划

[0003]传统生产调度管理模式在港口规模较小和靠泊船舶数量较少时,管理人员也可以很好的完成制定生产调度计划,然而随着港口规模的逐渐扩大

装卸设备增多及船舶数量急剧增加,管理人员依靠经验很难制定科学合理的生产调度计划

不合理的调度计划可能会导致某些船舶在锚地等待时间过长

泊位选择不合适

装卸设备利用率低和货物堆存距离太远,会严重影响港口的作业效率

客户体验和港口服务质量

同时,港口生产经营涉及多个生产调度目标,对于生产调度目标的偏向取决于决策者经验,缺乏科学的决策指导

[0004]因此,随着港口货物吞吐量不断增长,港口货物卸载运输调度自动化管理具有重大的实际应用意义


技术实现思路

[0005]本专利技术提供一种港口调度方法

装置

电子设备和存储介质,用以解决现有技术中人工制定生产调度计划,影响港口的作业效率

客户体验和港口服务质量的缺陷

[0006]本专利技术提供一种港口调度方法,包括:
[0007]获取待调度港口的状态信息,所述状态信息包括当前货物数量

类型及货物位置

装载机平均装载速度

运输车可用数量及对应装载量

运输车平均运输速度;
[0008]基于所述状态信息和一级网络,对所述可用数量个运输车进行目标货物区域分配,得到运输车对应的目标货物区域;
[0009]基于所述状态信息

所述运输车对应的目标货物区域

以及所述运输车对应的二级网络,为所述运输车配置在所述目标货物区域下的装载策略,所述一级网络和所述二级网络基于分层强化学习方法训练得到;
[0010]基于所述运输车对应的目标货物区域,以及在所述目标货物区域下的装载策略,进行港口调度

[0011]根据本专利技术提供的港口调度方法,所述一级网络采用深度强化学习算法进行训练,所述深度强化学习算法的第一损失函数为:
[0012][0013]y1=
r
1t
+
γ1max
a
Q1(s
t+1

a
t+1
)
[0014]式中,
y1是拟合目标参数,
r
1t
为第
t
时间步进行目标货物区域分配的第一奖励,
γ1为常数,
B1为第一数据缓存池,
E()
为期望值函数,用于从训练集
B1中批量采样训练样本来
计算期望值,
θ1为一级网络参数,
Q1()
为第一动作价值函数,
τ1为第一历史观测数据,
a
为运输车对应的目标货物区域,
s
t+1
是第
t+1
时间步的状态信息,
a
t+1
是第
t+1
时间步运输车对应的目标货物区域

[0015]根据本专利技术提供的港口调度方法,所述第一奖励为当前时间步下运输车行驶至所述目标货物区域的时间

[0016]根据本专利技术提供的港口调度方法,所述第一奖励基于如下公式确定:
[0017][0018]式中,
r1为第一奖励,
w
i
为第
i
辆运输车的空载运输速度,不同类型的运输车空载运输速度不同,
l
i
为第
i
辆运输车实际装载量,
d
i
为第
i
辆运输车到对应目标货物区域的距离,
v
c
为装载机装载第
c
类货物的平均装载速度,
N
为目标货物区域的货物总量,
n
为被分配任务的运输车数量总数

[0019]根据本专利技术提供的港口调度方法,所述二级网络采用多智能体强化学习算法进行训练,所述多智能体强化学习算法的第二损失函数为:
[0020][0021]y2=
r
2t
+
γ2max
a
Q2(s
t+1

u
t+1
)
[0022]式中,
y2是拟合目标参数,
r
2t
为第
t
时间步目标货物区域下的装载策略的第二奖励,
γ2为常数,
B2为第二数据缓存池,
E()
为期望值函数,用于从训练集
B2中批量采样训练样本来计算期望值,
θ2为二级网络参数,
Q2()
为第二动作价值函数,
τ2为第二历史观测数据,
u
为各运输车在目标货物区域下的装载策略,
s
t+1
是第
t+1
时间步的状态信息,
u
t+1
是第
t+1
时间步为各运输车配置在目标货物区域下的装载策略

[0023]根据本专利技术提供的港口调度方法,所述第二奖励基于如下公式确定:
[0024][0025]式中,
R
表示运输车实际可运载量,
l
表示运输车实际装载量

[0026]本专利技术还提供一种港口调度装置,包括:
[0027]状态信息获取单元,用于获取待调度港口的状态信息,所述状态信息包括当前货物数量

类型及货物位置

装载机平均装载速度

运输车可用数量及对应装载量

运输车平均运输速度;
[0028]货物区域分配单元,用于基于所述状态信息和一级网络,对所述可用数量个运输车进行目标货物区域分配,得到运输车对应的目标货物区域;
[0029]装载策略配置单元,用于基于所述状态信息

所述运输车对应的目标货物区域

以及所述运输车对应的二级网络,为所述运输车配置在所述目标货物区域下的装载策略,所述一级网络和所述二级网络基于分层强化学习方法训练得到;
[0030]港本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种港口调度方法,其特征在于,包括:获取待调度港口的状态信息,所述状态信息包括当前货物数量

类型及货物位置

装载机平均装载速度

运输车可用数量及对应装载量

运输车平均运输速度;基于所述状态信息和一级网络,对所述可用数量个运输车进行目标货物区域分配,得到运输车对应的目标货物区域;基于所述状态信息

所述运输车对应的目标货物区域

以及所述运输车对应的二级网络,为所述运输车配置在所述目标货物区域下的装载策略,所述一级网络和所述二级网络基于分层强化学习方法训练得到;基于所述运输车对应的目标货物区域,以及在所述目标货物区域下的装载策略,进行港口调度
。2.
根据权利要求1所述的港口调度方法,其特征在于,所述一级网络采用深度强化学习算法进行训练,所述深度强化学习算法的第一损失函数为:
y1=
r
1t
+
γ1max
a
Q1(S
t+1

a
t+1
)
式中,
y1是拟合目标参数,
r
1t
为第
t
时间步进行目标货物区域分配的第一奖励,
γ1为常数,
B1为第一数据缓存池,
E()
为期望值函数,用于从训练集
B1中批量采样训练样本来计算期望值,
θ1为一级网络参数,
Q1()
为第一动作价值函数,
τ1为第一历史观测数据,
a
为运输车对应的目标货物区域,
s
t+1
是第
t+1
时间步的状态信息,
a
t+1
是第
t+1
时间步运输车对应的目标货物区域
。3.
根据权利要求2所述的港口调度方法,其特征在于,所述第一奖励为当前时间步下运输车行驶至所述目标货物区域的时间
。4.
根据权利要求3所述的港口调度方法,其特征在于,所述第一奖励基于如下公式确定:式中,
r1为第一奖励,
w
i
为第
i
辆运输车的空载运输速度,不同类型的运输车空载运输速度不同,
l
i
为第
i
辆运输车实际装载量,
d
i
为第
i
辆运输车到对应目标货物区域的距离,
v
c
为装载机装载第
c
类货物的平均装载速度,
N
为目标货物区域的货物总量,
n
为被分配任务的运输车数量总数
。5.
根据权利要求2所述的港口...

【专利技术属性】
技术研发人员:魏庆来胡勇李克难章微钦
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1