一种基于不确定性感知与泛化增强的离线强化学习港口设备全域资源分配算法制造技术

技术编号：43759644 阅读：21 留言：0更新日期：2024-12-24 16:03

本发明专利技术属于港口设备资源分配领域，公开了一种基于不确定性感知与泛化增强的离线强化学习港口设备全域资源分配算法。包括采集各个生产场景中的作业对象作业和设备位置、作业开始与结束时间和设备类型等数据；删除干扰数据；根据每艘船舶的装、卸船任务，对每个生产场景数据进行滑动时间窗处理，得到每个时间段的设备数量；使用不确定性感知与泛化增强的强化学习方法从历史数据中学习，得到一个鲁棒的离线强化学习模型，同时拥有可以处理分布外数据的能力；在港口环境中部署模型，使用分布式执行方法获取环境信息并实时推荐设备数量；一个强化学习模型可同时处理多个船只的装、卸船任务，达到了无人码头领域中实时资源分配的需求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于港口全域设备的动态资源分配领域，尤其涉及分布外数据鲁棒资源分配算法。

技术介绍

1、由于无人港口设备资源分配的动态性与复杂性，对服务于一个船舶的多种设备进行实时推荐很困难。并且由于设备故障、天气因素、动态环境等因素导致数据分布偏移，进而导致离线强化学习模型性能下降。

2、目前，为了实现动态分配港口设备资源，现有的方法包括：

3、(1)物理模拟仿真：通过搭建仿真平台，在仿真环境设置中构建港口作业环境，进而模拟作业流程。但是这种方法不能模拟出真实的各种异常天气状况，并且对于大量的设备更加难以仿真；由于作业流程的复杂性，针对每台设备的计划执行均跟其他设备之间相关关联，这种关联关系难以在仿真环境中体现。

4、(2)基于传统算法进行资源分配：对港口环境进行数学建模，使用启发式算法进行设备的推荐。由于算法建模的复杂性难以短时间内达到全局最优，并且设备之间的关联性关系，针对多种设备的实时推荐难以部署。

5、(3)基于离线强化学习的动态资源分配：由于港口设备作业环境的安全性和可靠性要求，因此不能与环境交互，导致探索能力不足。并且港口动态变化的环境和设备随机故障等原因导致模型对分布数据外泛化能力不足。现有的离线强化学习不能满足鲁棒实时港口设备推荐的要求。

技术实现思路

1、为了解决上述现有技术中存在的不足，提供一种基于不确定性感知与泛化增强的离线强化学习港口设备全域资源分配算法。利用不确定性感知与泛化增强的离线强化学习来实现分布外特征处理

2、本专利技术所采用的技术方案是：

3、一种基于不确定性感知与泛化增强的离线强化学习港口设备全域资源分配算法，包括以下步骤：

4、步骤s1：采集船舶作业信息(作业开始时间和结束时间、停靠泊位、集装箱数量等)和设备作业信息(作业设备位置和作业区域、作业时间、设备类型等)；

5、所述船舶作业包括装、卸船作业；

6、所述设备包括：桥吊、agv(automated guided vehicle，自动导向车)和轨道吊；

7、步骤s2：对步骤s1获取的数据进行预处理，删除含有空值、计划取消、设备故障等数据；

8、步骤s3：根据每艘船舶的装、卸船任务，对港口作业的每个作业场景数据进行滑动时间窗处理，得到每个时间片的设备数量；

9、其中，港口作业包括三种作业场景：船舶作业场景，集装箱运转作业场景和堆场作业场景，简化情况下，每种场景分别使用一类设备，为桥吊、agv和轨道吊。

10、步骤s4：使用不确定性感知与泛化增强的强化学习方法从历史数据中学习，得到一个鲁棒的离线强化学习模型；

11、本专利技术改进了离线强化学习算法，针对离线强化学习算法中的值网络构建一个带有dropout的孪生网络生成稀疏的特征，利用mse损失和kl散度损失进行泛化约束，从而提高函数估计的鲁棒性与对分布外数据处理能力。

12、步骤s5：在港口环境中部署步骤s4获得的模型，使用中心服务器获取环境信息作为输入，实时输出推荐设备数量。

13、进一步的，步骤s1中，所述设备作业信息采集方法：采集为期半年的各个作业设备编号did，作业设备位置p和作业对象oid、设备类型dy等数据。一条记录可以表示为(did，p，oid，st，et，dy)，其中，作业设备位置p在二维坐标系中使用x,y坐标来表示，作业对象oid表示装载的货物所属的船舶，作业开始时间st与作业结束时间et精确到分钟，设备类型dy包括无人码头的各种运载设备。

14、所述船舶作业信息采集方法：采用现有调度算法对各个作业场景单独训练和实时调度，采集半年的调度作业历史信息。

15、进一步的，所述的步骤s2中，删除含有空值，作业计划取消的数据，并填充到已经开辟的状态空间、动作空间、奖励中，得到优质的数据集样本。

16、进一步的，步骤s3还包括以下方法：在每艘船舶的开始和结束节点进行记录，得到每艘船舶装、卸任务的精确的开始和结束时间。

17、港口作业包括三种作业场景：船舶作业场景，集装箱运转作业场景和堆场作业场景，分别使用桥吊、agv、轨道吊。

18、根据每艘船舶的装、卸船任务，对港口作业的每种作业场景的数据进行滑动时间窗处理，得到每个时间段服务于船舶oid的设备数量，采用滑动时间窗处理数据的过程包括以下步骤：

19、步骤301：根据作业对象进行统计，统计出每个作业对象oid的作业设备did、作业开始时间st，作业结束时间et，设备类型dy，统计结果以字典形式保存；

20、针对每个作业对象的统计结果表示为

21、{oid：[did1,st1,et1,dy1],[did2,st2,et2,dy2],...,[didm,stm,etm,dym]}

22、其中，m表示当前船只分配的作业设备的数量。

23、步骤302：对统计出的结果进行滑动时间窗处理，每k分钟进行一次分片，得到服务于作业对象(船舶)的设备数量；

24、使用k作为每个分片的窗口尺寸，滑动时间窗处理后的数据可以表示为

25、{oid：[tw,{dy1:[dn1],dy2:[dn2],...,dym:[dnm]}]}

26、其中，dn表示当前对象船只资源分配设备数量，tw表示时间戳，其中k＝twi+1-twi，表示两个时间戳的时间间隔为k。

27、进一步的，步骤s4使用带dropout的孪生网络生成稀疏的特征，利用mse损失和kl散度损失进行泛化约束，这些损失可以使用加权的方法进一步调优。

28、具体如下：

29、首先根据步骤1-步骤3获得的离线历史数据集生成状态空间s和动作空间a，如下：

30、港口的状态空间s为离散空间(每个时间步一个采样点)，每艘船只有两个任务(装船和卸船)，状态空间的可以表示为(泊位d,剩余装船集装箱数量，剩余卸船集装箱数量，可用桥吊数量，可用agv数量，可用轨道吊数量)，泊位id表示船舶停靠的泊位索引，装船/卸船集装箱使用int类型表示。

31、动作空间a为离散空间，对每种作业场景，动作空间可以表示为(设备加一、减一、保持不变)，动作的信息根据相邻时间步设备信息的变化确定，针对每个时间步数据设置奖励，装船和卸船完成时均加500，装、卸船过程为0奖励。

32、将离线数据表示为状态转移五元组(s,a,r,γ,s′),其中s表示状态空间；a表示动作空间；r表示即时奖励；γ表示奖励折扣因子，默认取值为0.99；s′表示下一时刻的状态；

33、本专利技术强化学习使用演说-评论家(actor-critic)算法。其中，评论家(critic)模型进行值函数学习，通过贝尔曼算子进行迭代。actor网络根据对当前状态的反馈和动作真值计算损失本文档来自技高网...

【技术保护点】

1.一种基于不确定性感知与泛化增强的离线强化学习港口设备全域资源分配算法，其特征在于，包括以下步骤：

2.如权利要求1所述的分配算法，其特征在于，步骤S1中，所述设备作业信息采集方法：采集为期半年的各个作业设备编号Did，作业设备位置P和作业对象Oid、设备类型Dy等数据；一条记录可以表示为(Did，P，Oid，St，Et，Dy)，其中，作业设备位置P在二维坐标系中使用x,y坐标来表示，作业对象Oid表示装载的货物所属的船舶，作业开始时间St与作业结束时间Et精确到分钟，设备类型Dy包括无人码头的各种运载设备；

3.如权利要求1所述的分配算法，其特征在于，步骤S2中，删除含有空值，作业计划取消的数据，并填充到已经开辟的状态空间、动作空间、奖励中，得到优质的数据集样本。

4.如权利要求1所述的分配算法，其特征在于，所述的步骤3中，在每艘船舶的开始和结束节点进行记录，得到每艘船舶装、卸任务的精确的开始和结束时间；

5.如权利要求1所述的分配算法，其特征在于，步骤S4中，根据步骤1-步骤3获得的离线历史数据集生成状态空间s和动作空间a，如下：

6.如权利要求1所述的分配算法，其特征在于，步骤S4使用带Dropout的孪生网络生成稀疏的特征，利用MSE损失和KL散度损失进行泛化约束，这些损失使用加权的方法进一步调优。

7.如权利要求6所述的分配算法，其特征在于，强化学习使用演说-评论家(actor-critic)算法，其中，评论家模型进行值函数学习，通过贝尔曼算子进行迭代；Actor网络根据对当前状态的反馈和动作真值计算损失进行优化；

8.如权利要求1所述的分配算法，其特征在于，步骤S5中，部署步骤S4获得的模型时，使用收集的数据集对离线强化学习方法进行模型微调；

...

【技术特征摘要】

1.一种基于不确定性感知与泛化增强的离线强化学习港口设备全域资源分配算法，其特征在于，包括以下步骤：

2.如权利要求1所述的分配算法，其特征在于，步骤s1中，所述设备作业信息采集方法：采集为期半年的各个作业设备编号did，作业设备位置p和作业对象oid、设备类型dy等数据；一条记录可以表示为(did，p，oid，st，et，dy)，其中，作业设备位置p在二维坐标系中使用x,y坐标来表示，作业对象oid表示装载的货物所属的船舶，作业开始时间st与作业结束时间et精确到分钟，设备类型dy包括无人码头的各种运载设备；

3.如权利要求1所述的分配算法，其特征在于，步骤s2中，删除含有空值，作业计划取消的数据，并填充到已经开辟的状态空间、动作空间、奖励中，得到优质的数据集样本。

4.如权利要求1所述的分配算法，其特征在于，所述的步骤3中，在每艘船...

【专利技术属性】
技术研发人员：赵卫东，高工，吴宇震，刘常辉，柳先辉，
申请(专利权)人：同济大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人