基于多智能体强化学习的供应链库存管理方法技术

技术编号：38996358 阅读：9 留言：0更新日期：2023-10-07 10:27

本发明专利技术公开了基于多智能体强化学习的供应链库存管理方法。本发明专利技术针对现有的基于多智能体强化学习供应链库存管理方法在供应链参与方较多时状态空间和动作空间过大时表现不佳以及无法有效进行供应链参与者之间的协同合作的问题，提出了带有信息传递机制的双策略多智能体强化学习算法，利用双策略机制在训练初期最大化利用局部策略对状态空间进行探索，在训练过程中逐渐转向团队策略，实现对状态空间的有效探索；并利用了一种信息传递机制来使得供应链参与方在进行策略更新时互通有无，以实现高效协同合作。实现高效协同合作。实现高效协同合作。

全部详细技术资料下载

【技术实现步骤摘要】
基于多智能体强化学习的供应链库存管理方法

[0001]本专利技术涉及供应链库存管理领域，特别涉及一种基于多智能体强化学习的主制造商
‑
供应商模式供应链库存管理方法。

技术介绍

[0002]供应链库存管理是指在供应链各环节中，通过科学的理论，合理地规划和控制物料、零部件、成品等物资的储备数量，以达到优化供应链运作、降低成本、提高效率等目的的方法。
[0003]近年来随着人工智能的快速发展，供应链库存管理不断进步。特别是随着强化学习的成功，它被大量应用于供应链库存管理领域。
[0004]最接近现有技术及其评析：
[0005]Oroojlooy等人(Oroojlooy A.Applications of machine learning in supply chains[D].Lehigh University,2019.)使用深度Q网络算法(Deep Q
‑
Network，DQN)解决供应链库存管理问题。
[0006]Kemmer等人(Kemmer L,von Kleist H,de D,et al.Reinforcement learning for supply chain optimization[C]//European Workshop on Reinforcement Learning.2018,14(10).)利用状态
‑
动作
‑
回报
‑
状态
‑
动作算法(Stater/>‑
Action
‑
Reward
‑
State
‑
Action，SARSA)解决二级供应链库存管理问题。
[0007]Alves和Mateus等人(Alves J C,Mateus G R.Deep reinforcement learning and optimization approach for multi
‑
echelon supply chain with uncertain demands[C]//Computational Logistics:11th International Conference,ICCL 2020,Enschede,The Netherlands,September 28
–
30,2020,Proceedings 11.Springer International Publishing,2020:584
‑
599.)利用单智能体强化学习方法解决四级供应链的库存管理问题。
[0008]Alves和Silva等人(Alves J C,Silva D M,Mateus G R.Applying and comparing policy gradient methods to multi
‑
echelon supply chains with uncertain demands and lead times[C]//Artificial Intelligence and Soft Computing:20th International Conference,ICAISC 2021,Virtual Event,June 21
–
23,2021,Proceedings,Part II.Cham:Springer International Publishing,2021:229
‑
239.)在一个合作供应链库存管理环境中比较了几种经典强化学习的效率。
[0009]Wang等人(Wang H,Tao J,Peng T,et al.Dynamic inventory replenishment strategy for aerospace manufacturing supply chain:combining reinforcement learning and multi
‑
agent simulation[J].International Journal of Production Research,2022,60(13):4117
‑
4136.)利用库存管理问题解决飞机制造业的库存管理问题。
[0010]以上这些方法虽然可以对供应链库存管理问题进行一定的管理，但是研究的背景涉及到的供应链参与方和物料种类均相对较少，在供应链参与方较多时状态空间和动作空
间过大时表现不佳以及无法有效进行供应链参与者之间的协同合作。

技术实现思路

[0011]本专利技术的目的在于提供一种基于多智能体强化学习的主制造商
‑
供应商模式供应链库存管理方法。
[0012]本专利技术技术方案基于现有技术在面对主制造商
‑
供应商模式下在供应链参与方较多时状态空间和动作空间过大时表现不佳以及无法有效进行供应链参与者之间的协同合作的问题，提出了带有信息传递机制的双策略多智能体强化学习算法，利用双策略机制在训练初期最大化利用局部策略对状态空间进行探索，在训练过程中逐渐转向团队策略，实现对状态空间的有效探索；并利用了一种信息传递机制来使得供应链参与方在进行策略更新时互通有无，以实现高效协同合作。本专利技术通过对供应链参与方较多时状态空间和动作空间的高效探索以及供应链参与方之间的信息传递，有效改善了供应链的库存管理效率，从而尽可能实现供应链利益最大化。
[0013]本专利技术需要保护的技术方案表征为：
[0014]一种基于多智能体强化学习的主制造商
‑
供应商模式供应链库存管理方法，其特征在于，包括主制造商智能体和供应商智能体，并且智能体能够按照特定逻辑进行交互以模拟供应链运转过程中的库存变化状态；
[0015]所述主制造商智能体的数量为一个，且每个主制造商智能体包括相应的独立策略π0、团队策略和价值函数V0；
[0016]所述供应商智能体的数量为N(所述N为大于等于1的正整数)，且每个供应商智能体包括相应的独立策略π
i
、团队策略和价值函数V(其中i＝1，2，3，......，N，为所述供应商智能体的序号)；
[0017]所述用于交互模拟主制造商
‑
供应商模式供应链运转的特定逻辑，每一个时间t包括如下步骤：
[0018]步骤1：初始化时间t以及主制造商智能体和全部供应商智能体的相关信息；
[0019]步骤2：主制造商智能体更新自身需求信息运输信息trn
t
，供应商智能体更新自身需求信息生产信息(其中i＝1，2，3，......，N，为所述供应商智能体的序号)；
[0020]步骤3:主制造商智能体根据更新后的运输信息trn
t
更新自身的库存信息供应商智能体根据更新后的生产信息更新自身的库存信息(其中i＝1，2，本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于多智能体强化学习的供应链库存管理方法，其特征在于，包括主制造商智能体和供应商智能体，并且智能体能够按照特定逻辑进行交互以模拟供应链运转过程中的库存变化状态；所述主制造商智能体的数量为一个，且每个主制造商智能体包括相应的独立策略π0、团队策略和价值函数V0；所述供应商智能体的数量为N,所述N为大于等于1的正整数，且每个供应商智能体包括相应的独立策略π
i
、团队策略和价值函数V
i
,其中：i＝1，2，3，......，N，为所述供应商智能体的序号；所述用于交互模拟主制造商
‑
供应商模式供应链运转的特定逻辑，每一个时间t执行训练算法过程。2.如权利要求1所述的基于多智能体强化学习的供应链库存管理方法，其特征在于，所述执行训练算法过程，包括如下步骤：步骤1：初始化时间t以及主制造商智能体和全部供应商智能体的相关信息；步骤2：主制造商智能体更新自身需求信息运输信息trn
t
，供应商智能体更新自身需求信息生产信息其中：i＝1，2，3，......，N，为所述供应商智能体的序号；步骤3:主制造商智能体根据更新后的运输信息trnt更新自身的库存信息供应商智能体根据更新后的生产信息更新自身的库存信息其中：i＝1，2，3，......，N，为所述供应商智能体的序号；步骤4:主制造商智能体以当前自身的需求信息库存信息运输信息trn
t
作为观察信息通过所述的自身的独立策略π0和团队策略得到对于各种物料的采购动作信息供应商智能体以当前自身的需求信息库存信息生产信息作为观察信息其中i＝1，2，3，......，N，为所述供应商智能体的序号，通过所述的自身的独立策略π
i
和团队策略得到对于各种物料的生产动作信息其中：i＝1，2，3，......，N，为所述供应商智能体的序号；步骤5：主制造商智能体以及供应商智能体根据奖惩机制得到其做出动作后状态的奖惩回报其中：i＝0,1，2，3，......，N，为所述智能体的序号,0表示主制造商，其余表示供应商；步骤6：主制造商智能体以及供应商智能体利用步骤4得到的奖惩回报通过所述的自身的价值函数V
i
对步骤4中所述的自身产生的动作信息进行评价，并得到相应的评价指标其中：i＝0,1，2，3，......，N，为所述智能体的序号,0表示主制造商，其余表示供应商；步骤7：重复执行步骤2至步骤6，直到达到预先设定的轨迹长度L，获取的数据样本存入数据缓存D中；步骤8：主制造商智能体以及供应商智能体根据步骤7中所述的数据缓存D中的数据，对
所述的自身的独立策略π
i
、团队策略和价值函数V
i
进行更新，其中：i＝0,1，2，3，......，N，为所述智能体的序号,0表示主制造商，其余表示供应商；步骤9：重复执行步骤1至步骤8，直到达到预先设定的轨迹数量T。3.如权利要求2所述的基于多智能体强化学习的供应链库存管理方法，其特征在于，还包括用于描述所述主制造商智能体和供应商智能体可执行动作的动作空间A和用于描述其可观察信息的状态空间O；所述动作空间A表示主制造商智能体和全部供应商智能体的联合动作空间，由各个智能体的动作空间组成，即A＝A0×
A1×
A2×
···
×
A
N
；所述观察空间O表示主制造商智能体和全部供应商智能体的联合观察空间，由各个智能体的观察空间组成，即O＝O0×
O1×
O2×
···
×
O
N
。4.如权利要求2所述的基于多智能体强化学习的供应链库存管理方法，其特征在于，所述步骤5中的奖惩回报为每个时间t中主制造商智能体和供应商智能体能够得到的反馈信息；所述反馈信息包括：主制造商智能体或供应商智能体自身的各种物料库存水平主制造商智能体或供应商智能体自身各种超出库存能力的物料的溢出库存水平主制造商智能体或供应商智能体自身超出需求规定期限，但未满足的需求水平其中：i＝0,1，2，3，......，N，为所述智能体的序号,0表示主制造商，其余表示供应商。5.如权利要求2所述的基于多智能体强化学习的供应链库存管理方法，其特征在于，所述主制造商智能体包括的所述独立策略π0、团队策略和价值函数V0特征在于：所述独立策略π0、团队策略以所述主制造商智能体自身的所述观察信息作为输入；在训练初期采用所述独立策略π0产生的动作作为智能体的所述采购动作信息在训练后期采用所述团队策略产生的动作作为智能体的所述采购动作信息所述价值函数V0以所述所有制造商的信息组成的联合观察信息o
t
作为输入；所述价值函数V0基于输入联合观察信息o
t
产生动作信息的估计收益v
i
；基于所述估计收益更新所述独立策略π0、团队策略和所述价值函数V0。6.如权利要求2所述的基于多智能体强化学习的供应链库存管理方法，其特征在于，所述制造商智能体包括的所述独立策略π
i
、团队策略和价值函数V
i
特征在于：所述独立策略π
i
、团队策略以所述制造商智能体自身的所述观察信息作...

【专利技术属性】
技术研发人员：张冬冬，朴明杰，
申请(专利权)人：同济大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人