一种接单辅助决策的联邦强化学习方法技术

技术编号：28461041 阅读：72 留言：0更新日期：2021-05-15 21:25

本发明专利技术公开了一种接单辅助决策的联邦强化学习方法，各智能体分别收集历史订单数据，将历史订单数据作为训练数据；建立环境模型，各智能体建立本地决策模型，环境模型设有奖励函数，环境模型对本地决策模型的接受或拒绝动作做出相应的奖励；各智能体各自利用训练数据对本地决策模型进行训练；各智能体将训练过程中的所得到的梯度信息加密成加密信息，然后发送至聚合方；聚合方接受各智能体的加密信息，然后解密得到各智能体的梯度信息，聚合方对所有的智能体的梯度信息进行整合，并训练聚合模型，然后将训练后的聚合模型发送至各个智能体。本发明专利技术能够在保护各方隐私数据不泄露的情况下，利用各智能体的数据建立聚合模型。利用各智能体的数据建立聚合模型。利用各智能体的数据建立聚合模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种接单辅助决策的联邦强化学习方法

[0001]本专利技术涉及信息
，尤其涉及一种接单辅助决策的联邦强化学习方法。

技术介绍

[0002]目前，企业的订单接受决策一般由销售部门负责，目标是尽可能多的利润，在一段时间内，客户订单分散的随机动态达到，后续订单什么时间到达以及订单的特性都不能提前获知。为了对现有客户订单进行实时反馈，需要在后续订单还没到达时就做出实时决策。此时若一味接受已有订单，则有可能由于产能、交货期等条件的约束而无法在未来接受更有价值的订单，从而造成客户流失，损失利润。若为后续订单预留产能，则可能造成一定的产能浪费。目前并没有一种能够在现有环境下联合多方，在并不泄露数据隐私的情况下，对企业的决策模型进行训练的方法。

技术实现思路

[0003]本专利技术的目的在于提出一种接单辅助决策的联邦强化学习方法，以解决上述问题。
[0004]为达此目的，本专利技术采用以下技术方案：
[0005]一种基于联邦强化学习的接单辅助决策方法，包括：
[0006]数据采集和处理，各智能体分别收集历史订单数据，然后提取历史订单数据的属性，将所述历史订单数据作为训练数据；
[0007]建立模型，根据历史订单数据建立环境模型，各所述智能体建立本地决策模型，所述环境模型模拟当前状态S；所述环境模型设有奖励函数，当所述本地决策模型根据当前状态S对新订单做出接受或拒绝动作后，环境模型对所述本地决策模型的接受或拒绝动作做出相应的奖励；
[0008]训练本地决策模型，各所述智能体...

【技术保护点】

【技术特征摘要】
1.一种接单辅助决策的联邦强化学习方法，其特征在于，包括：数据采集和处理，各智能体分别收集历史订单数据，然后提取历史订单数据的属性，将所述历史订单数据作为训练数据；建立模型，根据历史订单数据建立环境模型，各所述智能体建立本地决策模型，所述环境模型模拟当前状态S；所述环境模型设有奖励函数，当所述本地决策模型根据当前状态S对新订单做出接受或拒绝动作后，环境模型对所述本地决策模型的接受或拒绝动作做出相应的奖励；训练本地决策模型，各所述智能体各自利用所述训练数据对所述本地决策模型进行训练；联合各方数据进行联邦强化学习，各智能体将训练过程中的所得到的梯度信息加密成加密信息，然后发送至聚合方；所述聚合方接受各智能体的加密信息，然后解密得到各智能体的梯度信息，所述聚合方对所有的智能体的梯度信息进行整合，并训练聚合模型，然后将训练后的聚合模型发送至各个智能体。2.根据权利要求1所述的一种接单辅助决策的联邦强化学习方法，其特征在于，依次按照以下步骤进行联邦强化学习：步骤A、各个所述智能体分别根据对所述环境模型的观察结果进行动作决策；步骤B、所述环境模型向所述智能体反馈结果，反馈结果包括新的状态S
t+1
和奖励；步骤C、各个所述智能体将得到的反馈结果放入各自的所述强化学习算法中对所述本地决策模型进行强化学习训练，并计算中间结果，然后将所述中间结果加密并发送给所述聚合方；步骤D、所述聚合方对所有的中间结果进行解密，并使用全部聚合的梯度信息对聚合模型进行训练；步骤E、聚合方将训练后的聚合模型发送给各个所述智能体。3.根据权利要求2所述的一种接单辅助决策的联邦强化学习方法，其特征在于，当所述本地决策模型作出接受动作，所述环境模型计算立即接受订单的奖励r
a
：其中，R为订单利润，T
w
为完工期，b为订单成本，c为订单碳耗量，T
y
为延期时间，w为延期单位惩罚，J为客户等级；当所述本地决策模型作出拒绝动作后，所述环境模型给予的奖励为0或者所述环境模型根据客户等级给予惩罚。4.根据权利要求3所述的一种接单辅助决策的联邦强化学习方法，其特征在于，采用强化学习算法对本地决策模型进行训练；所述强化学习算法包括策略网络π和价值网络q，所述策略网络π用于计算所述本地决策模型做出模拟的接受或拒绝动作的概率分布，然后随机抽样得到动作；所述价值网络q用于对每一个模拟的动作根据当前状态S进行打分，并选出分值最大的动作。5.根据权利要求4所述的一种接单辅助决策的联邦强化学习方法，其特征在于，对所述本地决策模型的训练过程包括以下步骤：步骤1、所述本地决策模型观察旧的状态S
t
，策略网络π根据所述旧的状态S<...

【专利技术属性】
技术研发人员：冷杰武，张虎，刘强，阮国磊，苏倩怡，王德文，周满，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人