一种接单辅助决策的联邦强化学习方法技术

技术编号:28461041 阅读:68 留言:0更新日期:2021-05-15 21:25
本发明专利技术公开了一种接单辅助决策的联邦强化学习方法,各智能体分别收集历史订单数据,将历史订单数据作为训练数据;建立环境模型,各智能体建立本地决策模型,环境模型设有奖励函数,环境模型对本地决策模型的接受或拒绝动作做出相应的奖励;各智能体各自利用训练数据对本地决策模型进行训练;各智能体将训练过程中的所得到的梯度信息加密成加密信息,然后发送至聚合方;聚合方接受各智能体的加密信息,然后解密得到各智能体的梯度信息,聚合方对所有的智能体的梯度信息进行整合,并训练聚合模型,然后将训练后的聚合模型发送至各个智能体。本发明专利技术能够在保护各方隐私数据不泄露的情况下,利用各智能体的数据建立聚合模型。利用各智能体的数据建立聚合模型。利用各智能体的数据建立聚合模型。

【技术实现步骤摘要】
一种接单辅助决策的联邦强化学习方法


[0001]本专利技术涉及信息
,尤其涉及一种接单辅助决策的联邦强化学习方法。

技术介绍

[0002]目前,企业的订单接受决策一般由销售部门负责,目标是尽可能多的利润,在一段时间内,客户订单分散的随机动态达到,后续订单什么时间到达以及订单的特性都不能提前获知。为了对现有客户订单进行实时反馈,需要在后续订单还没到达时就做出实时决策。此时若一味接受已有订单,则有可能由于产能、交货期等条件的约束而无法在未来接受更有价值的订单,从而造成客户流失,损失利润。若为后续订单预留产能,则可能造成一定的产能浪费。目前并没有一种能够在现有环境下联合多方,在并不泄露数据隐私的情况下,对企业的决策模型进行训练的方法。

技术实现思路

[0003]本专利技术的目的在于提出一种接单辅助决策的联邦强化学习方法,以解决上述问题。
[0004]为达此目的,本专利技术采用以下技术方案:
[0005]一种基于联邦强化学习的接单辅助决策方法,包括:
[0006]数据采集和处理,各智能体分别收集历史订单数据,然后提取历史订单数据的属性,将所述历史订单数据作为训练数据;
[0007]建立模型,根据历史订单数据建立环境模型,各所述智能体建立本地决策模型,所述环境模型模拟当前状态S;所述环境模型设有奖励函数,当所述本地决策模型根据当前状态S对新订单做出接受或拒绝动作后,环境模型对所述本地决策模型的接受或拒绝动作做出相应的奖励;
[0008]训练本地决策模型,各所述智能体各自利用所述训练数据对所述本地决策模型进行训练;
[0009]联合各方数据进行联邦强化学习,各智能体将训练过程中的所得到的梯度信息加密成加密信息,然后发送至聚合方;所述聚合方接受各智能体的加密信息,然后解密得到各智能体的梯度信息,所述聚合方对所有的智能体的梯度信息进行整合,并训练聚合模型,然后将训练后的聚合模型发送至各个智能体。
[0010]优选地,依次按照以下步骤进行联邦强化学习:
[0011]步骤A、各个所述智能体分别根据对所述环境模型的观察结果进行动作决策;
[0012]步骤B、所述环境模型向所述智能体反馈结果,反馈结果包括新的状态S
t+1
和奖励;
[0013]步骤C、各个所述智能体将得到的反馈结果放入各自的所述强化学习算法中对所述本地决策模型进行强化学习训练,并计算中间结果,然后将所述中间结果加密并发送给所述聚合方;
[0014]步骤D、所述聚合方对所有的中间结果进行解密,并使用全部聚合的梯度信息对聚
合模型进行训练;
[0015]步骤E、聚合方将训练后的聚合模型发送给各个所述智能体。
[0016]优选地,当所述本地决策模型作出接受动作,所述环境模型计算立即接受订单的奖励r
a

[0017][0018]其中,R为订单利润,T
w
为完工期,b为订单成本,c为订单碳耗量,T
y
为延期时间,w为延期单位惩罚,J为客户等级;
[0019]当所述本地决策模型作出拒绝动作后,所述环境模型给予的奖励为0或者所述环境模型根据客户等级给予惩罚。
[0020]优选地,采用强化学习算法对本地决策模型进行训练;所述强化学习算法包括策略网络π和价值网络q,所述策略网络π用于计算所述本地决策模型做出模拟的接受或拒绝动作的概率分布,然后随机抽样得到动作;所述价值网络q用于对每一个模拟的动作根据当前状态S进行打分,并选出分值最大的动作。
[0021]优选地,对所述本地决策模型的训练过程包括以下步骤:
[0022]步骤1、所述本地决策模型观察旧的状态S
t
,策略网络π根据所述旧的状态S
t
计算出每个动作的概率分布,然后根据概率分布随机抽样获得动作a
t

[0023]步骤2、所述智能体执行动作a
t
,所述环境模型更新到新的状态S
t+1
,并给出奖励r
t

[0024]步骤3、以新的状态S
t+1
作为输入,策略网络π计算每个动作的概率分布,然后根据概率分布随机抽样得到新的动作a'
t+1

[0025]步骤4、所述价值网络q先以所述旧的状态S
t
和动作a
t
作为输入,算出打分q
t
;然后所述价值网络q以新的状态S
t+1
和新的动作a'
t+1
作为输入,算出打分q
t+1

[0026]步骤5、计算TD

error的值δ
t

[0027]δ
t
=q
t

(r
t

·
q
t+1
)
[0028]其中,γ为价值网络的学习率;
[0029]步骤6、对所述价值网络q进行求导,计算价值网络q关于w的剃度d
w,t

[0030][0031]其中,w价值网络参数;
[0032]步骤7、使用TD算法用梯度下降来对所述价值网络q进行更新;
[0033]步骤8、对策略网络π进行求导:
[0034][0035]其中,θ为策略网络参数;
[0036]步骤9、用梯度上升来对策略网络π进行更新:
[0037]θ
t+1
=θ
t

·
q
t
·
d
θ,t

[0038]其中,β为策略网络的学习率;
[0039]每次训练依次执行以上步骤,每次训练中只执行一次动作,观测一个奖励,并更新一次所述价值网络参数和所述策略网络参数。
[0040]优选地,在联邦强化学习的过程中,各所述智能体采用同态加密、多方安全计算或随机噪声对训练过程中的梯度信息进行加密。
[0041]优选地,各智能体在收集历史订单数据后,对历史订单数据进行预处理:
[0042]1)、通过One

hot编码对顾客等级具有多个候选值的订单进行处理,除了所述订单的顾客等级设置为1,其他顾客的等级都设置为0;
[0043]2)、采用画箱线图的方法对历史订单数据中存在的异常数据进行剔除;
[0044]3)、对订单样本进行均衡化,增加小类样本的权重,并降低大类样本的权重。
[0045]本专利技术的有益效果是:采用联邦强化学习的方式来对聚合模型进行训练,通过设置聚合方,聚合方为一个智能体或者一个可信赖的第三方,由聚合方接收各智能体在对本地决策模型训练过程中所得到的梯度信息,并对各方的梯度信息进行聚合,然后训练聚合模型,由于在对聚合模型进行训练的过程中可以利用到各智能体的数据,从而能够拥有足够的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种接单辅助决策的联邦强化学习方法,其特征在于,包括:数据采集和处理,各智能体分别收集历史订单数据,然后提取历史订单数据的属性,将所述历史订单数据作为训练数据;建立模型,根据历史订单数据建立环境模型,各所述智能体建立本地决策模型,所述环境模型模拟当前状态S;所述环境模型设有奖励函数,当所述本地决策模型根据当前状态S对新订单做出接受或拒绝动作后,环境模型对所述本地决策模型的接受或拒绝动作做出相应的奖励;训练本地决策模型,各所述智能体各自利用所述训练数据对所述本地决策模型进行训练;联合各方数据进行联邦强化学习,各智能体将训练过程中的所得到的梯度信息加密成加密信息,然后发送至聚合方;所述聚合方接受各智能体的加密信息,然后解密得到各智能体的梯度信息,所述聚合方对所有的智能体的梯度信息进行整合,并训练聚合模型,然后将训练后的聚合模型发送至各个智能体。2.根据权利要求1所述的一种接单辅助决策的联邦强化学习方法,其特征在于,依次按照以下步骤进行联邦强化学习:步骤A、各个所述智能体分别根据对所述环境模型的观察结果进行动作决策;步骤B、所述环境模型向所述智能体反馈结果,反馈结果包括新的状态S
t+1
和奖励;步骤C、各个所述智能体将得到的反馈结果放入各自的所述强化学习算法中对所述本地决策模型进行强化学习训练,并计算中间结果,然后将所述中间结果加密并发送给所述聚合方;步骤D、所述聚合方对所有的中间结果进行解密,并使用全部聚合的梯度信息对聚合模型进行训练;步骤E、聚合方将训练后的聚合模型发送给各个所述智能体。3.根据权利要求2所述的一种接单辅助决策的联邦强化学习方法,其特征在于,当所述本地决策模型作出接受动作,所述环境模型计算立即接受订单的奖励r
a
:其中,R为订单利润,T
w
为完工期,b为订单成本,c为订单碳耗量,T
y
为延期时间,w为延期单位惩罚,J为客户等级;当所述本地决策模型作出拒绝动作后,所述环境模型给予的奖励为0或者所述环境模型根据客户等级给予惩罚。4.根据权利要求3所述的一种接单辅助决策的联邦强化学习方法,其特征在于,采用强化学习算法对本地决策模型进行训练;所述强化学习算法包括策略网络π和价值网络q,所述策略网络π用于计算所述本地决策模型做出模拟的接受或拒绝动作的概率分布,然后随机抽样得到动作;所述价值网络q用于对每一个模拟的动作根据当前状态S进行打分,并选出分值最大的动作。5.根据权利要求4所述的一种接单辅助决策的联邦强化学习方法,其特征在于,对所述本地决策模型的训练过程包括以下步骤:步骤1、所述本地决策模型观察旧的状态S
t
,策略网络π根据所述旧的状态S<...

【专利技术属性】
技术研发人员:冷杰武张虎刘强阮国磊苏倩怡王德文周满
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1