权益推送的方法及装置制造方法及图纸

技术编号:30168934 阅读:13 留言:0更新日期:2021-09-25 15:26
本说明书实施例提供一种权益推送的方法及装置,可以通用于待推送权益的多种业务场景。该方法将元学习和强化学习的思想相结合,将不同的业务场景作为元学习的任务,结合强化学习长期收益最大化决策的优势设计,得到多场景动态决策最优策略的机器学习方案,使得短周期和新业务场景的活动建模成为可能。在线上运行时,业务编码网络采用在线策略,仅需要极少数业务数据快速适应新的业务场景,得到携带业务场景信息的编码表示,并基于其进行推送策略的决策,进一步提高了推送策略与业务场景的关联性。智能体中的网络参数还可以采用离线策略更新,从而提高模型的可用性。从而提高模型的可用性。从而提高模型的可用性。

【技术实现步骤摘要】
权益推送的方法及装置


[0001]本说明书一个或多个实施例涉及计算机
,尤其涉及权益推送的方法及装置。

技术介绍

[0002]互联网技术的发展,使得集成化逐渐成为各种网络平台的发展趋势。平台的集成化可以将各种相关的业务方联系在一起,并可以实现业务的互通。例如,支付平台可以将多种支付渠道联系起来,并接入多种支付场景,例如购物场景、水电煤气缴费场景、话费充值场景、外卖场景等。这些场景可以通过相关平台链接跳转到当前支付平台,也可以通过嵌入支付平台的小程序或微应用进入。支付渠道例如可以是信用卡支付、储蓄卡支付、网贷平台支付等等。各种支付渠道下又可以链接多种子支付渠道,例如储蓄卡支付渠道可以对应各个银行的子支付渠道。
[0003]实践中,各个支付渠道为了维护自身的用户群体或对用户进行激励,可能会提供一些权益,例如红包奖励、随机减免、消费积分等等。这些权益对不同用户而言,也有着不同的意义。为了向用户提供更合适的权益,通常利用机器学习模型进行权益推送。常规技术中,对机器学习模型的建模方式通常有统一建模和针对不同场景各自建模两种。统一模型适用于历史数据丰富的场景,对于数据不足或无数据的场景效果较差,可能无法达到业务的要求,并且训练流程可能较复杂,并需要不断收集数据重训模型。针对不同场景各自建模则通常需要维护多个模型,例如模型数与场景数相等,训练及维护成本高,并且当场景数据较少时无法训练模型或训练的模型不够准确。为此,提供一种能够统一适用于各种场景,并且对新场景或数据较少的场景也具有较好适应能力的权益推送方式,具有重大的意义。

技术实现思路

[0004]本说明书一个或多个实施例描述了一种更新权益决策模型及权益推送的方法及装置,用以解决
技术介绍
提到的一个或多个问题。
[0005]根据第一方面,提供一种更新权益决策模型的方法,所述权益决策模型包括业务编码网络,以及通过强化学习实现的智能体,该智能体包括决策模块和策略评估模块;所述方法包括:从样本集中采集m个业务场景下与所述决策模块的当前策略一致的N1条业务数据样本,N1>m,单个业务场景采集有多条业务数据样本,单条业务数据样本对应以下四元参数组:第一用户状态s、执行的推送策略a、当前收益r、用户基于对a的响应从s转变后的第二用户状态s';通过业务编码网络处理所述N1条业务数据样本,从而分别针对m个业务场景,得到相应的m个编码向量;从样本集中采集所述m个业务场景下的N2条业务数据样本;针对N2条业务数据样本中的单条业务数据样本,将其对应的业务场景下的编码向量及第一用户状态s通过决策模块进行决策,并通过策略评估模块对决策结果的评估确定模型损失,从而调整所述业务编码网络、所述决策模块和所述策略评估模块中的模型参数。
[0006]在一个实施例中,所述从样本集中采集m个业务场景下与所述决策模块的当前策
略一致的N1条业务数据样本包括:利用m个业务场景分别对应的m个当前的编码向量,以及所述决策模块的当前参数,针对样本集中的各条业务数据样本分别预测各个样本推送权益a';确定相应的样本推送权益a'和执行的推送策略a一致的业务数据样本与所述决策模块的当前策略一致。
[0007]在一个实施例中,所述N1条业务数据样本包括,针对单个业务场景,按照时间从近到远的顺序从样本集中与所述决策模块的当前策略一致的业务数据样本中采样的多条业务数据样本。
[0008]在一个实施例中,所述决策结果包括对各个候选推送权益进行选择的第一概率分布;所述通过策略评估模块对决策结果的评估确定模型损失从而调整所述业务编码网络、所述决策模块和所述策略评估模块进一步包括:通过策略评估模块中的状态值函数确定N2条业务数据分别对应的长期收益估计值的各个第二概率分布;以N2条业务数据样本各自的第一概率分布和第二概率分布相一致为目标确定第三损失,从而通过最小化第三损失调整决策模块的参数。
[0009]在一个实施例中,所述策略评估模块通过策略评估模块对决策结果的评估通过预先确定的值函数进行,所述值函数包括状态值函数和状态动作值函数,所述状态值函数用于根据单条业务数据样本中的第一用户状态s、对应的业务场景下的编码向量执行各种推送策略确定第一收益值Q,所述状态动作值函数用于根据单条业务数据样本中的第二用户状态s'、对应的业务场景下的编码向量执行各种推送策略确定第二收益值V;所述通过策略评估模块对决策结果的评估确定模型损失,从而调整所述业务编码网络、所述决策模块和所述策略评估模块进一步包括:针对N2条业务数据样本中的单条业务数据,分别确定第一收益值Q、第二收益值V,并确定第二收益值V和当前收益r之和与第一收益值Q之间的收益差值;根据对N2个收益差值进行融合得到的收益差值的期望,确定第二损失;以最小化第二损失为目标,调整策略评估模块中的模型参数。
[0010]在一个实施例中,所述通过策略评估模块对决策结果的评估确定模型损失,从而调整所述业务编码网络、所述决策模块和所述策略评估模块进一步包括:以各个编码向量的后验分布分别接近预定先验分布为目标确定第一损失;通过第二损失和第一损失之和确定编码损失,从而以最小化编码损失为目标调整编码网络的参数。
[0011]在一个实施例中,最小化编码损失通过计算各个模型参数的梯度方式进行,编码损失中第二收益值为依据当前的编码向量和第二用户状态s'得到的确定值。
[0012]在一个实施例中,所述预定先验分布为高斯分布。
[0013]在一个实施例中,所述业务编码网络针对单个业务场景通过以下方式进行编码:针对单个业务场景下的各个业务数据样本,分别确定相应的各个高斯因子,单个高斯因子的均值和方差由第一神经网络对相应业务数据样本的四元参数组进行处理得到;利用对各个高斯因子按照乘积方式的拟合,得到单个业务场景对应的业务编码向量。
[0014]在一个实施例中,所述N2条业务数据样本从整个样本集中随机采样确定。
[0015]根据第二方面,提供一种权益推送的方法,通用于多种业务场景,用于从多个候选待推送权益中选出至少一项权益推送给用户,所述方法包括:响应于当前用户的第一业务请求,获取用户当前的第一用户状态s,以及当前业务场景的场景标识;根据所述场景标识,从编码服务端获取当前业务场景的业务编码向量,其中,编码服务端部署有预先训练的业
务编码网络,所述业务编码向量通过对按照第一采样方式从样本集采集的当前业务场景中的至少一条样本数据的编码得到;基于所述业务编码向量和所述第一用户状态s向决策服务端请求推送策略,所述决策服务端部署有预先训练的智能体,所述智能体的决策模块通过所述第一用户状态s和所述业务编码向量,对各条候选推送权益进行选择概率预测,从而根据预测的概率选择至少一项候选推送权益生成权益推送策略A;按照所述决策服务端反馈的权益推送策略A向所述当前用户进行权益推送。
[0016]在一个实施例中,所述权益推送策略A包括待推送的权益类别、权益份额中的至少一项。
[0017]在一个实施例中,所述方法还包括:基于所述用户针对所述权益推送策略A进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种更新权益决策模型的方法,所述权益决策模型包括业务编码网络,以及通过强化学习实现的智能体,该智能体包括决策模块和策略评估模块;所述方法包括:从样本集中采集m个业务场景下与所述决策模块的当前策略一致的N1条业务数据样本,N1>m,单个业务场景采集有多条业务数据样本,单条业务数据样本对应以下四元参数组:第一用户状态s、执行的推送策略a、当前收益r、用户基于对a的响应从s转变后的第二用户状态s';通过业务编码网络处理所述N1条业务数据样本,从而分别针对m个业务场景,得到相应的m个编码向量;从样本集中采集所述m个业务场景下的N2条业务数据样本;针对N2条业务数据样本中的单条业务数据样本,将其对应的业务场景下的编码向量及第一用户状态s通过决策模块进行决策,并通过策略评估模块对决策结果的评估确定模型损失,从而调整所述业务编码网络、所述决策模块和所述策略评估模块中的模型参数。2.根据权利要求1所述的方法,其中,所述从样本集中采集m个业务场景下与所述决策模块的当前策略一致的N1条业务数据样本包括:利用m个业务场景分别对应的m个当前的编码向量,以及所述决策模块的当前参数,针对样本集中的各条业务数据样本分别预测各个样本推送权益a';确定相应的样本推送权益a'和执行的推送策略a一致的业务数据样本与所述决策模块的当前策略一致。3.根据权利要求1或2所述的方法,其中,所述N1条业务数据样本包括,针对单个业务场景,按照时间从近到远的顺序从样本集中与所述决策模块的当前策略一致的业务数据样本中采样的多条业务数据样本。4.根据权利要求1所述的方法,其中,所述决策结果包括对各个候选推送权益进行选择的第一概率分布;所述通过策略评估模块对决策结果的评估确定模型损失,从而调整所述业务编码网络、所述决策模块和所述策略评估模块进一步包括:通过策略评估模块中的状态值函数确定N2条业务数据分别对应的长期收益估计值的各个第二概率分布;以N2条业务数据样本各自的第一概率分布和第二概率分布相一致为目标确定第三损失,从而通过最小化第三损失调整决策模块的参数。5.根据权利要求1所述的方法,其中,所述策略评估模块通过策略评估模块对决策结果的评估通过预先确定的值函数进行,所述值函数包括状态值函数和动作状态值函数,所述动作状态值函数用于根据单条业务数据样本中的第一用户状态s、对应的业务场景下的编码向量执行各种推送策略确定第一收益值Q,所述状态值函数用于根据单条业务数据样本中的第二用户状态s'、对应的业务场景下的编码向量执行各种推送策略确定第二收益值V;所述通过策略评估模块对决策结果的评估确定模型损失,从而调整所述业务编码网络、所述决策模块和所述策略评估模块进一步包括:针对N2条业务数据样本中的单条业务数据,分别确定第一收益值Q、第二收益值V,并确定第二收益值V和当前收益r之和与第一收益值Q之间的收益差值;根据对N2个收益差值进行融合得到的收益差值的期望,确定第二损失;以最小化第二损失为目标,调整策略评估模块中的模型参数。
6.根据权利要求5所述的方法,其中,所述通过策略评估模块对决策结果的评估确定模型损失,从而调整所述业务编码网络、所述决策模块和所述策略评估模块进一步包括:以各个编码向量的后验分布分别接近预定先验分布为目标确定第一损失;通过第二损失和第一损失之和确定编码损失,从而以最小化编码损失为目标调整编码网络的参数。7.根据权利要求6所述的方法,其中,最小化编码损失通过计算各个模型参数的梯度方式进行,编码损失中第二收益值为依据当前的编码向量和第二用户状态s'得到的确定值。8.根据权利要求6所述的方法,其中,所述预定先验分布为高斯分布。9.根据权利要求8所述的方法,其中,所述业务编码网络针对单个业务场景通过以下方式进行编码:针对单个业务场景下的各个业务数据样本,分别确定相应的各个高斯因子,单个高斯因子的均值和方差由第一神经网络对相应业务数据样本的四元参数组进行处理得到;利用对各个高斯因子按照乘积方式的拟合,得到单个业务场景对应的业务编码向量。10.根据权利要求1所述的方法,其中,所述N2条业务数据样本从整个样本集中随机采样确定。11.一种权益推送的方法,通用于多种业务场景,用于从多个...

【专利技术属性】
技术研发人员:徐海瑞
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1