权益推送的方法及装置制造方法及图纸

技术编号：30168934 阅读：13 留言：0更新日期：2021-09-25 15:26

本说明书实施例提供一种权益推送的方法及装置，可以通用于待推送权益的多种业务场景。该方法将元学习和强化学习的思想相结合，将不同的业务场景作为元学习的任务，结合强化学习长期收益最大化决策的优势设计，得到多场景动态决策最优策略的机器学习方案，使得短周期和新业务场景的活动建模成为可能。在线上运行时，业务编码网络采用在线策略，仅需要极少数业务数据快速适应新的业务场景，得到携带业务场景信息的编码表示，并基于其进行推送策略的决策，进一步提高了推送策略与业务场景的关联性。智能体中的网络参数还可以采用离线策略更新，从而提高模型的可用性。从而提高模型的可用性。从而提高模型的可用性。

全部详细技术资料下载

【技术实现步骤摘要】
权益推送的方法及装置

[0001]本说明书一个或多个实施例涉及计算机
，尤其涉及权益推送的方法及装置。

技术介绍

[0002]互联网技术的发展，使得集成化逐渐成为各种网络平台的发展趋势。平台的集成化可以将各种相关的业务方联系在一起，并可以实现业务的互通。例如，支付平台可以将多种支付渠道联系起来，并接入多种支付场景，例如购物场景、水电煤气缴费场景、话费充值场景、外卖场景等。这些场景可以通过相关平台链接跳转到当前支付平台，也可以通过嵌入支付平台的小程序或微应用进入。支付渠道例如可以是信用卡支付、储蓄卡支付、网贷平台支付等等。各种支付渠道下又可以链接多种子支付渠道，例如储蓄卡支付渠道可以对应各个银行的子支付渠道。
[0003]实践中，各个支付渠道为了维护自身的用户群体或对用户进行激励，可能会提供一些权益，例如红包奖励、随机减免、消费积分等等。这些权益对不同用户而言，也有着不同的意义。为了向用户提供更合适的权益，通常利用机器学习模型进行权益推送。常规技术中，对机器学习模型的建模方式通常有统一建模和针对不同场景各自建模两种。统一模型适用于历史数据丰富的场景，对于数据不足或无数据的场景效果较差，可能无法达到业务的要求，并且训练流程可能较复杂，并需要不断收集数据重训模型。针对不同场景各自建模则通常需要维护多个模型，例如模型数与场景数相等，训练及维护成本高，并且当场景数据较少时无法训练模型或训练的模型不够准确。为此，提供一种能够统一适用于各种场景，并且对新场景或数据较少的场景也具有较好适应能力的权益推送方式，具有重大的...

【技术保护点】

【技术特征摘要】
1.一种更新权益决策模型的方法，所述权益决策模型包括业务编码网络，以及通过强化学习实现的智能体，该智能体包括决策模块和策略评估模块；所述方法包括：从样本集中采集m个业务场景下与所述决策模块的当前策略一致的N1条业务数据样本，N1＞m，单个业务场景采集有多条业务数据样本，单条业务数据样本对应以下四元参数组：第一用户状态s、执行的推送策略a、当前收益r、用户基于对a的响应从s转变后的第二用户状态s＇；通过业务编码网络处理所述N1条业务数据样本，从而分别针对m个业务场景，得到相应的m个编码向量；从样本集中采集所述m个业务场景下的N2条业务数据样本；针对N2条业务数据样本中的单条业务数据样本，将其对应的业务场景下的编码向量及第一用户状态s通过决策模块进行决策，并通过策略评估模块对决策结果的评估确定模型损失，从而调整所述业务编码网络、所述决策模块和所述策略评估模块中的模型参数。2.根据权利要求1所述的方法，其中，所述从样本集中采集m个业务场景下与所述决策模块的当前策略一致的N1条业务数据样本包括：利用m个业务场景分别对应的m个当前的编码向量，以及所述决策模块的当前参数，针对样本集中的各条业务数据样本分别预测各个样本推送权益a＇；确定相应的样本推送权益a＇和执行的推送策略a一致的业务数据样本与所述决策模块的当前策略一致。3.根据权利要求1或2所述的方法，其中，所述N1条业务数据样本包括，针对单个业务场景，按照时间从近到远的顺序从样本集中与所述决策模块的当前策略一致的业务数据样本中采样的多条业务数据样本。4.根据权利要求1所述的方法，其中，所述决策结果包括对各个候选推送权益进行选择的第一概率分布；所述通过策略评估模块对决策结果的评估确定模型损失，从而调整所述业务编码网络、所述决策模块和所述策略评估模块进一步包括：通过策略评估模块中的状态值函数确定N2条业务数据分别对应的长期收益估计值的各个第二概率分布；以N2条业务数据样本各自的第一概率分布和第二概率分布相一致为目标确定第三损失，从而通过最小化第三损失调整决策模块的参数。5.根据权利要求1所述的方法，其中，所述策略评估模块通过策略评估模块对决策结果的评估通过预先确定的值函数进行，所述值函数包括状态值函数和动作状态值函数，所述动作状态值函数用于根据单条业务数据样本中的第一用户状态s、对应的业务场景下的编码向量执行各种推送策略确定第一收益值Q，所述状态值函数用于根据单条业务数据样本中的第二用户状态s＇、对应的业务场景下的编码向量执行各种推送策略确定第二收益值V；所述通过策略评估模块对决策结果的评估确定模型损失，从而调整所述业务编码网络、所述决策模块和所述策略评估模块进一步包括：针对N2条业务数据样本中的单条业务数据，分别确定第一收益值Q、第二收益值V，并确定第二收益值V和当前收益r之和与第一收益值Q之间的收益差值；根据对N2个收益差值进行融合得到的收益差值的期望，确定第二损失；以最小化第二损失为目标，调整策略评估模块中的模型参数。
6.根据权利要求5所述的方法，其中，所述通过策略评估模块对决策结果的评估确定模型损失，从而调整所述业务编码网络、所述决策模块和所述策略评估模块进一步包括：以各个编码向量的后验分布分别接近预定先验分布为目标确定第一损失；通过第二损失和第一损失之和确定编码损失，从而以最小化编码损失为目标调整编码网络的参数。7.根据权利要求6所述的方法，其中，最小化编码损失通过计算各个模型参数的梯度方式进行，编码损失中第二收益值为依据当前的编码向量和第二用户状态s＇得到的确定值。8.根据权利要求6所述的方法，其中，所述预定先验分布为高斯分布。9.根据权利要求8所述的方法，其中，所述业务编码网络针对单个业务场景通过以下方式进行编码：针对单个业务场景下的各个业务数据样本，分别确定相应的各个高斯因子，单个高斯因子的均值和方差由第一神经网络对相应业务数据样本的四元参数组进行处理得到；利用对各个高斯因子按照乘积方式的拟合，得到单个业务场景对应的业务编码向量。10.根据权利要求1所述的方法，其中，所述N2条业务数据样本从整个样本集中随机采样确定。11.一种权益推送的方法，通用于多种业务场景，用于从多个...

【专利技术属性】
技术研发人员：徐海瑞，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人