利用业务决策模型进行决策处理的方法及装置制造方法及图纸

技术编号:24997533 阅读:23 留言:0更新日期:2020-07-24 17:59
本说明书实施例提供一种利用业务决策模型进行决策处理的方法及装置。在该方法中,服务平台可以获取第一业务处理请求,确定第一业务处理请求的第一业务特征;将第一业务特征输入利用强化学习得到的业务决策模型,得到第一业务处理请求针对多个决策行为的第一得分分布;利用多个历史业务处理请求,确定针对第一业务处理请求的决策干预系数,利用决策干预系数,对第一得分分布进行干预处理,得到针对多个决策行为的第二得分分布;基于第二得分分布,从多个决策行为中确定针对第一业务处理请求的决策行为。

【技术实现步骤摘要】
利用业务决策模型进行决策处理的方法及装置
本说明书一个或多个实施例涉及机器学习
,尤其涉及一种利用业务决策模型进行决策处理的方法及装置。
技术介绍
服务平台可以向用户提供各种服务,其中包括支付服务、访问服务等,例如支付平台向用户提供对商家的支付服务、转账支付服务等,网站平台向用户提供的网站访问服务等。服务平台为了减少服务中存在的风险,可以对针对各种服务的业务处理请求进行风险评估,确定针对该业务处理请求实施怎样的处理决策,例如是应该拦截、警告、提醒还是直接放行等等。并且,服务平台在一定时间内会接收到很多的业务处理请求,在整体上,服务平台会希望针对大量的业务处理请求,在各个决策行为上的占比基本固定,比如要求拦截占10%,警告占20%,提醒占30%,直接放行占40%。因此,希望能有改进的方案,可以更加有效地对每个业务处理请求进行决策,使得大量决策在整体上满足预定的决策行为分布。
技术实现思路
本说明书一个或多个实施例描述了利用业务决策模型进行决策处理的方法及装置,以更加有效地对每个业务处理请求进行决策,使得大量决策在整体上满足预定的决策行为分布。具体的技术方案如下。第一方面,实施例提供了一种利用业务决策模型进行决策处理的方法,通过服务平台执行,所述方法包括:获取第一业务处理请求,确定所述第一业务处理请求的第一业务特征;将所述第一业务特征输入利用强化学习得到的业务决策模型,得到所述第一业务处理请求针对多个决策行为的第一得分分布;利用多个历史业务处理请求,确定针对所述第一业务处理请求的决策干预系数,其包含针对所述多个决策行为的干预系数分布;利用所述决策干预系数,对所述第一得分分布进行干预处理,得到针对所述多个决策行为的第二得分分布;基于所述第二得分分布,从所述多个决策行为中确定针对所述第一业务处理请求的决策行为。在一种实施方式中,所述利用所述决策干预系数,对所述第一得分分布进行干预处理的步骤,包括:针对所述第一得分分布中每个决策行为的第一得分,基于所述第一得分与所述决策干预系数中该决策行为对应的干预系数的乘积,得到该决策行为对应的第二得分,进而得到针对所述多个决策行为的第二得分分布。在一种实施方式中,所述基于所述第二得分分布,从所述多个决策行为中确定针对所述第一业务处理请求的决策行为的步骤,包括:基于所述第二得分分布,利用贪婪算法,确定所述第一业务处理请求针对所述多个决策行为的收益分布;基于所述收益分布,从所述多个决策行为中确定针对所述第一业务处理请求的决策行为。在一种实施方式中,所述利用多个历史业务处理请求,确定针对所述第一业务处理请求的决策干预系数的步骤,包括:将所述第一业务特征输入预先训练的决策系数模型,得到所述第一业务处理请求针对所述多个决策行为的第三得分分布;其中,所述决策系数模型基于对多个历史业务处理请求,以及每个历史业务处理请求针对多个决策行为的得分分布进行训练得到;基于所述第三得分分布确定针对所述第一业务处理请求的决策干预系数。在一种实施方式中,所述决策系数模型采用以下方式训练得到:将所述多个历史业务处理请求确定为训练样本;其中,所述多个历史业务处理请求对应的业务特征为样本特征,每个历史业务处理请求针对多个决策行为的得分分布为对应的训练样本的样本标签;将所述训练样本的样本特征输入决策系数模型,得到所述训练样本针对所述多个决策行为的预测得分分布;基于所述预测得分分布与对应的样本标签中的得分分布之间的差异,确定损失值;向减小所述损失值的方向,更新所述决策系数模型。在一种实施方式中,所述利用多个历史业务处理请求,确定针对所述第一业务处理请求的决策干预系数的步骤,包括:获取采用以下方式确定的决策干预系数,作为针对所述第一业务处理请求的决策干预系数:获取针对每个历史业务处理请求的决策行为;在多个历史业务处理请求及对应的决策行为中,统计每一种决策行为对应的历史业务处理请求的数目,得到多个决策行为的分布数据;对所述多个决策行为的分布数据进行归一化,得到决策干预系数。在一种实施方式中,第一业务处理请求包括:支付交易请求或访问请求。在一种实施方式中,所述第一业务特征包括支付方特征、被支付方特征、支付场景特征中的至少一种;或者,所述第一业务特征包括访问方特征、被访问方特征、访问场景特征中的至少一种;所述多个决策行为包括以下中的至少两种:拦截、警告、提醒、直接放行。在一种实施方式中,所述业务决策模型采用基于上下文的多臂老虎机模型或者模型DQN训练得到。在一种实施方式中,所述决策系数模型采用以下模型中的一种实现:逻辑回归模型、梯度提升迭代决策树GBDT、模型XGB和深度神经网络DNN模型。第二方面,实施例提供了一种利用业务决策模型进行决策处理的装置,部署在服务平台中,所述装置包括:请求获取模块,配置为,获取第一业务处理请求,确定所述第一业务处理请求的第一业务特征;得分确定模块,配置为,将所述第一业务特征输入利用强化学习得到的业务决策模型,得到第一业务处理请求针对多个决策行为的第一得分分布;系数确定模块,配置为,利用多个历史业务处理请求,确定针对所述第一业务处理请求的决策干预系数,其包含针对多个决策行为的干预系数分布;得分干预模块,配置为,利用所述决策干预系数,对所述第一得分分布进行干预处理,得到针对所述多个决策行为的第二得分分布;决策确定模块,配置为基于所述第二得分分布,从所述多个决策行为中确定针对所述第一业务处理请求的决策行为。在一种实施方式中,所述得分干预模块,具体配置为:针对所述第一得分分布中每个决策行为的第一得分,基于所述第一得分与所述决策干预系数中该决策行为对应的干预系数的乘积,得到该决策行为对应的第二得分,进而得到针对所述多个决策行为的第二得分分布。在一种实施方式中,所述决策确定模块,具体配置为:基于所述第二得分分布,利用贪婪算法,确定所述第一业务处理请求针对所述多个决策行为的收益分布;基于所述收益分布,从所述多个决策行为中确定针对所述第一业务处理请求的决策行为。在一种实施方式中,所述系数确定模块,具体配置为:将所述第一业务特征输入预先训练的决策系数模型,得到所述第一业务处理请求针对所述多个决策行为的第三得分分布;其中,所述决策系数模型基于对多个历史业务处理请求,以及每个历史业务处理请求针对多个决策行为的得分分布进行训练得到;基于所述第三得分分布确定针对所述第一业务处理请求的决策干预系数。在一种实施方式中,还包括模型训练模块,配置为采用以下方式训练得到所述决策系数模型:将所述多个历史业务处理请求确定为训练样本;其中,所述多个历史业务处理请求对应的业务特征为样本特征,每个历史业务处理请求针对多个决策行为的得分分布为对应的训练样本的样本标签;将所述训练样本的样本特征输入决本文档来自技高网...

【技术保护点】
1.一种利用业务决策模型进行决策处理的方法,通过服务平台执行,所述方法包括:/n获取第一业务处理请求,确定所述第一业务处理请求的第一业务特征;/n将所述第一业务特征输入利用强化学习得到的业务决策模型,得到所述第一业务处理请求针对多个决策行为的第一得分分布;/n利用多个历史业务处理请求,确定针对所述第一业务处理请求的决策干预系数,其包含针对所述多个决策行为的干预系数分布;/n利用所述决策干预系数,对所述第一得分分布进行干预处理,得到针对所述多个决策行为的第二得分分布;/n基于所述第二得分分布,从所述多个决策行为中确定针对所述第一业务处理请求的决策行为。/n

【技术特征摘要】
1.一种利用业务决策模型进行决策处理的方法,通过服务平台执行,所述方法包括:
获取第一业务处理请求,确定所述第一业务处理请求的第一业务特征;
将所述第一业务特征输入利用强化学习得到的业务决策模型,得到所述第一业务处理请求针对多个决策行为的第一得分分布;
利用多个历史业务处理请求,确定针对所述第一业务处理请求的决策干预系数,其包含针对所述多个决策行为的干预系数分布;
利用所述决策干预系数,对所述第一得分分布进行干预处理,得到针对所述多个决策行为的第二得分分布;
基于所述第二得分分布,从所述多个决策行为中确定针对所述第一业务处理请求的决策行为。


2.根据权利要求1所述的方法,所述利用所述决策干预系数,对所述第一得分分布进行干预处理的步骤,包括:
针对所述第一得分分布中每个决策行为的第一得分,基于所述第一得分与所述决策干预系数中该决策行为对应的干预系数的乘积,得到该决策行为对应的第二得分,进而得到针对所述多个决策行为的第二得分分布。


3.根据权利要求1所述的方法,所述基于所述第二得分分布,从所述多个决策行为中确定针对所述第一业务处理请求的决策行为的步骤,包括:
基于所述第二得分分布,利用贪婪算法,确定所述第一业务处理请求针对所述多个决策行为的收益分布;
基于所述收益分布,从所述多个决策行为中确定针对所述第一业务处理请求的决策行为。


4.根据权利要求1所述的方法,所述利用多个历史业务处理请求,确定针对所述第一业务处理请求的决策干预系数的步骤,包括:
将所述第一业务特征输入预先训练的决策系数模型,得到所述第一业务处理请求针对所述多个决策行为的第三得分分布;其中,所述决策系数模型基于对多个历史业务处理请求,以及每个历史业务处理请求针对多个决策行为的得分分布进行训练得到;
基于所述第三得分分布确定针对所述第一业务处理请求的决策干预系数。


5.根据权利要求4所述的方法,所述决策系数模型采用以下方式训练得到:
将所述多个历史业务处理请求确定为训练样本;其中,所述多个历史业务处理请求对应的业务特征为样本特征,每个历史业务处理请求针对多个决策行为的得分分布为对应的训练样本的样本标签;
将所述训练样本的样本特征输入决策系数模型,得到所述训练样本针对所述多个决策行为的预测得分分布;
基于所述预测得分分布与对应的样本标签中的得分分布之间的差异,确定损失值;
向减小所述损失值的方向,更新所述决策系数模型。


6.根据权利要求1所述的方法,所述利用多个历史业务处理请求,确定针对所述第一业务处理请求的决策干预系数的步骤,包括:
获取采用以下方式确定的决策干预系数,作为针对所述第一业务处理请求的决策干预系数:
获取针对每个历史业务处理请求的决策行为;
在多个历史业务处理请求及对应的决策行为中,统计每一种决策行为对应的历史业务处理请求的数目,得到多个决策行为的分布数据;
对所述多个决策行为的分布数据进行归一化,得到决策干预系数。


7.根据权利要求1所述的方法,所述第一业务处理请求包括:支付交易请求或访问请求。


8.根据权利要求7所述的方法,所述第一业务特征包括支付方特征、被支付方特征、支付场景特征中的至少一种;或者,所述第一业务特征包括访问方特征、被访问方特征、访问场景特征中的至少一种;
所述多个决策行为包括以下中的至少两种:拦截、警告、提醒、直接放行。


9.根据权利要求1所述的方法,所述业务决策模型采用基于上下文的多臂老虎机模型或者模型DQN训练得到。


10.根据权利要求4所述的方法,所述决策系数模型采用以下模型中的一种实现:逻辑回归模型、梯度提升迭代决策树GBDT、模型XGB和深度神经网络DNN模型。


11.一种利用业务决策模型进行决策处理的装置,部署在服务平台中,所述装置包括:
请求获取模块,配置为,获取第一业务处理请...

【专利技术属性】
技术研发人员:尹红军王力周俊
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1