策略组合的优化方法及装置制造方法及图纸

技术编号:33498024 阅读:60 留言:0更新日期:2022-05-19 01:08
本说明书实施例提供一种策略组合的优化方法及装置。所述方法涉及对用于识别风险用户的策略组合的多轮次迭代更新,其中任一轮次包括:在当前策略组合的基础上分别添加多个可选策略,得到多个第一策略组合;对伯努利分布进行随机采样;在采样结果指示本轮接受次优策略的情况下,基于所述多个第一策略组合随机选取某个第一策略组合,作为本轮更新后的当前策略组合。组合。组合。

【技术实现步骤摘要】
策略组合的优化方法及装置


[0001]本说明书一个或多个实施例涉及计算机
,尤其涉及一种策略组合的优化方法及装置。

技术介绍

[0002]随着社会的发展和科技的进步,涌现出越来越多的业务平台,为用户提供各种服务,以满足用户在生活、工作中的各种需求。在业务平台向用户提供服务的过程中,往往涉及利用预先制定的策略进行与服务相关的决策,例如,信贷平台利用预设策略判别某个用户是否为风险用户,从而决策是否向其提供信用贷款服务。
[0003]实际,为优化决策效果,会对多个策略进行组合使用,因此,需要一种方案,能够从策略池中挑选出足够优良的策略子集,以有效提高业务决策效果。

技术实现思路

[0004]本说明书一个或多个实施例描述策略组合的优化方法及装置,在策略组合的迭代过程中引入接受概率,使得多次迭代中不总是添加最优解,而是一定概率接受次优策略,从而增大找到最优策略组合的概率。
[0005]根据第一方面,提供一种策略组合的优化方法,涉及对用于识别风险用户的策略组合的多轮次迭代更新,其中任一轮次包括:在当前策略组合的基础上分别添加多个可选策略,得到多个第一策略组合;对伯努利分布进行随机采样;在采样结果指示本轮接受次优策略的情况下,基于所述多个第一策略组合随机选取某个第一策略组合,作为本轮更新后的当前策略组合。
[0006]在一个实施例中,在当前策略组合的基础上分别添加多个可选策略,得到多个第一策略组合,包括:针对策略总集中未被包含在所述当前策略组合中的各个可选策略,将其分别添加至该当前策略组合,得到多个第一策略组合。
[0007]在一个实施例中,对伯努利分布进行随机采样,包括:根据本轮对应的轮次数,确定本轮接受次优策略的概率,此概率与所述轮次数负相关;对以所述概率为参数的伯努利分布进行所述随机采样。
[0008]在一个实施例中,对伯努利分布进行随机采样,包括:确定各个第一策略组合针对多个风险用户样本的识别效果评分;根据所述多个第一策略组合对应的多个识别效果评分中最小值减去最大值而得到的差值,确定所述概率,此概率与所述差值正相关;对以所述概率为参数的伯努利分布进行所述随机采样。
[0009]在一个实施例中,基于所述多个第一策略组合随机选取某个第一策略组合,包括:根据各个第一策略组合针对多个风险用户样本的识别效果评分,从所述多个第一策略组合中确定出识别效果评分排在预设名次范围内的多个第二策略组合;从所述多个第二策略组合中随机选取出某个第二策略组合,对应某个第一策略组合。
[0010]在一个具体的实施例中,从所述多个第二策略组合中随机选取出某个第二策略组
合,包括:确定各个第二策略组合本轮被选中的概率,形成对应的概率分布;通过对所述概率分布进行随机抽样,得到所述某个第二策略组合。
[0011]进一步,在一个示例中,确定各个第二策略组合本轮被选中的概率,包括:针对所述各个第二策略组合,根据其识别效果评分确定其本轮被选中的概率,此概率与其识别效果评分正相关。
[0012]在另一个示例中,确定各个第二策略组合本轮被选中的概率,形成对应的概率分布,包括:根据所述多个第二策略组合的数量,确定所述各个第二策略组合本轮被选中的概率,形成均匀分布。
[0013]在一个具体的实施例中,在对伯努利分布进行随机采样后,还包括:在采样结果指示本轮不接受次优策略的情况下,根据各个第一策略组合针对多个风险用户样本的识别效果评分,选取识别效果评分最高的第一策略组合,作为本轮更新后的当前策略组合。
[0014]根据第二方面,提供一种策略组合的优化方法,涉及对用于执行目标判别任务的策略组合的多轮次迭代更新,其中任一轮次包括:在当前策略组合的基础上分别添加多个可选策略,得到多个第一策略组合;对伯努利分布进行随机采样;在采样结果指示本轮接受次优策略的情况下,基于所述多个第一策略组合随机选取某个第一策略组合,作为本轮更新后的当前策略组合。
[0015]在一个实施例中,对伯努利分布进行随机采样,包括:确定各个第一策略组合针对多个任务标注样本的识别效果评分;根据所述多个第一策略组合对应的多个识别效果评分中最小值减去最大值而得到的差值,确定所述概率,此概率与所述差值正相关;对以所述概率为参数的伯努利分布进行所述随机采样。
[0016]根据第三方面,提供一种策略组合的优化装置,所述装置通过其包含的以下单元,执行对用于识别风险用户的策略组合的多轮次迭代更新中的任一轮次:策略添加单元,配置为在当前策略组合的基础上分别添加多个可选策略,得到多个第一策略组合;随机采样单元,配置为对伯努利分布进行随机采样;组合更新单元,配置为在采样结果指示本轮接受次优策略的情况下,基于所述多个第一策略组合随机选取某个第一策略组合,作为本轮更新后的当前策略组合。
[0017]在一个实施例中,所述随机采样单元具体配置为:确定各个第一策略组合针对多个风险用户样本的识别效果评分;根据所述多个第一策略组合对应的多个识别效果评分中最小值减去最大值而得到的差值,确定所述概率,此概率与所述差值正相关;对以所述概率为参数的伯努利分布进行所述随机采样。
[0018]根据第四方面,提供一种策略组合的优化装置,所述装置通过其包含的以下单元,对用于执行目标判别任务的策略组合进行多轮次迭代更新中的任一轮次:策略添加单元,配置为在当前策略组合的基础上分别添加多个可选策略,得到多个第一策略组合;随机采样单元,配置为对伯努利分布进行随机采样;组合更新单元,配置为在采样结果指示本轮接受次优策略的情况下,基于所述多个第一策略组合随机选取某个第一策略组合,作为本轮更新后的当前策略组合。
[0019]在一个实施例中,所述随机采样单元具体配置为:确定各个第一策略组合针对多个任务标注样本的识别效果评分;根据所述多个第一策略组合对应的多个识别效果评分中最小值减去最大值而得到的差值,确定所述概率,此概率与所述差值正相关;对以所述概率
为参数的伯努利分布进行所述随机采样。
[0020]根据第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面或第二方面的方法。
[0021]根据第六方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,该处理器执行所述可执行代码时,实现第一方面或第二方面的方法。
[0022]采用本说明书实施例提供的方法和装置,在对用于识别风险用户的策略组合进行迭代的过程中引入接受概率,使得多次迭代中不总是添加最优概率,而是以一定概率接受次优策略,从而使得算法能够跳出局部最优,逼近或找到全局最优的策略组合,进而有效提升针对风险用户的识别效果。
附图说明
[0023]为了更清楚地说明本专利技术实施例的技术方案,下面对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。...

【技术保护点】

【技术特征摘要】
1.一种策略组合的优化方法,涉及对用于识别风险用户的策略组合的多轮次迭代更新,其中任一轮次包括:在当前策略组合的基础上分别添加多个可选策略,得到多个第一策略组合;对伯努利分布进行随机采样;在采样结果指示本轮接受次优策略的情况下,基于所述多个第一策略组合随机选取某个第一策略组合,作为本轮更新后的当前策略组合。2.根据权利要求1所述的方法,其中,在当前策略组合的基础上分别添加多个可选策略,得到多个第一策略组合,包括:针对策略总集中未被包含在所述当前策略组合中的各个可选策略,将其分别添加至该当前策略组合,得到多个第一策略组合。3.根据权利要求1所述的方法,其中,对伯努利分布进行随机采样,包括:根据本轮对应的轮次数,确定本轮接受次优策略的概率,此概率与所述轮次数负相关;对以所述概率为参数的伯努利分布进行所述随机采样。4.根据权利要求1所述的方法,其中,对伯努利分布进行随机采样,包括:确定各个第一策略组合针对多个风险用户样本的识别效果评分;根据所述多个第一策略组合对应的多个识别效果评分中最小值减去最大值而得到的差值,确定所述概率,此概率与所述差值正相关;对以所述概率为参数的伯努利分布进行所述随机采样。5.根据权利要求1所述的方法,其中,基于所述多个第一策略组合随机选取某个第一策略组合,包括:根据各个第一策略组合针对多个风险用户样本的识别效果评分,从所述多个第一策略组合中确定出识别效果评分排在预设名次范围内的多个第二策略组合;从所述多个第二策略组合中随机选取出某个第二策略组合,对应某个第一策略组合。6.根据权利要求5所述的方法,其中,从所述多个第二策略组合中随机选取出某个第二策略组合,包括:确定各个第二策略组合本轮被选中的概率,形成对应的概率分布;通过对所述概率分布进行随机抽样,得到所述某个第二策略组合。7.根据权利要求6所述的方法,其中,确定各个第二策略组合本轮被选中的概率,包括:针对所述各个第二策略组合,根据其识别效果评分确定其本轮被选中的概率,此概率与其识别效果评分正相关。8.根据权利要求6所述的方法,其中,确定各个第二策略组合本轮被选中的概率,形成对应的概率分布,包括:根据所述多个第二策略组合的数量,确定所述各个第二策略组合本轮被选中的概率,形成均匀分布。9.根据权利要求1所述的方法,其中,在对伯努利分布进行随机采样后,还包括:在采样结果指示本轮不接受次优策略的情况下,根据各个第一策略组合针对多个风险用户样本的识别效果评分,选取识别效果评分最高的第一策略组合,作为本轮更新后的当前策略组合。10.一种策略组合的优化方法,涉及对用于执行目标判别任务的策略组合的多轮次迭
代更新,其中任一轮次...

【专利技术属性】
技术研发人员:顾咏丰丁皓吴华
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1