数据筛选方法及装置制造方法及图纸

技术编号:26478653 阅读:18 留言:0更新日期:2020-11-25 19:22
本说明书提供数据筛选方法及装置,其中数据筛选方法包括:获取待审核业务数据,为待审核业务数据构造抽样审核标识序列,并以抽样审核标识序列作为亲代样本;对亲代样本进行交叉操作,确定交叉样本;并对交叉样本进行变异操作,确定变异样本;将继承样本、交叉样本和变异样本确定为子代样本;将子代样本作为亲代样本迭代执行确定继承样本、交叉样本和变异样本的步骤,在满足迭代停止条件的情况下,根据当前最优样本确定待审核业务数据中的目标审核业务数据。该目标审核业务数据代表最少需要治理的业务数据,后续只需要对该目标审核业务数据进行合规性治理即可,无需对全部的待审核业务数据一一进行审核治理,大大节省了时间。

【技术实现步骤摘要】
数据筛选方法及装置
本说明书涉及数据处理
,特别涉及数据筛选方法及装置。
技术介绍
随着计算机技术和网络技术的快速发展,网络活动越来越频繁,相应产生了大量的数据。为了监管和规范网络环境下的各种行业活动,监管机构要求网络活动的相关数据满足合规性要求。然而,网络活动的相关数据都较为庞大,如果一一治理,需要耗费极多的时间,可能无法在监管机构要求的期限内,达到合规性要求。因而亟需一种可以对待审核业务数据进行筛选的操作或者处理的方法。
技术实现思路
有鉴于此,本说明书实施例提供了一种数据筛选方法。本说明书同时涉及一种数据筛选装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。根据本说明书实施例的第一方面,提供了一种数据筛选方法,包括:获取待审核业务数据,为所述待审核业务数据构造抽样审核标识序列,并以所述抽样审核标识序列作为亲代样本,其中,所述抽样审核标识序列的长度与所述待审核业务数据的个数相同,所述抽样审核标识序列中的每一位与一个待审核业务数据对应;确定所述亲代样本中的继承样本;对所述亲代样本进行交叉操作,确定交叉样本;并对所述交叉样本进行变异操作,确定变异样本;将所述继承样本、交叉样本和变异样本确定为子代样本;将所述子代样本作为亲代样本迭代执行确定继承样本、交叉样本和变异样本的步骤,在满足迭代停止条件的情况下,根据当前最优样本确定所述待审核业务数据中的目标审核业务数据。可选的,所述为所述待审核业务数据构造抽样审核标识序列,包括:根据所述待审核业务数据的个数,通过预先存储的业务数据的个数与抽样审核标识序列的个数之间的对应关系,确定对应的目标个数;为所述待审核业务数据构造所述目标个数个抽样审核标识序列。可选的,所述确定所述亲代样本中的继承样本,包括:确定每个所述亲代样本的适应度;根据所述适应度,从所述亲代样本中确定所述继承样本。可选的,所述确定每个所述亲代样本的适应度,包括:针对任一亲代样本,确定所述亲代样本中第一标识的个数;确定所述待审核业务数据的约束指标,根据所述亲代样本中包括的标识序列和对应的待审核业务数据的约束指标,确定阈值参数;根据所述第一标识的个数和所述阈值参数,确定所述亲代样本的适应度。可选的,所述对所述亲代样本进行交叉操作,确定交叉样本,包括:从所述亲代样本中任意选取两个第一目标样本;针对选取的所述两个第一目标样本,按照预设交叉规则进行交叉,确定一个交叉样本;循环执行确定一个交叉样本的步骤,直至确定第一预设数值个交叉样本。可选的,所述针对选取的所述两个第一目标样本,按照预设交叉规则进行交叉,确定一个交叉样本,包括:确定交叉位点;从所述两个第一目标样本中的一个目标样本中抽取所述交叉位点之前的标识,并从所述两个目标样本中的另一个目标样本中抽取所述交叉位点之后的标识;将抽取的所述标识组成的标识序列确定为所述交叉样本。可选的,所述对所述交叉样本进行变异操作,确定变异样本,包括:从所述交叉样本中任意选取一个第二目标样本;针对所述第二目标样本,按照预设变异规则对所述第二目标样本中包括的标识进行变异操作,确定一个变异样本;循环执行确定一个变异样本的步骤,直至确定第二预设数值个变异样本。可选的,所述按照预设变异规则对所述第二目标样本中包括的标识进行变异操作,确定一个变异样本,包括:从所述第二目标样本中选取第三预设数值个变异标识;为所述第二目标样本重新构造第三预设数值个替换标识;针对所述第二目标样本,用所述替换标识替换所述变异标识,确定所述变异样本。可选的,所述在满足迭代停止条件的情况下,根据当前最优样本确定所述待审核业务数据中的目标审核业务数据,包括:在迭代至预设迭代次数的情况下,确定子代样本中最优样本和最差样本之间的适应度差值,所述最优样本为适应度最高的样本,所述最差样本为适应度最低的样本;在所述适应度差值小于预设阈值的情况下,确定满足所述迭代停止条件,将当前最优样本对应的待审核业务数据确定为所述目标审核业务数据。根据本说明书实施例的第二方面,提供了一种数据筛选装置,包括:构造模块,被配置为获取待审核业务数据,为所述待审核业务数据构造抽样审核标识序列,并以所述抽样审核标识序列作为亲代样本,其中,所述抽样审核标识序列的长度与所述待审核业务数据的个数相同,所述抽样审核标识序列中的每一位与一个待审核业务数据对应;第一确定模块,被配置为确定所述亲代样本中的继承样本;对所述亲代样本进行交叉操作,确定交叉样本;并对所述交叉样本进行变异操作,确定变异样本;第二确定模块,被配置为将所述继承样本、交叉样本和变异样本确定为子代样本;第三确定模块,被配置为将所述子代样本作为亲代样本迭代执行确定继承样本、交叉样本和变异样本的步骤,在满足迭代停止条件的情况下,根据当前最优样本确定所述待审核业务数据中的目标审核业务数据。根据本说明书实施例的第三方面,提供了一种计算设备,包括:存储器和处理器;所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现下述方法:获取待审核业务数据,为所述待审核业务数据构造抽样审核标识序列,并以所述抽样审核标识序列作为亲代样本,其中,所述抽样审核标识序列的长度与所述待审核业务数据的个数相同,所述抽样审核标识序列中的每一位与一个待审核业务数据对应;确定所述亲代样本中的继承样本;对所述亲代样本进行交叉操作,确定交叉样本;并对所述交叉样本进行变异操作,确定变异样本;将所述继承样本、交叉样本和变异样本确定为子代样本;将所述子代样本作为亲代样本迭代执行确定继承样本、交叉样本和变异样本的步骤,在满足迭代停止条件的情况下,根据当前最优样本确定所述待审核业务数据中的目标审核业务数据。根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述数据筛选方法的步骤。本说明书提供的数据筛选方法,可以在获取待审核业务数据后,为待审核业务数据构造抽样审核标识序列,并以该抽样审核标识序列作为亲代样本,其中,该抽样审核标识序列的长度与待审核业务数据的个数相同,抽样审核标识序列中的每一位与一个待审核业务数据对应;然后,确定亲代样本中的继承样本;对亲代样本进行交叉操作,确定交叉样本;并对交叉样本进行变异操作,确定变异样本;将继承样本、交叉样本和变异样本确定为子代样本;之后,将子代样本作为亲代样本迭代执行确定继承样本、交叉样本和变异样本的步骤,在满足迭代停止条件的情况下,根据当前最优样本确定待审核业务数据中的目标审核业务数据。这种情况下,可以为待审核业务数据构造抽样审核标识序列,并基于此选出待审核业务数据中的目标审核业务数据,该目标审核业务数据代表要满足监管机构的合规性要求,最少需要治理本文档来自技高网...

【技术保护点】
1.一种数据筛选方法,包括:/n获取待审核业务数据,为所述待审核业务数据构造抽样审核标识序列,并以所述抽样审核标识序列作为亲代样本,其中,所述抽样审核标识序列的长度与所述待审核业务数据的个数相同,所述抽样审核标识序列中的每一位与一个待审核业务数据对应;/n确定所述亲代样本中的继承样本;对所述亲代样本进行交叉操作,确定交叉样本;并对所述交叉样本进行变异操作,确定变异样本;/n将所述继承样本、交叉样本和变异样本确定为子代样本;/n将所述子代样本作为亲代样本迭代执行确定继承样本、交叉样本和变异样本的步骤,在满足迭代停止条件的情况下,根据当前最优样本确定所述待审核业务数据中的目标审核业务数据。/n

【技术特征摘要】
1.一种数据筛选方法,包括:
获取待审核业务数据,为所述待审核业务数据构造抽样审核标识序列,并以所述抽样审核标识序列作为亲代样本,其中,所述抽样审核标识序列的长度与所述待审核业务数据的个数相同,所述抽样审核标识序列中的每一位与一个待审核业务数据对应;
确定所述亲代样本中的继承样本;对所述亲代样本进行交叉操作,确定交叉样本;并对所述交叉样本进行变异操作,确定变异样本;
将所述继承样本、交叉样本和变异样本确定为子代样本;
将所述子代样本作为亲代样本迭代执行确定继承样本、交叉样本和变异样本的步骤,在满足迭代停止条件的情况下,根据当前最优样本确定所述待审核业务数据中的目标审核业务数据。


2.根据权利要求1所述的数据筛选方法,所述为所述待审核业务数据构造抽样审核标识序列,包括:
根据所述待审核业务数据的个数,通过预先存储的业务数据的个数与抽样审核标识序列的个数之间的对应关系,确定对应的目标个数;
为所述待审核业务数据构造所述目标个数个抽样审核标识序列。


3.根据权利要求1所述的数据筛选方法,所述确定所述亲代样本中的继承样本,包括:
确定每个所述亲代样本的适应度;
根据所述适应度,从所述亲代样本中确定所述继承样本。


4.根据权利要求3所述的数据筛选方法,所述确定每个所述亲代样本的适应度,包括:
针对任一亲代样本,确定所述亲代样本中第一标识的个数;
确定所述待审核业务数据的约束指标,根据所述亲代样本中包括的标识序列和对应的待审核业务数据的约束指标,确定阈值参数;
根据所述第一标识的个数和所述阈值参数,确定所述亲代样本的适应度。


5.根据权利要求1所述的数据筛选方法,所述对所述亲代样本进行交叉操作,确定交叉样本,包括:
从所述亲代样本中任意选取两个第一目标样本;
针对选取的所述两个第一目标样本,按照预设交叉规则进行交叉,确定一个交叉样本;
循环执行确定一个交叉样本的步骤,直至确定第一预设数值个交叉样本。


6.根据权利要求5所述的数据筛选方法,所述针对选取的所述两个第一目标样本,按照预设交叉规则进行交叉,确定一个交叉样本,包括:
确定交叉位点;
从所述两个第一目标样本中的一个目标样本中抽取所述交叉位点之前的标识,并从所述两个目标样本中的另一个目标样本中抽取所述交叉位点之后的标识;
将抽取的所述标识组成的标识序列确定为所述交叉样本。


7.根据权利要求1、5或6所述的数据筛选方法,所述对所述交叉样本进行变异操作,确定变异样本,包括:
从所述交叉样本中任意选取一个第二目标样本;
针对所述第二目标样本,按照预设变异规则对所述第二目标样本中包括的标识进行变异操作,确定一个变异样本;
循环执行确定...

【专利技术属性】
技术研发人员:单硕陈琪
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1