数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号:23558152 阅读:20 留言:0更新日期:2020-03-25 03:47
本发明专利技术涉及金融科技领域,本发明专利技术公开了一种数据处理方法、装置、设备及存储介质,所述数据处理方法包括:获取各特征分箱的分箱分位点,按照所述分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系;若检测到分箱调整指令,则根据所述分箱调整指令和所述对应关系,从各特征分箱中确定待调整分箱,以及所述待调整分箱的待调整特征数据块;对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果。本发明专利技术解决传统的分箱数据调整方法面对海量数据时,数据响应不及时导致数据处理效率低下的技术问题。

Data processing method, device, equipment and storage medium

【技术实现步骤摘要】
数据处理方法、装置、设备及存储介质
本专利技术涉及金融科技
,尤其涉及一种数据处理方法、装置、设备及存储介质。
技术介绍
随着计算机技术的发展,越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域,传统金融工业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。特征分箱是一种数据预处理技术,用于减少次要观察误差的影响,是一种将多个连续值分组为较少数量的“分箱”的方法。在现实使用过程中,用户会根据业务经验调整分箱结果,而分箱调整会导致箱子分位点发生变化,引起箱子内统计信息发生变化,从而需要重新统计。然而,当面对海量数据时,重新统计大量数据将导致统计过程变得繁重,使得统计过程过于耗时,大大降低了特征分箱的数据响应速度,造成数据响应不及时,导致运行性能大幅度降低,从而降低了系统的数据处理效率。
技术实现思路
本专利技术的主要目的在于提供一种数据处理方法、装置、设备及存储介质,旨在解决传统的分箱数据调整方法面对海量数据时,数据响应不及时导致数据处理效率低下的技术问题。为实现上述目的,本专利技术实施例提供一种数据处理方法,所述数据处理方法包括:获取各特征分箱的分箱分位点,按照所述分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系;若检测到分箱调整指令,则根据所述分箱调整指令和所述对应关系,从各特征分箱中确定待调整分箱,以及所述待调整分箱的待调整特征数据块;对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果。可选地,所述按照所述分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系,包括:对各特征分箱的特征数据块进行缓存处理,并按照分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系;所述对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果,包括:在缓存中对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果。可选地,所述在缓存中对所述待调整分箱和所述待调整特征数据块进行调整处理,包括:在缓存中获取所述待调整特征数据块的待调整分位点,并获取所述分箱调整指令的指令类型;根据所述指令类型、所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行缓存调整处理。可选地,所述根据所述指令类型、所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行缓存调整处理,包括:若所述指令类型为分箱拆分类型,则根据所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行拆分处理,以获得多个目标拆分分箱,以及各目标拆分分箱对应的目标拆分数据块;获取各目标拆分数据的第一统计信息,并根据各目标拆分分箱、各目标拆分分箱对应的目标拆分数据和各目标拆分数据对应的第一统计信息,生成缓存调整结果。可选地,所述根据所述指令类型、所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行缓存调整处理,包括:若所述指令类型为分箱合并类型,则根据所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行合并处理,以获得目标合并分箱,以及所述目标合并分箱对应的目标合并数据块;获取待调整分箱的第二统计信息,并对所述第二统计信息进行相加汇总,以生成目标统计信息;根据所述目标合并数据块和所述目标统计信息,生成缓存调整结果。可选地,所述对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果之后,还包括:统计调整处理结果中各特征分箱的信息价值;若信息价值大于或等于预设值,则确认调整处理效果合格;若信息价值小于预设值,则确认调整处理效果不合格。可选地,所述统计调整处理结果中各特征分箱的信息价值,包括:统计调整处理结果中各特征分箱的event值和non-event值,以获得woe值;根据所述event值、所述non-event值和所述woe值,以获得信息价值。本专利技术还提供一种数据处理装置,所述数据处理装置包括:关系模块,用于获取各特征分箱的分箱分位点,按照所述分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系;确定模块,用于若检测到分箱调整指令,则根据所述分箱调整指令和所述对应关系,从各特征分箱中确定待调整分箱,以及所述待调整分箱的待调整特征数据块;调整模块,用于对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果。可选地,所述关系模块包括:缓存处理单元,用于对各特征分箱的特征数据块进行缓存处理,并按照分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系;所述调整模块包括:缓存调整单元,用于在缓存中对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果。可选地,所述缓存调整单元包括:指令类型子单元,用于在缓存中获取所述待调整特征数据块的待调整分位点,并获取所述分箱调整指令的指令类型;缓存调整子单元,用于根据所述指令类型、所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行缓存调整处理。可选地,可选地,所述缓存调整子单元用于:若所述指令类型为分箱拆分类型,则根据所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行拆分处理,以获得多个目标拆分分箱,以及各目标拆分分箱对应的目标拆分数据块;获取各目标拆分数据的第一统计信息,并根据各目标拆分分箱、各目标拆分分箱对应的目标拆分数据和各目标拆分数据对应的第一统计信息,生成缓存调整结果。可选地,可选地,所述缓存调整子单元用于:若所述指令类型为分箱合并类型,则根据所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行合并处理,以获得目标合并分箱,以及所述目标合并分箱对应的目标合并数据块;获取待调整分箱的第二统计信息,并对所述第二统计信息进行相加汇总,以生成目标统计信息;根据所述目标合并数据块和所述目标统计信息,生成缓存调整结果。可选地,所述数据处理装置还包括:统计模块,用于统计调整处理结果中各特征分箱的信息价值;合格模块,用于若信息价值大于或等于预设值,则确认调整处理效果合格;不合格模块,用于若信息价值小于预设值,则确认调整处理效果不合格。可选地,所述统计模块包括:统计单元,用于统计调整处理结果中各特征分箱的event值和non-event值,以获得woe值;信息价值单元,用于根据所述event值本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,所述数据处理方法包括:/n获取各特征分箱的分箱分位点,按照所述分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系;/n若检测到分箱调整指令,则根据所述分箱调整指令和所述对应关系,从各特征分箱中确定待调整分箱,以及所述待调整分箱的待调整特征数据块;/n对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述数据处理方法包括:
获取各特征分箱的分箱分位点,按照所述分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系;
若检测到分箱调整指令,则根据所述分箱调整指令和所述对应关系,从各特征分箱中确定待调整分箱,以及所述待调整分箱的待调整特征数据块;
对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果。


2.如权利要求1所述的数据处理方法,其特征在于,所述按照所述分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系,包括:
对各特征分箱的特征数据块进行缓存处理,并按照分箱分位点对各特征分箱的特征数据块进行分组,以生成各特征分箱与各特征分箱的特征数据块之间的对应关系;
所述对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果,包括:
在缓存中对所述待调整分箱和所述待调整特征数据块进行调整处理,并输出调整处理结果。


3.如权利要求2所述的数据处理方法,其特征在于,所述在缓存中对所述待调整分箱和所述待调整特征数据块进行调整处理,包括:
在缓存中获取所述待调整特征数据块的待调整分位点,并获取所述分箱调整指令的指令类型;
根据所述指令类型、所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行缓存调整处理。


4.如权利要求3所述的数据处理方法,其特征在于,所述根据所述指令类型、所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行缓存调整处理,包括:
若所述指令类型为分箱拆分类型,则根据所述待调整分位点和所述分箱分位点,对所述待调整分箱和所述待调整特征数据块进行拆分处理,以获得多个目标拆分分箱,以及各目标拆分分箱对应的目标拆分数据块;
获取各目标拆分数据的第一统计信息,并根据各目标拆分分箱、各目标拆分分箱对应的目标拆分数据和各目标拆分数据对应的第一统计信息,生成缓存调整结果。


5.如权利要求3所述的数据处理方法,其特征在于,所述根据所述指令类型、所述待调整分位点...

【专利技术属性】
技术研发人员:陈瑞钦黄启军李诗琦唐兴兴林冰垠
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1