一种显著特征自动推荐系统及方法技术方案

技术编号:31513050 阅读:16 留言:0更新日期:2021-12-22 23:54
本发明专利技术公开了一种显著特征自动推荐系统及方法,属于大数据技术领域。本发明专利技术包括任务定义模块:用于根据特征挖掘需要,自定义推荐任务;样本选择模块:用于根据定义的推荐任务,选择关联的数据集,指定关联关系生成样本数据大宽表;特征加工模块:用于对数据集的原始特征变量进行可视化配置并进行特征加工;目标自定义模块:用于根据特征加工之后的数据集定义目标变量;特征推荐模块:用于指定每个目标变量的推荐方法和阈值;报告生成模块:用于根据特征推荐模块生成显著特征推荐报告。本发明专利技术通过系统界面化的配置,实现在指定目标变量的情况下,自动推荐显著特征,不仅极大的提升了特征挖掘的效率,也为金融智能风控提供了一种新的自动化方案。的自动化方案。的自动化方案。

【技术实现步骤摘要】
一种显著特征自动推荐系统及方法


[0001]本专利技术属于大数据
,具体涉及一种显著特征自动推荐系统及方法。

技术介绍

[0002]人工智能是研究开发能够模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的一门新的技术科学。随着大数据、云计算、互联网、物联网等信息技术的发展,人工智能技术飞速发展,大幅跨越了科学与应用之间的“技术鸿沟”,迎来爆发式增长的新高潮。在互联网金融领域,人工智能技术越来多的应用到金融风控中,其中一个应用场景就是利用人工智能技术挖掘信用或欺诈风险目标的显著特征,以此替代传统专家经验的方式。当前行业的通用做法一般是模型人员或者策略人员通过调优脚本的方式分析选择某个目标变量的显著特征。但是该方法会对模型人员或策略人员产生大量编写脚本的工作,浪费了人力,而且效率较低,不能实现系统自动化的显著特征推荐。
[0003]基于此,本专利技术提出了一种显著特征自动推荐的方法和系统,该系统集成了基于相关系数的特征推荐方法、基于IV的特征推荐方法、基于KS的特征推荐方法、基于AUC的特征推荐方法合计4种方法,通过系统界面化的配置,实现在指定目标变量的情况下,自动推荐显著特征,不仅极大的提升了特征挖掘的效率,也为金融智能风控提供了一种新的自动化方案。同时,该方案可以拓展到其他任何需要挖掘显著特征的场景,如:医学诊断、精准营销、保险欺诈、潜在犯罪预测等。

技术实现思路

[0004]针对现有技术中存在的问题,本专利技术提供一种显著特征自动推荐系统及方法,其目的在于:解放模型人员或策略人员编写脚本的工作,实现系统自动化的显著特征推荐,提高效率。
[0005]本专利技术采用的技术方案如下:一种显著特征自动推荐系统,包括:任务定义模块:用于根据特征挖掘需要,自定义推荐任务;样本选择模块:用于根据定义的推荐任务,选择关联的数据集,指定关联关系生成样本数据集大宽表;特征加工模块:用于对样本数据集大宽表中的样本数据集的原始特征变量进行可视化配置并进行特征加工;目标自定义模块:用于根据特征加工之后的样本数据集定义目标变量;特征推荐模块:用于指定每个目标变量的推荐方法和阈值,并生成推荐特征集;报告生成模块:用于根据推荐特征集生成显著特征推荐报告。
[0006]本专利技术通过任务定义模块自定义推荐任务,样本选择模块根据推荐任务选择数据集并生成样本数据集大宽表,特征加工模块对样本数据集的原始特征变量进行特征加工 ,目标自定义模块根据特征加工之后的样本数据集定义目标变量,特征推荐模块指定每个目
标变量的推荐方法和阈值,并生成推荐特征集,报告生成模块根据推荐特征集生成显著特征推荐报告,从而实现显著特征的自动生成推荐,解放模型人员或策略人员编写脚本的工作,极大的提升了特征挖掘的效率。
[0007]本专利技术还公开了一种显著特征自动推荐方法,包括以下步骤:步骤1:根据特征挖掘需要,通过任务定义模块自定义推荐任务;步骤2:样本选择模块根据定义的推荐任务,选择关联的数据集,指定关联关系并生成样本数据集大宽表,并在存储介质中新建用于保存样本数据集大宽表的存储空间;步骤3:特征加工模块对样本数据集大宽表中的样本数据集的原始特征变量进行可视化配置并进行特征加工;步骤4:目标自定义模块根据特征加工之后的样本数据集定义目标变量,并将所述目标变量保存在存储介质中新建的对应的数据结构中;步骤5:通过特征推荐模块指定每个目标变量的推荐方法和阈值,并生成推荐特征集,新建用于保存所述推荐特征集的存储空间;步骤6:报告生成模块根据推荐特征集生成显著特征推荐报告。
[0008]优选的,步骤1中所述推荐任务的内容包括任务名称、任务说明和跑批方式,所述任务名称为用户自定义所属任务的名称;所述任务说明为推荐任务的详细介绍;所述跑批方式包括实时跑批、异步定时跑批和周期性跑批三种方式。优选的,步骤2中所述的样本数据大宽表根据样本数据集名称、表名、过滤条件和关联条件四个要素建立。
[0009]优选的,步骤3中所述的特征加工包括剔除特征和新增特征两种方式,所述新增特征基于表达式运算,支持四则运算、字符串运算、时间类型运算及JSON运算。
[0010]优选的,步骤4中所述的目标变量为二分类变量或者多分类变量,支持表达式运算。
[0011]优选的,步骤5中所述的推荐方法包括基于相关系数的特征推荐方法、基于IV的特征推荐方法、基于KS的特征推荐方法以及基于AUC的特征推荐方法。
[0012]优选的,所述基于相关系数的特征推荐方法具体包括以下步骤:步骤A1:对于任意特征变量,计算和目标变量之间的相关系数,记作;其中表示特征变量的平均值;表示目标变量的平均值,相关系数取值为[

1,1], 表示第维的特征向量,表示第维的目标变量值,; n表示样本数据集中记录的条数;步骤A2:对于生成的个相关系数列表按照相关系数降序排序,选择对应的特征变量为系统推荐的特征变量,为相关系数推荐方法对应的阈值;步骤A3:基于推荐的特征变量生成推荐特征集corrSet,
其中且为相关系数推荐方法推荐的特征变量个数,相关系数降序排序对应的特征变量序号为。
[0013]优选的,所述基于IV的特征推荐方法具体包括以下步骤:步骤B1:对于目标变量,记样本数据集的坏样本数为,;记样本数据集的好样本数为,;表示第维的目标变量值;步骤B2:对于任意特征变量,计算对应于目标变量的IV值,记作,其中的取值范围分为组,对于第组,为第组的坏客户数量,为第组的好客户数量;步骤B3:对于生成的个IV值列表按照IV值降序排序,选择对应的特征变量为系统推荐的特征变量,为IV推荐方法对应的阈值;步骤B4:基于推荐的特征变量生成的推荐特征集为ivSet,其中为IV推荐方法推荐的特征变量的数量,为IV值降序排序对应的特征变量的序号。
[0014]优选的,所述基于KS的特征推荐方法具体包括以下步骤:步骤C1:对于目标变量,记样本数据集的坏样本数为,;记样本数据集的好样本数为步骤C2:对于任意特征变量,计算对应于目标变量的KS值,记作,将按照升序顺序排序之后分为组,
其中为第组累积的坏客户人数,为第组累积的好客户人数;步骤C3:对于生成的个KS值列表按照KS值降序排序,选择对应的特征变量为系统推荐的特征变量;步骤C4:基于推荐的特征变生成推荐特征集ksSet,其中为KS推荐方法推荐的特征变量的数量,KS值降序排序对应的特征变量的序号为优选的,所述基于AUC的特征推荐方法具体包括以下步骤:步骤D1:对于任意特征变量,计算对应于目标变量的AUC值,记作,其中;步骤D2:对于生成的个AUC值列表按照AUC值降序排序,选择对应的特征变量为系统推荐的特征变量,为AUC推荐方法对应的阈值;步骤D3:基于推荐的特征变量生成推荐特征集aucSet,其中,为AUC推荐方法推荐的特征变量的数量,AUC值降序排序对应的特征变量的序号为优选的,所述显著特征推荐报告包括报告名称、报告生成时间、推荐任务名称、推荐任务说明和显著特征列表,所述显著特征列表按照目标变量、推荐方法进行分类展示,并按照本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种显著特征自动推荐系统,其特征在于,包括:任务定义模块:用于根据特征挖掘需要,自定义推荐任务;样本选择模块:用于根据定义的推荐任务,选择关联的数据集,指定关联关系生成样本数据集大宽表;特征加工模块:用于对样本数据集大宽表中的样本数据集的原始特征变量进行可视化配置并进行特征加工;目标自定义模块:用于根据特征加工之后的样本数据集定义目标变量;特征推荐模块:用于指定每个目标变量的推荐方法和阈值,并生成推荐特征集;报告生成模块:用于根据推荐特征集生成显著特征推荐报告。2.一种显著特征自动推荐方法,其特征在于,包括以下步骤:步骤1:根据特征挖掘需要,通过任务定义模块自定义推荐任务;步骤2:样本选择模块根据定义的推荐任务,选择关联的数据集,指定关联关系并生成样本数据集大宽表,并在存储介质中新建用于保存样本数据集大宽表的存储空间;步骤3:特征加工模块对样本数据集大宽表中的样本数据集的原始特征变量进行可视化配置并进行特征加工;步骤4:目标自定义模块根据特征加工之后的样本数据集定义目标变量,并将所述目标变量保存在存储介质中新建的对应的数据结构中;步骤5:通过特征推荐模块指定每个目标变量的推荐方法和阈值,并生成推荐特征集,新建用于保存所述推荐特征集的存储空间;步骤6:报告生成模块根据推荐特征集生成显著特征推荐报告。3.根据权利要求2所述的一种显著特征自动推荐方法,其特征在于, 步骤1中所述推荐任务的内容包括任务名称、任务说明和跑批方式,所述任务名称为用户自定义所属任务的名称;所述任务说明为推荐任务的详细介绍;所述跑批方式包括实时跑批、异步定时跑批和周期性跑批三种方式。4.根据权利要求2所述的一种显著特征自动推荐方法,其特征在于,步骤3中所述的特征加工包括剔除特征和新增特征两种方式,所述新增特征基于表达式运算,支持四则运算、字符串运算、时间类型运算及JSON运算。5.根据权利要求2所述的一种显著特征自动推荐方法,其特征在于,步骤5中所述的推荐方法包括基于相关系数的特征推荐方法、基于IV的特征推荐方法、基于KS的特征推荐方法以及基于AUC的特征推荐方法。6.根据权利要求5所述的一种显著特征自动推荐方法,其特征在于,所述基于相关系数的特征推荐方法具体包括以下步骤:步骤A1:对于任意特征变量,计算和目标变量之间的相关系数,记作;其中表示特征变量的平均值;表示目标变量的平均值,相关系数取值为[

1,1], 表示第维的特征向量,表示第维的目标变量值,
表示特征向量的数量,n表示样本数据集中记录的条数;...

【专利技术属性】
技术研发人员:王萍李思琪
申请(专利权)人:四川新网银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1