数据处理方法、装置及电子设备制造方法及图纸

技术编号:34898564 阅读:14 留言:0更新日期:2022-09-10 13:58
本公开提供了数据处理方法、装置、电子设备及存储介质,涉及人工智能技术领域中的深度学习技术领域,可用于金融风控、营销等场景。其中方法为:获取待处理模型对应的第一数据集,第一数据集中包括样本和样本标签;根据样本的特征,获取特征在不同时期的特征数据,以生成多个第二数据集;根据多个第二数据集和样本标签,获取模型的指标的数值;以及根据指标的数值,生成待处理模型的数据处理结果。本公开获取已知的第一数据集中的特征在不同时期的特征数据,根据不同时期的特征数据和已知的样本标签对待处理模型进行性能相关的指标的计算,完成对待处理模型的数据处理过程,在难以及时获取模型调用方的反馈数据的情况下,完成对模型性能的查验。型性能的查验。型性能的查验。

【技术实现步骤摘要】
数据处理方法、装置及电子设备


[0001]本公开涉及人工智能
中的深度学习
,尤其涉及一种数据处理方法、装置及电子设备。

技术介绍

[0002]目前,为了确保模型的性能满足调用方的要求,在模型训练阶段、模型上线前以及模型上线后需要对模型进行打分等数据处理过程。通常根据已有的带标签的数据集对模型进行数据处理,例如在模型上线后可以根据调用方反馈的数据构建上述带有标签的数据集,以此完成上述数据处理过程。然而如何在难以及时获取反馈数据的情况下,通过对模型进行相关的数据处理,完成对模型性能的查验已经成为亟待解决的问题。

技术实现思路

[0003]提供了一种数据处理方法、装置及电子设备。
[0004]根据第一方面,提供了一种数据处理方法,包括:获取待处理模型对应的第一数据集,所述第一数据集中包括样本和样本标签;根据所述样本的特征,获取所述特征在不同时期的特征数据,以生成多个第二数据集;根据所述多个第二数据集和所述样本标签,获取所述待处理模型的指标的数值,所述指标用于表征所述待处理模型的性能;以及根据所述指标的数值,生成所述待处理模型的数据处理结果。
[0005]根据第二方面,提供了一种数据处理装置,包括:第一获取模块,用于获取待处理模型对应的第一数据集,所述第一数据集中包括样本和样本标签;第二获取模块,用于根据所述样本的特征,获取所述特征在不同时期的特征数据,以生成多个第二数据集;第三获取模块,用于根据所述多个第二数据集和所述样本标签,获取所述待处理模型的指标的数值,所述指标用于表征所述待处理模型的性能;以及生成模块,用于根据所述指标的数值,生成所述待处理模型的数据处理结果。
[0006]根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开第一方面所述的数据处理方法。
[0007]根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据本公开第一方面所述的数据处理方法。
[0008]根据第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开第一方面所述数据处理方法的步骤。
[0009]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0010]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0011]图1是根据本公开第一实施例的数据处理方法的流程示意图;
[0012]图2是根据本公开第二实施例的数据处理方法的流程示意图;
[0013]图3是根据本公开第三实施例的数据处理方法的流程示意图;
[0014]图4是根据本公开第四实施例的数据处理方法的流程示意图;
[0015]图5是在不同阶段对待处理模型进行数据处理的示意框图;
[0016]图6是根据本公开实施例在不同阶段对待处理模型进行数据处理的示意图;
[0017]图7是根据本公开第一实施例的数据处理装置的框图;
[0018]图8是根据本公开第二实施例的数据处理装置的框图;
[0019]图9是用来实现本公开实施例的方法的电子设备的框图。
具体实施方式
[0020]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0021]人工智能(ArtificialIntelligence,简称AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。目前,AI技术具有自动化程度高、精确度高、成本低的优点,得到了广泛的应用。
[0022]深度学习(Deep Learning,简称DL),是机器学习(Machine Learning,简称ML)领域中一个新的研究方向,学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。就具体研究内容而言,主要包括基于卷积运算的神经网络系统,即卷积神经网络;基于多层神经元的自编码神经网络;以多层自编码神经网络的方式进行预训练,进而结合鉴别信息进一步优化神经网络权值的深度置信网络。深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。
[0023]下面结合附图描述本公开实施例的数据处理方法、装置及电子设备。
[0024]图1是根据本公开第一实施例的数据处理方法的流程示意图。
[0025]如图1所示,本公开实施例的数据处理方法具体可包括以下步骤:
[0026]S101,获取待处理模型对应的第一数据集,第一数据集中包括样本和样本标签。
[0027]具体的,本公开实施例的数据处理方法的执行主体可为本公开实施例提供的数据处理装置,该数据处理装置可为具有数据信息处理能力的硬件设备和/或驱动该硬件设备工作所需必要的软件。可选的,执行主体可包括工作站、服务器,计算机、用户终端及其他设备。其中,用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。
[0028]本公开实施例,针对一个待处理模型,获取该模型对应的一份第一数据集,该第一
数据集中包括样本和样本标签,还可以包括样本对应的特征数据。其中上述待处理模型可以为模型上线后需要定期进行性能查验的模型。实际中,可以将训练阶段的一份带有标签的数据集作为对待处理模型进行数据处理时的一个已知的第一数据集,例如在金融风控场景中,该第一数据集中的每个样本对应一个用户,样本标签可以为该用户是否违约。
[0029]S102,根据样本的特征,获取特征在不同时期的特征数据,以生成多个第二数据集。
[0030]在本公开实施例中,获取样本对应的每个特征在不同时期的特征数据。此处所表述的时期不同于第一数据集中特征数据对应的时期,其中,样本的特征也可以理解为上述第一数据集的特征,例如风控模型对应的一个第一数据集中样本的特征可以为用户的年龄以及用户办理的金融业务的相关业务指标等。
[0031]由此可以得到第一数据集中每个样本下的每个特征在不同时期对应的特征数据,可以将不同时期的特征数据放入不同的数据集中以得到多个新的第二数据集,其中上述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,包括:获取待处理模型对应的第一数据集,所述第一数据集中包括样本和样本标签;根据所述样本的特征,获取所述特征在不同时期的特征数据,以生成多个第二数据集;根据所述多个第二数据集和所述样本标签,获取所述待处理模型的指标的数值,所述指标用于表征所述待处理模型的性能;以及根据所述指标的数值,生成所述待处理模型的数据处理结果。2.根据权利要求1所述的方法,其中,所述待处理模型的所述指标包括以下至少一种:接收者操作特征曲线对应的曲线下面积、模型区分度指标和模型稳定度指标。3.根据权利要求2所述的方法,其中,所述根据所述多个第二数据集和所述样本标签,获取所述待处理模型的指标的数值,包括:从所述多个第二数据集中确定两个目标数据集;以及根据所述两个目标数据集和所述样本标签,获取所述模型区分度指标对应的两个数值、所述曲线下面积对应的两个数值以及所述模型稳定度指标对应的数值。4.根据权利要求3所述的方法,其中,所述根据所述指标的数值,生成所述待处理模型的数据处理结果,包括:计算所述模型区分度指标对应的两个数值之间的第一差值和所述曲线下面积对应的两个数值之间的第二差值;响应于所述待处理模型的所述指标的数值满足以下任一条件:所述第一差值大于第一阈值、所述第二差值大于第二阈值和所述模型稳定度指标对应的数值大于第三阈值,则确定所述待处理模型的数据处理结果为模型异常;以及响应于所述第一差值小于或等于所述第一阈值,且所述第二差值小于或等于所述第二阈值,且所述稳定度指标对应的数值小于或等于所述第三阈值,则确定所述待处理模型的数据处理结果为模型正常。5.根据权利要求4所述的方法,还包括:响应于所述待处理模型的数据处理结果为模型异常,则根据所述多个第二数据集,检测所述特征的分布;以及根据对所述特征的分布的检测结果,分析所述待处理模型的数据处理结果为模型异常的原因。6.一种数据处理装置,包括:第一获取模块,用于获取待处理模型对应的第一数据集,所述第一数据集中包括样本和样本标签;第二获取模块,用于根据所述样本的特征,获取所述特征在不同时期的特征数据,以生成多个第二数据集;第三获取模块,用于根据所述多个第二数据集和所述样本标签,获取所述待处理模型的指标的数值,所述指标用于表征所述待处理模型的性能;以及...

【专利技术属性】
技术研发人员:孙倩刘昊骋
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1