数据挖掘和处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39324058 阅读:8 留言:0更新日期:2023-11-12 16:03
本申请涉及一种数据挖掘和处理方法、装置、电子设备及存储介质。该方法包括:获取第一图像集以及具有目标标签信息的多个第一目标图像;目标标签信息表征第一目标图像为目标活体攻击方式的图像,多个第一目标图像的数量小于或等于第一预设数量;从第一图像集中筛选与多个第一目标图像各自的第一图像特征匹配的多个第二目标图像;基于多个第一目标图像和多个第二目标图像,得到增量训练样本图像集,增量训练样本图像集用于迭代优化历史活体检测模型。根据本申请的技术方案,可以提升数据挖掘效率。掘效率。掘效率。

【技术实现步骤摘要】
数据挖掘和处理方法、装置、电子设备及存储介质


[0001]本申请涉及计算机处理
,尤其涉及一种数据挖掘和处理方法、装置、电子设备及存储介质。

技术介绍

[0002]随着计算机技术的发展,越来越多的应用场景中需要对活体特征进行检测以验证真伪,例如对人脸进行活体检测,从而防止网络攻击。但网络攻击的方式层出不穷,导致无法及时有效地识别新型攻击数据。相关技术中,需要业务方反馈线上被黑产突破的新案例,从而模仿该新型攻击方式以进行相似数据的采集;或者每天安排标注人员,从海量线上数据中,随机挑选出一批进行人工标注。前者需要业务方反馈后才能采集相似数据,流程较长,且不能保证采集的数据能够很好的拟合新型攻击;后者随机抽样很难保证抽取到新型的攻击,线上数据利用率低且效率较低。

技术实现思路

[0003]有鉴于上述存在的技术问题,本申请提出了一种数据挖掘和处理方法、装置、电子设备及存储介质。
[0004]根据本申请的一方面,提供了一种数据挖掘方法,所述方法包括:
[0005]获取第一图像集以及具有目标标签信息的多个第一目标图像;所述目标标签信息表征所述第一目标图像为目标活体攻击方式的图像,所述第一图像集中的第一图像和所述第一目标图像均包括目标对象,所述多个第一目标图像的数量小于或等于第一预设数量;
[0006]从所述第一图像集中筛选与所述多个第一目标图像各自的第一图像特征匹配的多个第二目标图像;
[0007]基于所述多个第一目标图像和所述多个第二目标图像,得到增量训练样本图像集,所述增量训练样本图像集用于迭代优化历史活体检测模型,所述历史活体检测模型是基于历史训练样本图像集训练得到的,所述历史训练样本图像集中的历史训练样本图像的历史标签信息表征的历史活体攻击方式不包括所述目标活体攻击方式。
[0008]根据本申请的另一方面,提供了一种数据处理方法,包括:
[0009]响应于活体验证请求,获取待验证的目标图像以及标注目标标签信息的参考图像;
[0010]将所述目标图像和所述参考图像输入目标活体特征提取模型,进行活体特征提取处理,得到所述目标图像的目标特征以及所述参考图像的参考特征;
[0011]若所述目标特征与所述参考特征的相似度满足相似度条件,确定所述活体验证请求为目标活体攻击方式的请求,并为所述目标图像标注所述目标标签信息;所述目标活体攻击方式为所述目标标签信息表征的活体攻击方式;其中,所述目标活体特征提取模型为基于下面训练方法得到的。
[0012]根据本申请的另一方面,提供了一种数据挖掘装置,包括:
[0013]获取模块,用于获取第一图像集以及具有目标标签信息的多个第一目标图像;所述目标标签信息表征所述第一目标图像为目标活体攻击方式的图像,所述第一图像集中的第一图像和所述第一目标图像均包括目标对象,所述多个第一目标图像的数量少于第一预设数量;
[0014]筛选模块,用于从所述第一图像集中筛选与所述多个第一目标图像各自的第一图像特征匹配的多个第二目标图像;
[0015]训练数据挖掘模块,基于所述多个第一目标图像和所述多个第二目标图像,更新历史训练样本图像集,得到用于迭代优化历史活体检测模型的目标训练样本图像集;其中,所述历史活体检测模型是基于所述历史训练样本图像集训练得到的,所述历史训练样本图像集中的历史训练样本图像的历史标签信息表征的历史活体攻击方式不包括所述目标活体攻击方式。
[0016]根据本申请的另一方面,提供了一种数据处理装置,包括:
[0017]响应模块,用于响应于活体验证请求,获取待验证的目标图像以及标注目标标签信息的参考图像;
[0018]目标特征和参考特征获取模块,用于将所述目标图像和所述参考图像输入目标活体特征提取模型,进行活体特征提取处理,得到所述目标图像的目标特征以及所述参考图像的参考特征;
[0019]攻击拦截模块,用于若所述目标特征与所述参考特征的相似度满足相似度条件,确定所述活体验证请求为目标活体攻击方式的请求,并为所述目标图像标注所述目标标签信息;所述目标活体攻击方式为所述目标标签信息表征的活体攻击方式;其中,所述目标活体特征提取模型为基于权利要求6

8任一项方法得到的。
[0020]根据本申请的另一方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行上述方法。
[0021]根据本申请的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述方法。
[0022]通过少量具有目标标签信息的第一目标图像去第一图像集中筛选与多个第一目标图像各自的第一图像特征匹配的多个第二目标图像,并基于多个第一目标图像和多个第二目标图像,得到增量训练样本图像集,从而可以自动挖掘出目标活体攻击方式下的训练数据,对于新型攻击数据的挖掘更加高效、且数据利用率高;基于此,可以保证活体检测模型的及时迭代优化,从而使得迭代优化后的目标活体检测模型模型上线,即可有效对抗目标标签信息对应的新型攻击。
[0023]根据下面参考附图对示例性实施例的详细说明,本申请的其它特征及方面将变得清楚。
附图说明
[0024]包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面,并且用于解释本申请的原理。
[0025]图1示出根据本申请一实施例提供的一种应用系统的示意图。
[0026]图2示出根据本申请一实施例提供的一种数据挖掘方法的流程图。
[0027]图3示出根据本申请一实施例提供的一种数据挖掘的示意图。
[0028]图4示出根据本申请一实施例提供的一种从第一图像集中筛选与多个第一目标图像各自的第一图像特征匹配的多个第二目标图像的方法流程图。
[0029]图5示出根据本申请一实施例提供的一种目标业务模型的训练数据挖掘方法流程图。
[0030]图6示出根据本申请一实施例提供的一种目标业务模型的训练数据挖掘示意图。
[0031]图7示出根据本申请一实施例提供的一种目标活体特征提取模型的训练方法流程图。
[0032]图8示出根据本申请一实施例提供的一种目标活体特征提取模型的训练架构示意图。
[0033]图9示出根据本申请一实施例提供的一种数据处理的方法流程图。
[0034]图10示出根据本申请一实施例提供的一种数据处理的示意图。
[0035]图11示出根据本申请一实施例提供的一种数据挖掘装置的框图。
[0036]图12示出根据本申请一实施例提供的一种用于数据挖掘的电子设备的框图。
具体实施方式
[0037]以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
[0038]在这里专用的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据挖掘方法,其特征在于,所述方法包括:获取第一图像集以及具有目标标签信息的多个第一目标图像;所述目标标签信息表征所述第一目标图像为目标活体攻击方式的图像,所述第一图像集中的第一图像和所述第一目标图像均包括目标对象,所述多个第一目标图像的数量小于或等于第一预设数量;从所述第一图像集中筛选与所述多个第一目标图像各自的第一图像特征匹配的多个第二目标图像;基于所述多个第一目标图像和所述多个第二目标图像,得到增量训练样本图像集,所述增量训练样本图像集用于迭代优化历史活体检测模型,所述历史活体检测模型是基于历史训练样本图像集训练得到的,所述历史训练样本图像集中的历史训练样本图像的历史标签信息表征的历史活体攻击方式不包括所述目标活体攻击方式。2.根据权利要求1所述的方法,其特征在于,所述获取多个第一目标图像,包括:获取第二图像集,所述第二图像集中的第二图像不具有标签信息,所述第二图像集中的第二图像的数量小于或等于第二预设数量,所述第二图像中包括所述目标对象;将所述第二图像输入目标业务模型,进行活体攻击方式预测,得到各第二图像的预测标签信息;从所述第二图像集中筛选出所述预测标签信息为所述目标标签信息的第二图像作为所述多个第一目标图像。3.根据权利要求1或2所述的方法,其特征在于,所述从所述第一图像集中筛选与所述多个第一目标图像的第一图像特征匹配的多个第二目标图像,包括:将所述多个第一目标图像和所述第一图像集中的第一图像输入目标活体特征提取模型,进行活体特征提取处理,得到各第一目标图像的第一图像特征以及各第一图像的第二图像特征;对所述第一图像特征和所述第二图像特征进行相似度匹配处理,得到与所述第一图像特征匹配的目标图像特征,所述目标图像特征为所述多个第二图像特征中的至少一个;将所述目标图像特征对应的第一图像作为所述多个第二目标图像。4.根据权利要求3所述的方法,其特征在于,所述对所述第一图像特征和所述第二图像特征进行相似度匹配处理,得到与第一图像特征匹配的目标图像特征,包括:对所述第一图像特征和所述第二图像特征进行聚类处理,得到所述第一图像特征所在的目标特征聚类簇;将所述目标特征聚类簇中的第二图像特征作为所述目标图像特征。5.根据权利要求3所述的方法,其特征在于,所述方法还包括获取不具有历史标签信息的第一样本图像集;所述第一样本图像集中的第一样本图像包括所述目标对象;所述历史标签信息表征所述第一样本图像为历史活体攻击方式的图像;将所述第一样本图像集输入所述目标活体特征提取模型,进行活体特征提取处理,得到样本图像特征;基于所述样本图像特征对所述第一样本图像集中的第一样本图像进行聚类处理,得到多个待处理簇;基于所述多个待处理簇对簇外样本图像进行召回处理,得到多个目标处理簇;所述簇
外样本图像为所述第一样本图像集中除所述多个待处理簇之外的第一样本图像;从所述多个目标处理簇中筛选出满足预设条件的目标处理簇,所述满足预设条件表征所述目标处理簇基于预设业务模型预测得到的簇内各图像的预测标签不满足聚类条件;将所述满足预设条件的目标处理簇中的第一样本图像作为训练预设业务模型的训练样本图像集。6.根据权利要求5所述的方法,其特征在于,所述目标活体特征提取模型通过以下步骤训练得到:获取具有所述历史标签信息的第二样本图像集;所述第二样本图像集中的第二样本图像包括所述目标对象;所述历史标签信息表征所述第二样本图像为历史活体攻击方式的图像;根据所述历史标签信息,将所述第二样本图像集划分为多个样本图像簇;所述样本图像簇具有初始簇标签,所述初始簇标签与所述历史标签信息对应;对每个样本图像簇中...

【专利技术属性】
技术研发人员:邓新哲孟嘉章健毕明伟丁守鸿
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1