【技术实现步骤摘要】
数据挖掘和处理方法、装置、电子设备及存储介质
[0001]本申请涉及计算机处理
,尤其涉及一种数据挖掘和处理方法、装置、电子设备及存储介质。
技术介绍
[0002]随着计算机技术的发展,越来越多的应用场景中需要对活体特征进行检测以验证真伪,例如对人脸进行活体检测,从而防止网络攻击。但网络攻击的方式层出不穷,导致无法及时有效地识别新型攻击数据。相关技术中,需要业务方反馈线上被黑产突破的新案例,从而模仿该新型攻击方式以进行相似数据的采集;或者每天安排标注人员,从海量线上数据中,随机挑选出一批进行人工标注。前者需要业务方反馈后才能采集相似数据,流程较长,且不能保证采集的数据能够很好的拟合新型攻击;后者随机抽样很难保证抽取到新型的攻击,线上数据利用率低且效率较低。
技术实现思路
[0003]有鉴于上述存在的技术问题,本申请提出了一种数据挖掘和处理方法、装置、电子设备及存储介质。
[0004]根据本申请的一方面,提供了一种数据挖掘方法,所述方法包括:
[0005]获取第一图像集以及具有目标标签信息的多个第一目标图像;所述目标标签信息表征所述第一目标图像为目标活体攻击方式的图像,所述第一图像集中的第一图像和所述第一目标图像均包括目标对象,所述多个第一目标图像的数量小于或等于第一预设数量;
[0006]从所述第一图像集中筛选与所述多个第一目标图像各自的第一图像特征匹配的多个第二目标图像;
[0007]基于所述多个第一目标图像和所述多个第二目标图像,得到增量训练样本图像集,所述增 ...
【技术保护点】
【技术特征摘要】
1.一种数据挖掘方法,其特征在于,所述方法包括:获取第一图像集以及具有目标标签信息的多个第一目标图像;所述目标标签信息表征所述第一目标图像为目标活体攻击方式的图像,所述第一图像集中的第一图像和所述第一目标图像均包括目标对象,所述多个第一目标图像的数量小于或等于第一预设数量;从所述第一图像集中筛选与所述多个第一目标图像各自的第一图像特征匹配的多个第二目标图像;基于所述多个第一目标图像和所述多个第二目标图像,得到增量训练样本图像集,所述增量训练样本图像集用于迭代优化历史活体检测模型,所述历史活体检测模型是基于历史训练样本图像集训练得到的,所述历史训练样本图像集中的历史训练样本图像的历史标签信息表征的历史活体攻击方式不包括所述目标活体攻击方式。2.根据权利要求1所述的方法,其特征在于,所述获取多个第一目标图像,包括:获取第二图像集,所述第二图像集中的第二图像不具有标签信息,所述第二图像集中的第二图像的数量小于或等于第二预设数量,所述第二图像中包括所述目标对象;将所述第二图像输入目标业务模型,进行活体攻击方式预测,得到各第二图像的预测标签信息;从所述第二图像集中筛选出所述预测标签信息为所述目标标签信息的第二图像作为所述多个第一目标图像。3.根据权利要求1或2所述的方法,其特征在于,所述从所述第一图像集中筛选与所述多个第一目标图像的第一图像特征匹配的多个第二目标图像,包括:将所述多个第一目标图像和所述第一图像集中的第一图像输入目标活体特征提取模型,进行活体特征提取处理,得到各第一目标图像的第一图像特征以及各第一图像的第二图像特征;对所述第一图像特征和所述第二图像特征进行相似度匹配处理,得到与所述第一图像特征匹配的目标图像特征,所述目标图像特征为所述多个第二图像特征中的至少一个;将所述目标图像特征对应的第一图像作为所述多个第二目标图像。4.根据权利要求3所述的方法,其特征在于,所述对所述第一图像特征和所述第二图像特征进行相似度匹配处理,得到与第一图像特征匹配的目标图像特征,包括:对所述第一图像特征和所述第二图像特征进行聚类处理,得到所述第一图像特征所在的目标特征聚类簇;将所述目标特征聚类簇中的第二图像特征作为所述目标图像特征。5.根据权利要求3所述的方法,其特征在于,所述方法还包括获取不具有历史标签信息的第一样本图像集;所述第一样本图像集中的第一样本图像包括所述目标对象;所述历史标签信息表征所述第一样本图像为历史活体攻击方式的图像;将所述第一样本图像集输入所述目标活体特征提取模型,进行活体特征提取处理,得到样本图像特征;基于所述样本图像特征对所述第一样本图像集中的第一样本图像进行聚类处理,得到多个待处理簇;基于所述多个待处理簇对簇外样本图像进行召回处理,得到多个目标处理簇;所述簇
外样本图像为所述第一样本图像集中除所述多个待处理簇之外的第一样本图像;从所述多个目标处理簇中筛选出满足预设条件的目标处理簇,所述满足预设条件表征所述目标处理簇基于预设业务模型预测得到的簇内各图像的预测标签不满足聚类条件;将所述满足预设条件的目标处理簇中的第一样本图像作为训练预设业务模型的训练样本图像集。6.根据权利要求5所述的方法,其特征在于,所述目标活体特征提取模型通过以下步骤训练得到:获取具有所述历史标签信息的第二样本图像集;所述第二样本图像集中的第二样本图像包括所述目标对象;所述历史标签信息表征所述第二样本图像为历史活体攻击方式的图像;根据所述历史标签信息,将所述第二样本图像集划分为多个样本图像簇;所述样本图像簇具有初始簇标签,所述初始簇标签与所述历史标签信息对应;对每个样本图像簇中...
【专利技术属性】
技术研发人员:邓新哲,孟嘉,章健,毕明伟,丁守鸿,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。