本发明专利技术公开了一种数据样本的类型识别方法及装置。其中,该方法包括:对包括白样本和待识别异常样本的总体数据样本按照预设聚类算法进行聚类处理,得到多个簇,白样本为在指定业务场景中执行安全操作行为时所产生的数据样本,待识别异常样本为在指定业务场景中执行异常操作行为时所产生的数据样本;获取多个簇中的每个簇中白样本的占有率;将多个簇中占有率小于预设阈值的簇中的待识别异常样本判定为黑样本,将多个簇中占有率大于预设阈值的簇中的待识别异常样本判定为白样本。采用本发明专利技术,解决了相关技术中打标的黑样本难以获取以及从异常样本中提取黑样本的方法难以对新异常产生的黑样本进行识别的技术问题。
【技术实现步骤摘要】
本专利技术涉及互联网
,具体而言,涉及一种数据样本的类型识别方法及装置。
技术介绍
在当前风险防控过程中需要通过防控规则对非法行为进行识别处理,防控规则的产出依赖于对正常群体与非法群体特征的对比分析,即白样本与黑样本的对比分析。分析效果取决于两类样本的纯净度。同时为了能够对实时发生的风险进行及时响应,就需要对实时异常进行分析。当异常发生时,发生异常的样本并不完全是黑样本,如果将异常样本直接与白样本对比分析,则会得到不准确的分析结果。相关技术中提取黑样本的方法主要有以下两种:第一种,人工观察、过滤法提取黑样本;第二种,通过黑名单库等方式提取黑样本。对于第一种方法,由于采用人工利用分析软件对异常样本进行分析,过滤和观察,并根据经验提取黑样本,因而自动化程度低,需要有丰富的经验才能够进行,并且提取的黑样本纯度并不高;对于第二种方法,由于是从已有的黑名单库中提取黑样本,因而无法应对新异常产生的黑样本,因而提取的黑样本纯度并不高,另外,相关技术中对于已经打标的黑样本数据,是比较难以获取的。针对相关技术中打标的黑样本难以获取以及从异常样本中提取黑样本的方法难以对新异常产生的黑样本进行识别的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种数据样本的类型识别方法及装置,以至少解决相关技术中打标的黑样本难以获取以及从异常样本中提取黑样本的方法难以对新异常产生的黑样本进行识别的技术问题。根据本专利技术实施例的一个方面,提供了一种数据样本的类型识别方法,包括:对包括白样本和待识别异常样本的总体数据样本按照预设聚类算法进行聚类处理,得到多个簇,白样本为在指定业务场景中执行安全操作行为时所产生的数据样本,待识别异常样本为在指定业务场景中执行异常操作行为时所产生的数据样本;获取多个簇中的每个簇中白样本的占有率;将多个簇中占有率小于预设阈值的簇中的待识别异常样本判定为黑样本,其中,黑样本为在指定业务场景中执行非安全操作行为时所产生的数据样本;将多个簇中占有率大于预设阈值的簇中的待识别异常样本判定为白样本。根据本专利技术实施例的另一方面,还提供了一种数据样本的类型识别装置,包括:聚类模块,用于对包括白样本和待识别异常样本的总体数据样本按照预设聚类算法进行聚类处理,得到多个簇,白样本为在指定业务场景中执行安全操作行为时产生的数据样本,待识别异常样本为在指定业务场景中执行异常操作行为时所产生的数据样本;获取模块,用于获取多个簇中的每个簇中白样本的占有率;判定模块,用于将多个簇中占有率小于预设阈值的簇中的待识别异常样本判定为黑样本,其中,黑样本为在指定业务场景中执行非安全操作行为时所产生的数据样本;将多个簇中占有率大于预设阈值的簇中的待识别异常样本判定为白样本。在本专利技术实施例中,采用白样本与待识别异常样本进行聚类获取聚类得到的多个簇中每个簇中白样本的占有率;将占有率小于预设阈值的簇中的待识别异常样本判定为黑样本,将所述占有率大于预设阈值的簇的待识别异常样本判定为白样本的方式,通过利用白样本对待识别异常样本的类别进行判定,解决了相关技术中打标的黑样本难以获取以及从异常样本中提取黑样本的方法难以对新异常产生的黑样本进行识别的技术问题,同时相应地提升了黑样本的纯度。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是本专利技术实施例的一种数据样本的类型识别方法的计算机终端的硬件结构框图;图2是根据本专利技术实施例1的数据样本的类型识别方法的流程图;图3是本专利技术可选实施例的总体算法流程示意图;图4是本专利技术可选实施例的类别判定流程的示意图;图5是本专利技术实施例的数据样本的类别识别装置的结构框图一;图6是本专利技术实施例的数据样本的类型识别装置的获取模块54的结构框图;图7是本专利技术实施例的数据样本的类型识别装置的识别单元542的结构框图;图8是本专利技术实施例的数据样本的类别识别装置的结构框图二;图9是根据本专利技术实施例的一种计算机终端的结构框图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。实施例1根据本专利技术实施例,还提供了一种数据样本的类型识别的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是本专利技术实施例的一种数据样本的类型识别方法的计算机终端的硬件结构框图。如图1所示,计算机终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。存储器104可用于存储应用软件的软件程序以及模块,如本专利技术实施例中的数据样本的类型识别方法对应的程序指令/模块,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的数据样本的类型识别方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。传输模块106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输模块106包括一个网络适配器(NetworkInterfaceController,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输模块106可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。在本文档来自技高网...
【技术保护点】
一种数据样本的类型识别方法,其特征在于,包括:对包括白样本和待识别异常样本的总体数据样本按照预设聚类算法进行聚类处理,得到多个簇,所述白样本为在指定业务场景中执行安全操作行为时所产生的数据样本,所述待识别异常样本为在所述指定业务场景中执行异常操作行为时所产生的数据样本;获取所述多个簇中的每个簇中白样本的占有率;将所述多个簇中所述占有率小于预设阈值的簇中的所述待识别异常样本判定为黑样本,其中,所述黑样本为在指定业务场景中执行非安全操作行为时所产生的数据样本;将所述多个簇中所述占有率大于所述预设阈值的簇中的待识别异常样本判定为白样本。
【技术特征摘要】
1.一种数据样本的类型识别方法,其特征在于,包括:对包括白样本和待识别异常样本的总体数据样本按照预设聚类算法进行聚类处理,得到多个簇,所述白样本为在指定业务场景中执行安全操作行为时所产生的数据样本,所述待识别异常样本为在所述指定业务场景中执行异常操作行为时所产生的数据样本;获取所述多个簇中的每个簇中白样本的占有率;将所述多个簇中所述占有率小于预设阈值的簇中的所述待识别异常样本判定为黑样本,其中,所述黑样本为在指定业务场景中执行非安全操作行为时所产生的数据样本;将所述多个簇中所述占有率大于所述预设阈值的簇中的待识别异常样本判定为白样本。2.根据权利要求1所述的方法,其特征在于,获取所述每个簇中白样本的占有率,包括:以所述总体数据样本中的白样本作为基准,识别所述每个簇中所包含的白样本;获取识别出的所述每个簇中的白样本的数量;将所述每个簇中的白样本的数量与所述每个簇中包含的样本总数量进行比值计算,得到所述占有率。3.根据权利要求2所述的方法,其特征在于,以所述总体数据样本中的白样本作为参考,识别所述每个簇中的白样本,包括:获取所述总体数据样本中的白样本与所述每个簇中的样本的相似度;比较所述相似度是否大于指定阈值;将所述每个簇中所述相似度大于所述指定阈值的样本识别为白样本。4.根据权利要求1所述的方法,其特征在于,将所述多个簇中所述占有率小于预设阈值的簇中的所述待识别异常样本判定为黑样本包括:将所述多个簇中所述占有率小于所述预设阈值的簇判定为黑样本群体;按照预设规则将所述黑样本群体中的所述待识别异常样本判定为所述黑样本。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:拦截或限制识别出的所述黑样本的操作行为。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述指定业务场景包括以下之一:电子商务中的业务场景,网络攻击防御中的业务场景。7.根据权利要求1至5中任一项所述的方法,其特征在于,所述预设聚类算法包括以下之一:K-Means聚类算法,DBSCAN聚类算法。8.一种数据样本的类型识别装置,...
【专利技术属性】
技术研发人员:马冲,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。