本发明专利技术公开了一种基于网络行为数据的聚类分析方法,涉及数据分析领域,包括S1获取待处理的数据集,数据集包括至少一条行为线索;S2每一条行为线索均与已有组织的线索集进行匹配,将匹配成功的行为线索加入线索集,未匹配成功的行为线索加入缓存,并进入S3;S3分析未匹配成功的行为线索,聚类形成多个中心区域;S4计算每两个中心区域的相似度,合并相似度超过阈值的两个中心区域形成新的中心区域;S5判断每个中心区域是否满足成为一个组织的条件,若满足则将该中心区域移出缓存建立为新的线索集,并将其进行持久化存储;反之则继续保留在缓存中,并持久化缓存;对网络行为进行聚类分析,可以快速、相对实时的对互联网的行为进行溯源。为进行溯源。为进行溯源。
【技术实现步骤摘要】
一种基于网络行为数据的聚类分析方法
[0001]本专利技术涉及数据分析领域,尤其涉及一种基于网络行为数据的聚类分析方法。
技术介绍
[0002]当前,互联网上的安全威胁越来越多,一些国家重点单位和基础设施更是长期遭受境外组织的定向持续攻击;针对特定目标的网络攻击行为,可以通过互联网的流量数据还原来检测。但是当前的检测手段还是只停留于发现攻击行为,而对于攻击的来源,还缺少有效的检测手段;目前,对于网络攻击的溯源,大多采用人工溯源的方式。往往效率较低,且具有一定的滞后性。
技术实现思路
[0003]本专利技术的目的就在于为了解决上述问题设计了一种基于网络行为数据的聚类分析方法。
[0004]本专利技术通过以下技术方案来实现上述目的:
[0005]一种基于网络行为数据的聚类分析方法,包括:
[0006]S1、获取待处理的数据集,数据集包括至少一条行为线索;
[0007]S2、每一条行为线索均与已有组织的线索集进行匹配,将匹配成功的行为线索加入线索集,未匹配成功的行为线索加入缓存,并进入S3;
[0008]S3、分析未匹配成功的行为线索,聚类形成多个中心区域,每个中心区域均包括至少两条行为线索;
[0009]S4、计算每两个中心区域的相似度,合并相似度超过阈值的两个中心区域形成新的中心区域;
[0010]S5、判断每个中心区域是否满足成为一个组织的条件,若满足则将该中心区域移出缓存建立为新的线索集,并将其进行持久化存储;反之则继续保留在缓存中,并持久化缓存。
[0011]本专利技术的有益效果在于:通过本专利技术的方法对网络行为进行聚合分析,可以快速、相对实时的对互联网的行为进行溯源。
附图说明
[0012]图1是本专利技术一种基于网络行为数据的聚类分析方法的流程示意图;
[0013]图2是本专利技术一种基于网络行为数据的聚类分析方法中聚类的流程示意图。
具体实施方式
[0014]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施
例的组件可以以各种不同的配置来布置和设计。
[0015]因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0016]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0017]在本专利技术的描述中,术语“线索”指的是已经掌握的一次网络攻击行为的数据载体,如:一封钓鱼邮件。术语“元素”指从线索中提取出来的关键特征,如:发件IP等。术语“组织”指的是某个发起网络攻击的实体或者自然人,其在本专利技术中的表现形式是线索的集合。“中心区域”指在本专利技术所述方法的处理过程中,临时生成的未达到阈值条件的组织。“匹配度”指评价某一条线索归属于某个组织的可信程度指标。“相似度”指评价两个组织之间同源程度的指标,相似度越高,则两个组织越可能同源。“硬匹配”指线索中提取出的关键特征和组织中提取出的关键特征相同的匹配情况。“软匹配”指线索中提取出的关键特征和组织中的关键特征不相同,但是有一定的同源性,且同源性达到了某个阈值的匹配情况。“持久化”指把本专利技术的分析结果或临时数据落盘存储的过程,以使这些数据在断电或系统重启的情况下仍然可以访问。
[0018]在本专利技术的描述中,需要理解的是,术语“上”、“下”、“内”、“外”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该专利技术产品使用时惯常摆放的方位或位置关系,或者是本领域技术人员惯常理解的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。
[0019]在本专利技术的描述中,还需要说明的是,除非另有明确的规定和限定,“配置”、“数据”、“缓存”、“持久化存储”等术语应做广义理解,例如,“持久化存储”可以是关系型数据库,也可以是其他的非关系型数据存储组件;可以是行式存储,也可以是列式存储;可以是记录型存储,也可以是文件型存储。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本专利技术中的具体含义。
[0020]下面结合附图,对本专利技术的具体实施方式进行详细说明。
[0021]如图1、图2所示,一种基于网络行为数据的聚类分析方法,包括:
[0022]S1、获取待处理的数据集,数据集包括至少一条行为线索。
[0023]S2、每一条行为线索均与已有组织的线索集进行匹配,将匹配成功的行为线索加入线索集,未匹配成功的行为线索加入缓存,并进入S3;具体包括:
[0024]S21、提取每条行为线索的关键特征;
[0025]S22、每条行为线索的关键特征与已有组织的线索集中提取出的关键特征进行硬匹配,将匹配成功的行为线索加入线索集,未匹配成功的行为线索加入缓存,并进入S3。
[0026]S3、分析未匹配成功的行为线索,聚类形成多个中心区域,每个中心区域均包括至少两条行为线索;具体包括:
[0027]S31、未匹配成功的行为线索根据预先设置的规则和阈值进行聚类分析得到多个中心区域;具体为:
[0028]S311、确定每个关键特征与对应线索列表的映射;
[0029]S312、遍历S311得到的映射,将映射值中的线索列表两两之间取交集,交集表示至少有两个关键特征相同的行为线索的集合;
[0030]S313、根据集合中行为线索的数量是否达到预先设定的阈值判断集合是否能作为中心区域,若能,则将该集合作为中心区域储存在缓存中,反之则继续加入下一次的聚合分析;
[0031]S32、判断本次所有匹配成功的行为线索是否全部加入到中心区域中,若是,则直接进入S4,反之则进入S33;
[0032]S33、未加入中心区域的行为线索将其关键特征依次与每个中心区域的关键特征进行软匹配,判断行为线索与中心区域之间的匹配度是否超过预先设定的阈值,若超过,则将该行为线索加入到该中心区域中,并进入S34,反之则保存在缓存中加入下一次的聚合分析;
[0033]S34、所有中心区域的行为线索重新计算与每个中心区域的匹配度,将其加入到匹配度最高的中心区域,进入S4,匹配度为根据行为线索与中心区域匹配的关键特征的权重计算加权的分数。
[0034]S4、计算每两个中心区域的相似度,合并相似度超过阈值的两个中心区域形成新的中心区域,相似度为两个中心区域中相同关键特征的数量在关键特征总数较少的中心区域的占比。
[0035]S5、判断每个中心区域是本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于网络行为数据的聚类分析方法,其特征在于,包括:S1、获取待处理的数据集,数据集包括至少一条行为线索;S2、每一条行为线索均与已有组织的线索集进行匹配,将匹配成功的行为线索加入线索集,未匹配成功的行为线索加入缓存,并进入S3;S3、分析未匹配成功的行为线索,聚类形成多个中心区域,每个中心区域均包括至少两条行为线索;S4、计算每两个中心区域的相似度,合并相似度超过阈值的两个中心区域形成新的中心区域;S5、判断每个中心区域是否满足成为一个组织的条件,若满足则将该中心区域移出缓存建立为新的线索集,并将其进行持久化存储;反之则继续保留在缓存中,并持久化缓存。2.根据权利要求1所述的一种基于网络行为数据的聚类分析方法,其特征在于,在S2中包括:S21、提取每条行为线索的关键特征;S22、每条行为线索的关键特征与已有组织的线索集中提取出的关键特征进行硬匹配,将匹配成功的行为线索加入线索集,未匹配成功的行为线索加入缓存,并进入S3。3.根据权利要求2所述的一种基于网络行为数据的聚类分析方法,其特征在于,在S3中包括:S31、未匹配成功的行为线索根据预先设置的规则和阈值进行聚类分析得到多个中心区域;S32、判断本次所有匹配成功的行为线索是否全...
【专利技术属性】
技术研发人员:邓金祥,周恩亚,冯园园,周瑞,孙超,王明凯,谢之,
申请(专利权)人:成都深思科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。