System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及业务安全领域,尤其涉及一种黑灰产团伙识别方法、装置、设备及存储介质。
技术介绍
1、在业务安全领域中,团伙识别技术对黑灰产的识别起着关键性的作用,通过团伙识别技术,能够对黑灰产进行检测和分析,帮助业务安全人员更好地识别黑灰产团伙,有助于提升业务安全水平和打击黑灰产违法活动,为风险管控和防范提供有力支持。
2、现有的黑灰产团伙识别技术的实现通常基于对业务数据的聚类处理,通过数据分析挖掘团伙间及团伙中关键角色的行为模式和关联关系,实现对黑灰产团伙的识别。然而,随着黑灰产团伙的作案手法日益复杂和隐蔽,需要分析挖掘的数据的数据量和计算复杂度逐渐增加,现有的数据聚类通常需要消耗大量的内存资源、计算资源和时间资源,处理效率低下、准确度不足,难以应用到黑灰产团伙识别之中。
技术实现思路
1、本专利技术的主要目的在于提供一种黑灰产团伙识别方法、装置、设备及存储介质,旨在解决现有的黑灰产团伙识别处理效率低下的技术问题。
2、本专利技术第一方面提供一种黑灰产团伙识别方法,所述黑灰产团伙识别方法包括:
3、获取黑灰产场景下的业务数据;
4、对所述业务数据进行预处理,得到多个缓存数据块和并行的多个分区数据集;
5、计算每一所述分区数据集中的所述业务数据和每一所述缓存数据块中的所述业务数据的相似度距离;
6、基于预设邻域半径阈值、预设邻居数目阈值和所述相似度距离,确定临时聚类簇;
7、对所述临时聚类簇重分区,并
8、将同一所述最终聚类簇中的各业务数据对应的目标对象识别为同一黑灰产团伙中的成员。
9、可选的,在本专利技术第一方面的第一种实现方式中,所述对所述业务数据进行预处理,得到多个缓存数据块和并行的多个分区数据集,包括:
10、初始化所述业务数据,并将所述业务数据聚合到业务数据集中;
11、对所述业务数据集进行分布式存储,以得到多个所述分区数据集;
12、对所述业务数据集进行缓存块划分,以得到多个所述缓存数据块。
13、可选的,在本专利技术第一方面的第二种实现方式中,所述计算每一所述分区数据集中的所述业务数据和每一所述缓存数据块中的所述业务数据的相似度距离,包括:
14、广播各所述缓存数据块,使得各所述分区数据集所在分区接收各所述缓存数据块中的所述业务数据;
15、基于预设相似度距离函数计算各所述分区数据集中的所有所述业务数据与每一所述缓存数据块中的所有所述业务数据间的所述相似度距离。
16、可选的,在本专利技术第一方面的第三种实现方式中,各所述业务数据包括不同权重的多个特征数据;
17、所述基于预设相似度距离函数计算各所述分区数据集中的所有所述业务数据与每一所述缓存数据块中的所有所述业务数据间的所述相似度距离,包括:
18、计算各所述业务数据间的相同所述特征数据的权重之和,将所述权重之和作为所述相似度距离。
19、可选的,在本专利技术第一方面的第四种实现方式中,所述基于预设邻域半径阈值、预设邻居数目阈值和所述相似度距离,确定临时聚类簇,包括:
20、将多个所述相似度距离聚合,以得到相似度距离数据集;
21、基于所述预设邻域半径阈值和所述相似度距离数据集,将与各所述业务数据的相似度距离不大于所述预设邻域半径阈值的所述业务数据作为邻居业务数据;
22、将所述邻居业务数据的数目不小于所述预设邻居数目阈值的所述业务数据作为核心业务数据,并将所述核心业务数据与对应的所述邻居业务数据作为所述核心业务数据对应的临时聚类簇。
23、可选的,在本专利技术第一方面的第五种实现方式中,所述对所述临时聚类簇重分区,并逐渐减小分区数目至所有密度可达的所述临时聚类簇合并到同一分区中,以得到最终聚类簇,包括:
24、将多个所述临时聚类簇聚合,以得到临时聚类簇数据集;
25、将所述临时聚类簇数据集分布式存储到多个分区中,使得每一分区包括至少一个所述临时聚类簇数据集中的所述临时聚类簇;
26、将每一所述分区内的密度可达的所述临时聚类簇合并,以得到各分区中的中间聚类簇;
27、在包括所述中间聚类簇的分区数目不为1时,将至少两个分区中的所述中间聚类簇合并到同一分区;或
28、将各所述分区中的所述中间聚类簇聚合,得到中间聚类簇数据集,并将所述中间聚类簇数据集分布式存储到更小数目个分区中;
29、将新的每一所述分区内密度可达的所述临时聚类簇合并,以更新各分区中的中间聚类簇;
30、在包括所述中间聚类簇的分区数目为1时,将所述中间聚类簇作为最终聚类簇。
31、可选的,在本专利技术第一方面的第六种实现方式中,所述对所述业务数据进行预处理,得到多个缓存数据块和并行的多个分区数据集,还包括:
32、对每一所述业务数据赋予唯一标识符;
33、所述将所述临时聚类簇数据集分布式存储到多个分区中,包括:
34、将具备至少一个相同所述唯一标识符的所述业务数据的所述临时聚类簇分布式存储到同一分区中;
35、所述将所述中间聚类簇数据集分布式存储到更小数目个分区中,包括:
36、将具备至少一个相同所述唯一标识符的所述业务数据的所述中间聚类簇分布式存储到同一分区中。
37、本专利技术第二方面还提供一种黑灰产团伙识别装置,所述黑灰产团伙识别装置包括:
38、获取模块,用于获取黑灰产场景下的业务数据;
39、预处理模块,用于对所述业务数据进行预处理,得到多个缓存数据块和并行的多个分区数据集;
40、计算模块,用于计算每一所述分区数据集中的所述业务数据和每一所述缓存数据块中的所述业务数据的相似度距离;
41、第一聚类模块,用于基于预设邻域半径阈值、预设邻居数目阈值和所述相似度距离,确定临时聚类簇;
42、第二聚类模块,用于对所述临时聚类簇重分区,并逐渐减小分区数目至所有密度可达的所述临时聚类簇合并到同一分区中,以得到最终聚类簇;
43、识别模块,用于将同一所述最终聚类簇中的各业务数据对应的目标对象识别为同一黑灰产团伙中的成员。
44、本专利技术第三方面还提供一种计算机设备,所述计算机设备包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述计算机设备执行如上述所述的黑灰产团伙识别方法。
45、本专利技术第四方面还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,所述指令被处理器执行时实现如上述所述的黑灰产团伙识别方法。
46、本专利技术实施例提供的一种黑灰产团伙识别方法、装置、设备及存储介质,先获取黑灰产场景下的业务数据;然后对业务数据进行预处理,得本文档来自技高网...
【技术保护点】
1.一种黑灰产团伙识别方法,其特征在于,所述黑灰产团伙识别方法包括:
2.根据权利要求1所述黑灰产团伙识别方法,其特征在于,所述对所述业务数据进行预处理,得到多个缓存数据块和并行的多个分区数据集,包括:
3.根据权利要求1所述的黑灰产团伙识别方法,其特征在于,所述计算每一所述分区数据集中的所述业务数据和每一所述缓存数据块中的所述业务数据的相似度距离,包括:
4.根据权利要求3所述的黑灰产团伙识别方法,其特征在于,各所述业务数据包括不同权重的多个特征数据;
5.根据权利要求1所述的黑灰产团伙识别方法,其特征在于,所述基于预设邻域半径阈值、预设邻居数目阈值和所述相似度距离,确定临时聚类簇,包括:
6.根据权利要求5所述的黑灰产团伙识别方法,其特征在于,所述对所述临时聚类簇重分区,并逐渐减小分区数目至所有密度可达的所述临时聚类簇合并到同一分区中,以得到最终聚类簇,包括:
7.根据权利要求6所述的黑灰产团伙识别方法,其特征在于,所述对所述业务数据进行预处理,得到多个缓存数据块和并行的多个分区数据集,还包括:
< ...【技术特征摘要】
1.一种黑灰产团伙识别方法,其特征在于,所述黑灰产团伙识别方法包括:
2.根据权利要求1所述黑灰产团伙识别方法,其特征在于,所述对所述业务数据进行预处理,得到多个缓存数据块和并行的多个分区数据集,包括:
3.根据权利要求1所述的黑灰产团伙识别方法,其特征在于,所述计算每一所述分区数据集中的所述业务数据和每一所述缓存数据块中的所述业务数据的相似度距离,包括:
4.根据权利要求3所述的黑灰产团伙识别方法,其特征在于,各所述业务数据包括不同权重的多个特征数据;
5.根据权利要求1所述的黑灰产团伙识别方法,其特征在于,所述基于预设邻域半径阈值、预设邻居数目阈值和所述相似度距离,确定临时聚类簇,包括:
6.根据权利要...
【专利技术属性】
技术研发人员:刘汉林,李豪,
申请(专利权)人:广州虎牙科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。