本申请提供了一种社群挖掘方法,包括:获取第一数据集中与标注数据集关联的第一数据子集;基于所述第一数据子集构建第一社群;将所述第一社群包括的每个社区压缩为一个节点,以所述第一数据集中数据的特征为粒度获取所述第一数据集中与所述节点关联的第二数据子集,基于所述第二数据子集构建第二社群;直至所述第一数据集中的数据无法与所述节点关联,或基于所述第一数据集构建的社群结果不再变化;输出所述社群结果;本申请还提供一种社群挖掘装置、电子设备和存储介质,通过本申请提供的社群挖掘方法、装置、电子设备和存储介质,可以高效地进行社群挖掘。可以高效地进行社群挖掘。可以高效地进行社群挖掘。
【技术实现步骤摘要】
一种社群挖掘方法、装置、电子设备及存储介质
[0001]本申请涉及数据挖掘
,尤其涉及一种社群挖掘方法、装置、电子设备及存储介质。
技术介绍
[0002]近年来随着学术界与工业界对人工智能(Artificial Intelligence,AI)领域探索的不断加深,各大银行通过互联网在增进金融服务效率、降低业务成本方面的优势逐渐显现。但是在给客户带来方便和优惠的同时,也吸引了以诱骗用户资金、攫取优惠补贴为目的的恶意分子。
[0003]社群挖掘是从复杂的网络结构中,通过识别具有特种规律的社区或数据,进而对复杂网络进行划分,找出节点潜在联系规律的一种技术,在对抗网络黑产社群的过程中起到至关重要的作用,因此,如何高效地进行社群挖掘是需要解决的技术问题。
技术实现思路
[0004]本申请提供一种社群挖掘方法、装置、电子设备及存储介质,以至少解决现有技术中存在的以上技术问题。
[0005]本申请一方面提供一种社群挖掘方法,包括:获取第一数据集中与标注数据集关联的第一数据子集;基于所述第一数据子集构建第一社群;将所述第一社群包括的每个社区压缩为一个节点,以所述第一数据集中数据的特征为粒度获取所述第一数据集中与所述节点关联的第二数据子集,基于所述第二数据子集构建第二社群;直至所述第一数据集中的数据无法与所述节点关联,或基于所述第一数据集构建的社群结果不再变化;输出所述社群结果。
[0006]上述方案中,所述以所述第一数据集中数据的特征为粒度获取所述第一数据集中与所述节点关联的第二数据子集,基于所述第二数据子集构建第二社群,包括:针对每个节点执行下述操作:确认所述第一数据集中与所述节点包括的参数相同的数据构成第二数据子集;基于所述第二数据子集构建第二社群。
[0007]上述方案中,所述基于所述第一数据子集构建第一社群包括:基于所述第一数据子集构建网络结构拓扑图;确定所述网络结构拓扑图中每一个节点对应的模块度;基于所述每一个节点对应的模块度,构建所述第一社群。
[0008]上述方案中,所述将所述第一社群包括的每个社区压缩为一个节点之前,所述方法还包括:删除所述至少一个社区中不满足第一条件的社区和/或所述社区对应的至少一个
节点。
[0009]上述方案中,所述将所述第一社群包括的每个社区压缩为一个节点包括:针对每个社区执行下述操作:确定所述社区对应的网络架构中各节点之间的边的权重,为所述社区对应的节点的环的权重;确定所述社区与其相邻的社区之间的边的权重,为所述社区对应节点与其相邻节点之间的边的权重。
[0010]上述方案中,所述输出所述社群结果之后,所述方法还包括:对所述社群结果中各社群进行风险性排序;确定风险性最高的至少一个社群为目标社群。
[0011]上述方案中,所述对所述社群结果中各社群进行风险性排序,包括:基于各所述社群的社群标签覆盖比、各所述社群的时间跨越度和各所述社群对应的分值,对社群挖掘结果中各社群进行风险性排序。
[0012]上述方案中,所述各所述社群的社群标签覆盖比包括:各所述社群包括的数据与所述标注数据集中标注标签数据的并集对应的数量,与全部社群包括的全部数据的数量之商;所述各社群的时间跨越度包括:各所述社群包括的数据的触发时间与当前时间之差的平均值;所述各所述对应的分值包括:各所述社群包括的数据满足第二条件时,分配至所述社群的分值。
[0013]本申请第二方面提供一种社群挖掘装置,包括:获取单元,用于获取第一数据集中与标注数据集关联的第一数据子集;构建单元,用于基于所述第一数据子集构建第一社群;处理单元,用于将所述第一社群包括的每个社区压缩为一个节点,以所述第一数据集中数据的特征为粒度获取所述第一数据集中与所述节点关联的第二数据子集,基于所述第二数据子集构建第二社群;直至所述第一数据集中的数据无法与所述节点关联,或基于所述第一数据集构建的社群结果不再变化;输出单元,用于输出所述社群结果。
[0014]本申请第三方面提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述社群挖掘方法所述的方法步骤。
[0015]本申请第四方面提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述社群挖掘方法所述的方法步骤。
[0016]通过本申请提供的社群挖掘方法,获取第一数据集中与标注数据集关联的第一数据子集;基于所述第一数据子集构建第一社群;将所述第一社群包括的每个社区压缩为一个节点,以所述第一数据集中数据的特征为粒度获取所述第一数据集中与所述节点关联的第二数据子集,基于所述第二数据子集构建第二社群;直至所述第一数据集中的数据无法与所述节点关联,或基于所述第一数据集构建的社群结果不再变化;输出所述社群结果,可以高效地进行社群挖掘。
附图说明
[0017]图1示出了本申请实施例提供的社群挖掘系统的架构示意图;图2示出了本申请实施例提供的电子设备的结构示意图;图3示出了本申请实施例提供的社群挖掘方法的一种可选流程示意图;图4示出了本申请实施例提供的社群挖掘方法的另一种可选流程示意图;图5示出了本申请实施例提供的社群挖掘装置的一种可选结构示意图;图6示出了本申请实施例提供的社群挖掘方法的再一种可选流程示意图。
具体实施方式
[0018]为使本申请的目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0019]近年来随着学术界与工业界对人工智能(Artificial Intelligence,AI)领域探索的不断加深,各大银行通过互联网在增进金融服务效率、降低业务成本方面的优势逐渐显现。但是在给客户带来方便和优惠的同时,也吸引了以诱骗用户资金、攫取优惠补贴为目的的恶意分子。
[0020]据《数字金融反欺诈白皮书》显示,以欺诈为目标的恶意分子已经逐渐形成了目标精准、分工明确、技术先进的网络黑色产业团队(网络黑产社群)。估计造成的损失规模高达千亿元级别,现阶段,如何对抗网络黑产社群已经成为银行研究的核心问题。
[0021]目前银行行业在应对黑产社群的风控方法主要是依靠业务专家对用户的消费行为记录进行直接人工审核或者根据卡片和商户的交易特征,构建专家规则进行识别。业务专家直接进行审核,一方面不同专家的评判标准不同,导致审核结果的主观性太大,审核结果的稳定性太差;另一方面还因为审核量往往较大,会导致效率审核效率非常的低下,完全不适应于当下电子或电子银行大规模记录的业务场景需求。简单的专家规则由于形式简单,而且规则的制定又非常依赖于专家的经验,很难应对黑产团伙多种多样的本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种社群挖掘方法,其特征在于,所述方法包括:获取第一数据集中与标注数据集关联的第一数据子集;基于所述第一数据子集构建第一社群;将所述第一社群包括的每个社区压缩为一个节点,以所述第一数据集中数据的特征为粒度获取所述第一数据集中与所述节点关联的第二数据子集,基于所述第二数据子集构建第二社群;直至所述第一数据集中的数据无法与所述节点关联,或基于所述第一数据集构建的社群结果不再变化;输出所述社群结果。2.根据权利要求1所述的方法,其特征在于,所述以所述第一数据集中数据的特征为粒度获取所述第一数据集中与所述节点关联的第二数据子集,基于所述第二数据子集构建第二社群,包括:针对每个节点执行下述操作:确认所述第一数据集中与所述节点包括的参数相同的数据构成第二数据子集;基于所述第二数据子集构建第二社群。3.根据权利要求1所述的方法,其特征在于,所述基于所述第一数据子集构建第一社群包括:基于所述第一数据子集构建网络结构拓扑图;确定所述网络结构拓扑图中每一个节点对应的模块度;基于所述每一个节点对应的模块度,构建所述第一社群。4.根据权利要求1所述的方法,其特征在于,所述将所述第一社群包括的每个社区压缩为一个节点之前,所述方法还包括:删除所述第一社群中不满足第一条件的社区和/或所述社区对应的至少一个节点。5.根据权利要求1或4所述的方法,其特征在于,所述将所述第一社群包括的每个社区压缩为一个节点包括:针对每个社区执行下述操作:确定所述社区对应的网络架构中各节点之间的边的权重,为所述社区对应的节点的环的权重;确定所述社区与其相邻的社区之间的边的权重,为所述社区对应节点与其相邻节点之间的边的权重。6.根据权利要求1所述的方法,其特征在于,所述输出所述社群结果之后,所述方法还包括:对所述社群结果中各社群进行风险性排序;确定...
【专利技术属性】
技术研发人员:刘博文,李晨阳,蔡准,孙悦,郭晓鹏,
申请(专利权)人:北京芯盾时代科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。