本公开的实施例提供了一种基于流量数据的欺诈用户识别方法以及装置。该方法包括:根据网站的流量数据,确定网站被访问的路径及其路径评分;从网站的流量数据中,筛选访问路径包括路径评分高于或等于预设阈值的路径的流量数据;根据筛选的流量数据的访问路径,对筛选的流量数据进行聚类;根据每个类中各流量数据的访问路径,确定每个类的热点路径;根据每个类的热点路径,计算每个类中各流量数据的热点路径偏离度;根据每个类中各流量数据的热点路径偏离度,识别欺诈用户。以此方式,可以有效提高欺诈用户的识别效果。提高欺诈用户的识别效果。提高欺诈用户的识别效果。
【技术实现步骤摘要】
基于流量数据的欺诈用户识别方法以及装置
[0001]本公开涉及网络安全
,尤其涉及一种基于流量数据的欺诈用户识别方法以及装置。
技术介绍
[0002]随着互联网的不断发展,为了使正常用户更好地享受服务,需要对用户进行识别,以确定混杂在正常用户中的欺诈用户。
[0003]目前,多数互联网企业通过规则引擎和线下调查来识别欺诈用户,但是该方案存在覆盖范围较小,准确率不高的问题。因此,如何提高欺诈用户的识别效果就成了当前亟待解决的技术问题。
技术实现思路
[0004]本公开提供了一种基于流量数据的欺诈用户识别方法以及装置。
[0005]第一方面,本公开的实施例提供了一种基于流量数据的欺诈用户识别方法,该方法包括:
[0006]根据网站的流量数据,确定网站被访问的路径及其路径评分;
[0007]从网站的流量数据中,筛选访问路径包括路径评分高于或等于预设阈值的路径的流量数据;
[0008]根据筛选的流量数据的访问路径,对筛选的流量数据进行聚类;
[0009]根据每个类中各流量数据的访问路径,确定每个类的热点路径;
[0010]根据每个类的热点路径,计算每个类中各流量数据的热点路径偏离度;
[0011]根据每个类中各流量数据的热点路径偏离度,识别欺诈用户。
[0012]在第一方面的一些可实现方式中,根据网站的流量数据,确定网站被访问的路径及其路径评分,包括:
[0013]对网站的流量数据进行资产树梳理,得到网站的资产树,其中,资产树以树状结构表示网站被访问的路径;
[0014]根据资产树中的路径对应的流量数据,计算资产树中各路径的基础评分、算法评分、调节评分、补充信息评分;
[0015]根据资产树中各路径的基础评分、算法评分、调节评分、补充信息评分,计算资产树中各路径的路径评分。
[0016]在第一方面的一些可实现方式中,根据筛选的流量数据的访问路径,对筛选的流量数据进行聚类,包括;
[0017]根据筛选的流量数据的session id,将同一session id的流量数据聚合为整体化的流量数据;
[0018]对各整体化的流量数据的路径跳转进行归一化和向量化,得到各整体化的流量数据的路径访问特征;
[0019]根据各整体化的流量数据的路径访问特征,对各整体化的流量数据进行聚类。
[0020]在第一方面的一些可实现方式中,根据每个类中各流量数据的访问路径,确定每个类的热点路径,包括:
[0021]统计各访问路径在其对应类中所涉及流量数据的个数;
[0022]将各访问路径在其对应类中所涉及流量数据的个数除以对应类中流量数据的总数,得到各访问路径在其对应类的热点系数;
[0023]将每个类对应访问路径中热点系数大于或等于预设阈值的访问路径确定为热点路径。
[0024]在第一方面的一些可实现方式中,根据每个类的热点路径,计算每个类中各流量数据的热点路径偏离度,包括:
[0025]对每个类中各流量数据进行统计,得到每个类中各流量数据的统计数据,其中,统计数据包括:热点路径耗时、热点路径访问比例、独立热点路径个数占总热点路径个数的比例、热点路径总访问数量;
[0026]根据每个类中各流量数据的统计数据,计算每个类中各流量数据的热点路径耗时的偏离度、热点路径访问比例的偏离度、独立热点路径个数占总热点路径个数的比例的偏离度、热点路径总访问数量的偏离度;
[0027]根据每个类中各流量数据的各偏离度,计算每个类中各流量数据的热点路径偏离度。
[0028]在第一方面的一些可实现方式中,根据每个类中各流量数据的各偏离度,计算每个类中各流量数据的热点路径偏离度,包括:
[0029]对于每个类中任一流量数据,对其各偏离度进行加权求和,得到流量数据的热点路径偏离度。
[0030]在第一方面的一些可实现方式中,根据每个类中各流量数据的热点路径偏离度,识别欺诈用户,包括:
[0031]将热点路径偏离度大于或等于预设阈值的流量数据对应的用户确定为欺诈用户。
[0032]第二方面,本公开的实施例提供了一种基于流量数据的欺诈用户识别装置,该装置包括:
[0033]确定模块,用于根据网站的流量数据,确定网站被访问的路径及其路径评分;
[0034]筛选模块,用于从网站的流量数据中,筛选访问路径包括路径评分高于或等于预设阈值的路径的流量数据;
[0035]聚类模块,用于根据筛选的流量数据的访问路径,对筛选的流量数据进行聚类;
[0036]确定模块,还用于根据每个类中各流量数据的访问路径,确定每个类的热点路径;
[0037]计算模块,用于根据每个类的热点路径,计算每个类中各流量数据的热点路径偏离度;
[0038]识别模块,用于根据每个类中各流量数据的热点路径偏离度,识别欺诈用户。
[0039]第三方面,本公开的实施例提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如以上所述的方法。
[0040]第四方面,本公开的实施例提供了一种存储有计算机指令的非瞬时计算机可读存
储介质,计算机指令用于使计算机执行如以上所述的方法。
[0041]在本公开的实施例中,可以根据网站的流量数据确定网站被访问的不同路径的重要程度,进而过滤掉针对无关路径的流量数据,并在此基础上对筛选的流量数据进行聚类,从而更有针对性的判定团伙用户,并根据类的热点路径,高效地识别团伙用户中的欺诈用户,避免对团伙用户进行无差别判定,极大地提高了欺诈用户的识别效果。
[0042]应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
[0043]结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本方案,不构成对本公开的限定在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
[0044]图1示出了本公开的实施例提供的一种基于流量数据的欺诈用户识别方法的流程图;
[0045]图2示出了本公开的实施例提供的一种伪静态资源的示意图;
[0046]图3示出了本公开的实施例提供的一种基于流量数据的欺诈用户识别装置的结构图;
[0047]图4示出了一种能够实施本公开的实施例的示例性电子设备的结构图。
具体实施方式
[0048]为使本公开的实施例的目的、技术方案和优点更加清楚,下面将结合本公开的实施例中的附图,对本公开的实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于流量数据的欺诈用户识别方法,其特征在于,所述方法包括:根据网站的流量数据,确定网站被访问的路径及其路径评分;从网站的流量数据中,筛选访问路径包括路径评分高于或等于预设阈值的路径的流量数据;根据筛选的流量数据的访问路径,对筛选的流量数据进行聚类;根据每个类中各流量数据的访问路径,确定每个类的热点路径;根据每个类的热点路径,计算每个类中各流量数据的热点路径偏离度;根据每个类中各流量数据的热点路径偏离度,识别欺诈用户。2.根据权利要求1所述的方法,其特征在于,所述根据网站的流量数据,确定网站被访问的路径及其路径评分,包括:对网站的流量数据进行资产树梳理,得到网站的资产树,其中,所述资产树以树状结构表示网站被访问的路径;根据所述资产树中的路径对应的流量数据,计算所述资产树中各路径的基础评分、算法评分、调节评分、补充信息评分;根据所述资产树中各路径的基础评分、算法评分、调节评分、补充信息评分,计算所述资产树中各路径的路径评分。3.根据权利要求1所述的方法,其特征在于,所述根据筛选的流量数据的访问路径,对筛选的流量数据进行聚类,包括;根据筛选的流量数据的session id,将同一session id的流量数据聚合为整体化的流量数据;对各整体化的流量数据的路径跳转进行归一化和向量化,得到各整体化的流量数据的路径访问特征;根据各整体化的流量数据的路径访问特征,对各整体化的流量数据进行聚类。4.根据权利要求1所述的方法,其特征在于,所述根据每个类中各流量数据的访问路径,确定每个类的热点路径,包括:统计各访问路径在其对应类中所涉及流量数据的个数;将各访问路径在其对应类中所涉及流量数据的个数除以对应类中流量数据的总数,得到各访问路径在其对应类的热点系数;将每个类对应访问路径中热点系数大于或等于预设阈值的访问路径确定为热点路径。5.根据权利要求1所述的方法,其特征在于,所述根据每个类的热点路径,计算每个类中各流量数据的热点路径偏离度,包括:对每个类中各流量数据进行统计,得到每个类中各流量数据的统计数据,其中,所述统计数据包括:热点路径...
【专利技术属性】
技术研发人员:陈刚,邓巧华,高霞,
申请(专利权)人:中通服创发科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。