本发明专利技术提供一种用户行为数据的处理方法及装置。本发明专利技术实施例通过根据用户行为数据,获取同一IP地址的待评测的M个统计数据,M为大于或等于2的整数,进而将所述M个统计数据中每个统计数据分别输入对应的分类器,以获得每个分类器所输出的评测结果,并根据所述每个分类器所输出的评测结果,获得所述IP地址的分类结果,使得能够根据所述IP地址的分类结果,对所述用户行为数据进行过滤处理,以获得一次过滤的用户行为数据,由于每个分类器是分别针对不同的统计数据,使得能够充分利用每个分类器的分类能力得到用户行为数据的分类结果,从而提高了分类结果的准确率。
【技术实现步骤摘要】
【专利说明】
本专利技术涉及机器学习技术,尤其涉及一种用户行为数据的处理方法及装置。【
技术介绍
】在机器学习中,可以利用大量已知的训练样本,构建分类模型即分类器,进而利用所构建的分类器对未知的数据进行评测。分类器可以应用在很多场景,例如,由于因网络作弊而产生的垃圾页面以及垃圾用户行为数据越来越多,严重影响了搜索引擎的检索效率和用户体验,因此,反作弊已经成为搜索引擎所面临的最重要的挑战之一,可以将利用已标注的正常数据和作弊数据,构建一个分类器,以对网络数据进行识别。现有技术中,可以利用所构建的一个分类器,对用户行为数据进行评测,以获得分类结果。然而,采用单一的分类器,其所评测的用户行为数据的分类结果的准确率不高。【
技术实现思路
】本专利技术的多个方面提供一种用户行为数据的处理方法及装置,用以提高分类结果的准确率。本专利技术的一方面,提供一种用户行为数据的处理方法,包括:根据用户行为数据,获取同一 IP地址的待评测的M个统计数据,M为大于或等于2的整数;将所述M个统计数据中每个统计数据分别输入对应的分类器,以获得每个分类器所输出的评测结果;根据所述每个分类器所输出的评测结果,获得所述IP地址的分类结果;根据所述IP地址的分类结果,对所述用户行为数据进行过滤处理,以获得一次过滤的用户行为数据。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述将所述M个统计数据中每个统计数据分别输入对应的分类器,以获得每个分类器所输出的评测结果,包括:根据所述M个统计数据中指定统计数据所属的分类区间,获得与所述分类区间对应的一组分类器;将所述M个统计数据中每个统计数据分别输入该组分类器中对应的分类器,以获得每个分类器所输出的评测结果。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述IP地址的分类结果,对所述用户行为数据进行过滤处理,以获得一次过滤的用户行为数据之后,还包括:根据所述一次过滤的用户行为数据,获取同一用户标识信息所对应的待评测的N个统计数据,N为大于或等于2的整数;将所述N个统计数据中每个统计数据分别输入对应的分类器,以获得每个分类器所输出的评测结果;根据所述每个分类器所输出的评测结果,获得同一用户标识信息的分类结果;根据所述同一用户标识信息的分类结果,对所述一次过滤的用户行为数据进行过滤处理,以获得二次过滤的用户行为数据。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述同一用户标识信息的分类结果,对所述一次过滤的用户行为数据进行过滤处理,以获得二次过滤的用户行为数据之后,还包括:获得同一 IP地址的一次过滤的用户行为数据中被过滤的用户行为数据与该IP地址的一次过滤的用户行为数据的比值;若所述比值大于或等于预先设置的阈值,对该IP地址的一次过滤的用户行为数据中没有被过滤的用户行为数据,进行删除处理,以获得三次过滤的用户行为数据。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述IP地址的分类结果,对所述用户行为数据进行过滤处理,以获得一次过滤的用户行为数据之后,还包括:根据过滤的用户行为数据,进行用户行为分析,以获得用户行为特征。本专利技术的另一方面,提供一种用户行为数据的处理装置,包括:获取单元,用于根据用户行为数据,获取同一 IP地址的待评测的M个统计数据,M为大于或等于2的整数;分类单元,用于将所述M个统计数据中每个统计数据分别输入对应的分类器,以获得每个分类器所输出的评测结果;处理单元,用于根据所述每个分类器所输出的评测结果,获得所述IP地址的分类结果;过滤单元,用于根据所述IP地址的分类结果,对所述用户行为数据进行过滤处理,以获得一次过滤的用户行为数据。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述分类单元,具体用于根据所述M个统计数据中指定统计数据所属的分类区间,获得与所述分类区间对应的一组分类器;以及将所述M个统计数据中每个统计数据分别输入该组分类器中对应的分类器,以获得每个分类器所输出的评测结果。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获取单元,还用于根据所述一次过滤的用户行为数据,获取同一用户标识信息所对应的待评测的N个统计数据,N为大于或等于2的整数;所述分类单元,还用于将所述N个统计数据中每个统计数据分别输入对应的分类器,以获得每个分类器所输出的评测结果;所述处理单元,还用于根据所述每个分类器所输出的评测结果,获得同一用户标识信息的分类结果;所述过滤单元,还用于根据所述同一用户标识信息的分类结果,对所述一次过滤的用户行为数据进行过滤处理,以获得二次过滤的用户行为数据。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述过滤单元,还用于获得同一 IP地址的一次过滤的用户行为数据中被过滤的用户行为数据与该IP地址的一次过滤的用户行为数据的比值;以及若所述比值大于或等于预先设置的阈值,对该IP地址的一次过滤的用户行为数据中没有被过滤的用户行为数据,进行删除处理,以获得三次过滤的用户行为数据。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述装置还包括分析单元,用于根据过滤的用户行为数据,进行用户行为分析,以获得用户行为特征。由上述技术方案可知,本专利技术实施例通过根据用户行为数据,获取同一 IP地址的待评测的M个统计数据,M为大于或等于2的整数,进而将所述M个统计数据中每个统计数据分别输入对应的分类器,以获得每个分类器所输出的评测结果,并根据所述每个分类器所输出的评测结果,获得所述IP地址的分类结果,使得能够根据所述IP地址的分类结果,对所述用户行为数据进行过滤处理,以获得一次过滤的用户行为数据,由于每个分类器是分别针对不同的统计数据,使得能够充分利用每个分类器的分类能力得到用户行为数据的分类结果,从而提高了分类结果的准确率。另外,采用本专利技术提供的技术方案,使得用户行为数据的分类结果不再单独依赖于任何一个分类器的评测结果,而是综合考虑M个分类器中每个分类器的评测结果,这样,能够有效提高分类结果的准确率。另外,采用本专利技术提供的技术方案,通过从IP地址和用户标识信息这两个维度,对用户行为数据进行过滤处理,能够较为准确地刻画用户行为特征,能够有效提高分类结果的准确率。【【附图说明】】为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的用户行为数据的处理方法的流程示意图;图2为本专利技术另一实施例提供的用户行为数据的处理装置的结构示意图;图3为本专利技术另一实施例提供的用户行为数据的处理装置的结构示意图。【【具体实施方式】】为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本专利技术保护的范围。另外,本文中术语“和/本文档来自技高网...
【技术保护点】
一种用户行为数据的处理方法,其特征在于,包括:根据用户行为数据,获取同一IP地址的待评测的M个统计数据,M为大于或等于2的整数;将所述M个统计数据中每个统计数据分别输入对应的分类器,以获得每个分类器所输出的评测结果;根据所述每个分类器所输出的评测结果,获得所述IP地址的分类结果;根据所述IP地址的分类结果,对所述用户行为数据进行过滤处理,以获得一次过滤的用户行为数据。
【技术特征摘要】
【专利技术属性】
技术研发人员:常明,陈朝钢,贾少攀,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。