一种作弊检测方法及装置制造方法及图纸

技术编号:15617731 阅读:289 留言:0更新日期:2017-06-14 03:48
本发明专利技术实施例公开了一种作弊检测方法及装置,涉及电子商务技术领域,能够降低审核的成本,并进一步提高自动审查的深度。本发明专利技术的方法包括:对样本数据进行统计,得到各个样本的指标参数,一个样本的指标参数的维度包括:一个样本的总点击量、点击人数、每小时点击量、样本点击地区和样本对应搜索词的点击量;根据指标参数,生成各个样本的特征参数,一个样本的特征参数的维度包括:点击量离散系数、每小时点击量离散系数、地域集中度、查询词多样性指数和人均点击量;根据各个样本的特征参数建立检测模型,并根据检测模型判定待测试的商品数据是否异常,检测模型的维度包括各个样本的特征参数的维度。本发明专利技术适用于自动审核作弊商品和用户。

【技术实现步骤摘要】
一种作弊检测方法及装置
本专利技术涉及电子商务
,尤其涉及一种作弊检测方法及装置。
技术介绍
随着电子商务技术的发展,在线购物平台已成为消费者在日常生活不可或缺的工具,在线购物平台也为商家提供了一种快捷方便并且成本低廉的销售渠道。而搜索引擎作为消费者检索商品的主要工具,如何在在线购物平台的搜索引擎上提高商品的曝光机会,是各大购物网站和商家最为关心的事情。商家为了获得更高的访问量,进而获得更高的经济效益,总是希望将自己店铺的商品排在搜索结果靠前的位置。目前已经出现不少商家针对搜索引擎的特点,采取欺骗手段提高商品在搜索引擎中的排名,比如:雇佣水军进行商品评论,通过虚假订单提高店铺的交易量等等,即所谓的作弊行为。为了防止商家的作弊行为,很多在线购物平台采用人工审核的方式确定店铺中的商品是否是作弊商品。但是由于工资水平的提高,以及商品的种类、数量的暴增,人工审核的成本很高。并且审查作弊商品已经需要占用很多人工成本,对于实行作弊的用户或是商品的审查,往往处于缺失状态,基本都是通过其他用户举报的方式进行被动处理。
技术实现思路
本专利技术的实施例提供一种作弊检测方法及装置,能够降低审核的成本,并进一步提高自动审查的深度。为达到上述目的,本专利技术的实施例采用如下技术方案:第一方面,本专利技术的实施例提供一种作弊检测方法,包括:对样本数据进行统计,得到各个样本的指标参数,其中,一个样本的指标参数的维度包括:所述一个样本的总点击量、点击人数、每小时点击量、样本点击地区和样本对应搜索词的点击量;根据所述指标参数,生成各个样本的特征参数,其中,一个样本的特征参数的维度包括:点击量离散系数、每小时点击量离散系数、地域集中度、查询词多样性指数和人均点击量;根据所述各个样本的特征参数建立检测模型,并根据所述检测模型判定待测试的商品数据是否异常,所述检测模型的维度包括所述各个样本的特征参数的维度。结合第一方面,在第一方面的第一种可能的实现方式中,所述根据所述指标参数,生成各个样本的特征参数,包括:对于一个样本:根据C=Stdev/Mean获取所述一个样本的总点击量离散系数,其中,Stdev表示所述一个样本的总点击量的标准差,Mean表示所述一个样本的总点击量的平均数,C表示所述一个样本的总点击量离散系数;根据C’=Stdev’/Mean’获取所述一个样本的指定时段内的点击量离散系数,其中,Stdev’表示所述一个样本的在指定时段内的点击量的标准差,Mean’表示所述一个样本的在指定时段内的平均数,C’表示所述一个样本的在指定时段内的离散系数;根据R=max(ni)/N获取所述一个样本的地域集中度,其中,ni表示所述一个样本的样本点击地区中的单个城市的点击量,N表示所述一个样本的样本点击地区中的总点击量,R表示所述一个样本的地域集中度;根据H=-∑(Pi)(lnPi)获取所述一个样本的查询词多样性指数,其中,H表示多样性指数,Pi表示在所述一个样本的样本对应搜索词的点击量中第i个查询词对应的点击量所占比例,当总点击量为N时,第i个查询词对应的点击量为ni,则Pi=ni/N;根据P=N/U获取所述一个样本的人均点击量,其中,N表示所述一个样本的总点击量,U表示所述一个样本的点击人数,P表示人均点击量;重复上述对于所述一个样本的过程,得到各个样本的特征参数。结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述根据所述各个样本的特征参数建立检测模型,包括:建立基础模型(X,Y),其中,X=(x1,x2,x3,x4,x5),Y=(1,0),x1表示点击量离散系数,x2表示指定时段内的点击量离散系数,x3表示地域集中度,x4表示查询词多样性指数,x5表示人均点击量,Y=1表示数据异常,Y=0表示数据正常根据所述各个样本的特征参数训练所述基础模型,得到所述检测模型。结合第一方面,在第一方面的第三种可能的实现方式中,还包括:当待测试的商品数据异常时,提取目标用户的信息,所述目标用户包括点击了出现异常的商品数据的用户;提取目标用户针对所述出现异常的商品数据的点击数;根据所述目标用户针对所述出现异常的商品数据的点击数,检测作弊用户的点击数;在所述出现异常的商品数据中,去除所述作弊用户的点击数。结合第一方面的第三种可能的实现方式,在第四种可能的实现方式中,还包括:所述检测作弊用户的点击数处于异常范围,所述异常范围包括:点击数处于大于μ+3σ和小于μ-3σ的用户;或者,点击数处于大于μ-2σ和小于μ+2σ的用户,其中,μ表示正态分布的数学期望,σ表示正态分布的标准差。第二方面,本专利技术的实施例提供一种作弊检测方法,包括:统计模块,用于对样本数据进行统计,得到各个样本的指标参数,其中,一个样本的指标参数的维度包括:所述一个样本的总点击量、点击人数、每小时点击量、样本点击地区和样本对应搜索词的点击量;特征提取模块,用于根据所述指标参数,生成各个样本的特征参数,其中,一个样本的特征参数的维度包括:点击量离散系数、每小时点击量离散系数、地域集中度、查询词多样性指数和人均点击量;分析模块,用于根据所述各个样本的特征参数建立检测模型,并根据所述检测模型判定待测试的商品数据是否异常,所述检测模型的维度包括所述各个样本的特征参数的维度。结合第二方面,在第二方面的第一种可能的实现方式中,所述特征提取模块,具体用于,对于一个样本:根据C=Stdev/Mean获取所述一个样本的总点击量离散系数,其中,Stdev表示所述一个样本的总点击量的标准差,Mean表示所述一个样本的总点击量的平均数,C表示所述一个样本的总点击量离散系数;根据C’=Stdev’/Mean’获取所述一个样本的指定时段内的点击量离散系数,其中,Stdev’表示所述一个样本的在指定时段内的点击量的标准差,Mean’表示所述一个样本的在指定时段内的平均数,C’表示所述一个样本的在指定时段内的离散系数;根据R=max(ni)/N获取所述一个样本的地域集中度,其中,ni表示所述一个样本的样本点击地区中的单个城市的点击量,N表示所述一个样本的样本点击地区中的总点击量,R表示所述一个样本的地域集中度;根据H=-∑(Pi)(lnPi)获取所述一个样本的查询词多样性指数,其中,H表示多样性指数,Pi表示在所述一个样本的样本对应搜索词的点击量中第i个查询词对应的点击量所占比例,当总点击量为N时,第i个查询词对应的点击量为ni,则Pi=ni/N;根据P=N/U获取所述一个样本的人均点击量,其中,N表示所述一个样本的总点击量,U表示所述一个样本的点击人数,P表示人均点击量;并重复上述对于所述一个样本的过程,得到各个样本的特征参数。结合第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述分析模块,具体用于建立基础模型(X,Y),其中,X=(x1,x2,x3,x4,x5),Y=(1,0),x1表示点击量离散系数,x2表示指定时段内的点击量离散系数,x3表示地域集中度,x4表示查询词多样性指数,x5表示人均点击量,Y=1表示数据异常,Y=0表示数据正常根据所述各个样本的特征参数训练所述基础模型,得到所述检测模型。结合第二方面,在第二方面的第三种可能的实现方式中,还包括:降权模块,所述降权模块包括:用户提取子模块,本文档来自技高网...
一种作弊检测方法及装置

【技术保护点】
一种作弊检测方法,其特征在于,包括:对样本数据进行统计,得到各个样本的指标参数,其中,一个样本的指标参数的维度包括:所述一个样本的总点击量、点击人数、每小时点击量、样本点击地区和样本对应搜索词的点击量;根据所述指标参数,生成各个样本的特征参数,其中,一个样本的特征参数的维度包括:点击量离散系数、每小时点击量离散系数、地域集中度、查询词多样性指数和人均点击量;根据所述各个样本的特征参数建立检测模型,并根据所述检测模型判定待测试的商品数据是否异常,所述检测模型的维度包括所述各个样本的特征参数的维度。

【技术特征摘要】
1.一种作弊检测方法,其特征在于,包括:对样本数据进行统计,得到各个样本的指标参数,其中,一个样本的指标参数的维度包括:所述一个样本的总点击量、点击人数、每小时点击量、样本点击地区和样本对应搜索词的点击量;根据所述指标参数,生成各个样本的特征参数,其中,一个样本的特征参数的维度包括:点击量离散系数、每小时点击量离散系数、地域集中度、查询词多样性指数和人均点击量;根据所述各个样本的特征参数建立检测模型,并根据所述检测模型判定待测试的商品数据是否异常,所述检测模型的维度包括所述各个样本的特征参数的维度。2.根据权利要求1所述的方法,其特征在于,所述根据所述指标参数,生成各个样本的特征参数,包括:对于一个样本:根据C=Stdev/Mean获取所述一个样本的总点击量离散系数,其中,Stdev表示所述一个样本的总点击量的标准差,Mean表示所述一个样本的总点击量的平均数,C表示所述一个样本的总点击量离散系数;根据C’=Stdev’/Mean’获取所述一个样本的指定时段内的点击量离散系数,其中,Stdev’表示所述一个样本的在指定时段内的点击量的标准差,Mean’表示所述一个样本的在指定时段内的平均数,C’表示所述一个样本的在指定时段内的离散系数;根据R=max(ni)/N获取所述一个样本的地域集中度,其中,ni表示所述一个样本的样本点击地区中的单个城市的点击量,N表示所述一个样本的样本点击地区中的总点击量,R表示所述一个样本的地域集中度;根据H=-∑(Pi)(lnPi)获取所述一个样本的查询词多样性指数,其中,H表示多样性指数,Pi表示在所述一个样本的样本对应搜索词的点击量中第i个查询词对应的点击量所占比例,当总点击量为N时,第i个查询词对应的点击量为ni,则Pi=ni/N;根据P=N/U获取所述一个样本的人均点击量,其中,N表示所述一个样本的总点击量,U表示所述一个样本的点击人数,P表示人均点击量;重复上述对于所述一个样本的过程,得到各个样本的特征参数。3.根据权利要求2所述的方法,其特征在于,所述根据所述各个样本的特征参数建立检测模型,包括:建立基础模型(X,Y),其中,X=(x1,x2,x3,x4,x5),Y=(1,0),x1表示点击量离散系数,x2表示指定时段内的点击量离散系数,x3表示地域集中度,x4表示查询词多样性指数,x5表示人均点击量,Y=1表示数据异常,Y=0表示数据正常根据所述各个样本的特征参数训练所述基础模型,得到所述检测模型。4.根据权利要求1所述的方法,其特征在于,还包括:当待测试的商品数据异常时,提取目标用户的信息,所述目标用户包括点击了出现异常的商品数据的用户;提取目标用户针对所述出现异常的商品数据的点击数;根据所述目标用户针对所述出现异常的商品数据的点击数,检测作弊用户的点击数;在所述出现异常的商品数据中,去除所述作弊用户的点击数。5.根据权利要求4所述的方法,其特征在于,还包括:所述检测作弊用户的点击数处于异常范围,所述异常范围包括:点击数处于大于μ+3σ和小于μ-3σ的用户;或者,点击数处于大于μ-2σ和小于μ+2σ的用户,其中,μ表示正态分布的数学期望,σ表示正态分布的标准差。6.一种作弊检测装置,其特征在于,包括:统...

【专利技术属性】
技术研发人员:孙鹏飞李春生金阳春
申请(专利权)人:苏宁云商集团股份有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1