一种虚假交易信息识别方法技术

技术编号:8626205 阅读:233 留言:0更新日期:2013-04-25 23:22
本发明专利技术公开了一种虚假交易信息识别方法,包括:步骤S101,获取用户发布信息的信息特征、信息内容和/或图片信息;步骤S201,根据用户发布信息的信息特征、信息内容和/或图片信息,对用户发布消息进行虚假交易信息识别。本发明专利技术可以大大的减少交易信息的虚假量,提高交易信息的真实性,增加用户体验,同时可以大大减少人力成本。

【技术实现步骤摘要】

本专利技术涉及互联网
,特别是涉及。
技术介绍
随着互联网的发展,网上的信息变得越来越泛滥,越来越真假难辨。对于电子商务或分类信息等类型的网站,如果能够为用户提供安全、真实的商品信息,已经成为一项重要而又基本的内容,于是如何识别用户发布信息的真假已经成为了确保信息安全的关键,这也是很多网站都面临的问题。在识别虚假交易信息上,目前的方法主要是通过人工的审核,外加一些技术手段,例如确定黑名单的IP (Internet Protocol,网络之间互连的协议)地址、确定发布的信息内容或格式不合法、价格区间不合法等将完全确定信息不合法的信息删除。现有策略的缺点是人工审核太消耗人力、辅助的技术手段只能删除少部分的虚假交易信息,还有大量的虚假交易信息逃脱,可以删除100%确定为虚假的信息,但是对有85%可能为假的信息无能为力,因为都不能判断信息为假的程度。
技术实现思路
本专利技术要解决的技术问题是提供置,用以解决现有技术进行虚假交易信息识别上人工消耗大、虚假交易信息识别率低的问题。为解决上述技术问题,一方面,本专利技术提供,包括步骤S101,获取用户发布信息的信息特征、信息内容和/或图片信息;步骤S201,根据用户发布信息的信息特征、信息内容和/或图片信息,对用户发布消息进行虚假交易信息识别。进一步,在获取用户发布信息的信息特征之前,包括以下步骤步骤S1011,获取之前用户发布消息的基本数据;步骤S1012,根据获取的之前用户发布消息的基本数据,提取训练数据,确定正负样本;步骤S1013,对正负样本中的数据进行特征转换,得到设定数据格式的数据;步骤S1014,根据设定数据格式的数据,建立回归模型。进一步,步骤S1013具体包括将正负样本中的每条数据的特征确定为数值型或枚举型两类;数值型的维度值不变,在数值型数据处于样本中的位置处置该数值型数据的数值;枚举型的维度值先计算其md5值,然后将md5值对W取模,得到取模结果;在样本中将处于取模结果位置的数值置I。进一步,步骤S1014具体包括将步骤S1013得到的设定数据格式的数据转化为稀疏矩阵;在模型训练程序中输入产生的稀疏矩阵(Xl,X2, X3, X4, X5,……,Xp),p为设定数据格式的数据的数据量;得到每一条记录对应的参数(i^,P1, β2,β3,β4,β5,……,βρ);建立回归模型,回归模型为本文档来自技高网...

【技术保护点】
一种虚假交易信息识别方法,其特征在于,包括:步骤S101,获取用户发布信息的信息特征、信息内容和/或图片信息;步骤S201,根据用户发布信息的信息特征、信息内容和/或图片信息,对用户发布消息进行虚假交易信息识别。

【技术特征摘要】
1.一种虚假交易信息识别方法,其特征在于,包括 步骤S101,获取用户发布信息的信息特征、信息内容和/或图片信息; 步骤S201,根据用户发布信息的信息特征、信息内容和/或图片信息,对用户发布消息进行虚假交易信息识别。2.如权利要求1所述的虚假交易信息识别方法,其特征在于,在获取用户发布信息的信息特征之前,包括以下步骤 步骤S1011,获取之前用户发布消息的基本数据; 步骤S1012,根据获取的之前用户发布消息的基本数据,提取训练数据,确定正负样本; 步骤S1013,对正负样本中的数据进行特征转换,得到设定数据格式的数据; 步骤S1014,根据设定数据格式的数据,建立回归模型。3.如权利要求2所述的虚假交易信息识别方法,其特征在于,步骤S1013具体包括 将正负样本中的每条数据的特征确定为数值型或枚举型两类; 数值型的维度值不变,在数值型数据处于样本中的位置处置该数值型数据的数值;枚举型的维度值则先计算其md5值,然后将md5值对W取模,得到取模结果;在样本中将处于取模结果位置的数值置I。4.如权利要求3所述的虚假交易信息识别方法,其特征在于,步骤S1014具体包括 将步骤S1013得到的数据转化为稀疏矩阵; 在模型训练程序程序中输入产生的稀疏矩阵(Xl,x2) X3, X4, x5,……,xP),P为设定数据格式的数据的数据量;得到每一条记录对应的参数(i^,P1, β2,β3,β4,β5,……,βρ); 建立回归模型,回归模型为=;其中g(x) = βο+βιΧι+β2Χ2+···+ βρΧρ。5.如权利要求4所述的虚假交易信息识别方法,其特征在于,在建立回归模型之后,当接收到用户发布信息时,则步骤SlOl具体为 步骤S1015,获取用户发布消息的基本数据;包括提取用户发布消息的基本特征和获取元特征;基本特征与元特征一起作为挖掘的基本数据。6.如权利要求5所述的虚假交易信息识别方法,其特征在于,在获取用户发布消息的基本数据之后,步骤S201具体包括以下步骤 步骤S2011,对获取用户发布消息的基本数据进行特征转换,得到设定数据格式的数据; 步骤S2012,将步骤S2011得到的设定数据格式的数据转化为稀疏矩阵的形式,通过回归模型进行虚假消息识别;其中,Ρ>Μ,则Y=l,表示用户发布信息为真实交易信息;反之,P ( Μ,则Υ=0,表示用户发布信息为虚假交易信息;Μ是预先设定的阈值。7.如权利要求1或6所述的虚假交易信息识别方法,其特征在于,...

【专利技术属性】
技术研发人员:王永康张爱华
申请(专利权)人:五八同城信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1