【技术实现步骤摘要】
一种基于HMM的刷单预测系统及方法
本专利技术涉及机器学习和电子商务
,特别涉及一种基于HMM的刷单预测系统及方法。
技术介绍
随着我国互联网经济的快速发展,网购因其方便、快捷、经济等优点得到广大消费者的青睐。与此同时,由于网络交易虚拟化的特征,刷单已经成为网络购物的普遍问题。所谓“刷单”是指网店经营者雇佣专业从事网店信誉提升的刷单平台,用虚假的购物方式提高店铺的信誉、销量及排名,来吸引消费者的行为。消费者在不知情的情况下,会首选这些“信誉好”的店铺,导致利益受损。由于相关监管部门难以实时监察海量网购订单,因此迫切需要一种自动化的识别刷单的系统及方法。
技术实现思路
本专利技术的目的是提供一种基于HMM的刷单预测系统及方法,本专利技术根据自动收集网购商品的信息建立HMM模型模型,并根据优化后的HMM模型及时准确的预测网购商品是否为刷单商品。为了达到上述目的,本专利技术提供一种基于HMM的刷单预测系统,包括:数据收集模块,其利用网页爬虫工具获取t时刻若干待检测商品的信息数据,其中0≤t≤T;将t=0时刻的信息数据作为第一数据集,其余时刻的信息数据构成第二数据集;人工为第一数据集的训练集商品设置标签,通过所述标签表示该待检测商品为正常商品或刷单商品;预处理模块,其根据所述待检测商品的信息数据,提取对应的若干个特征,并根据所述特征生成对应的特征组合值;HMM模型训练模块,其根据第一数据集的待检测商品的所述特征、特征组合值生成初始HMM模型,采用HMM参数学习 ...
【技术保护点】
1.一种基于HMM的刷单预测系统,其特征在于,包括:/n数据收集模块,其利用网页爬虫工具获取t时刻若干待检测商品的信息数据,其中0≤t≤T;将t=0时刻的信息数据作为第一数据集,其余时刻的信息数据构成第二数据集;人工为第一数据集的训练集商品设置标签,通过所述标签表示该待检测商品为正常商品或刷单商品;/n预处理模块,其根据所述待检测商品的信息数据,提取对应的若干个特征,并根据所述特征生成对应的特征组合值;/nHMM模型训练模块,其根据第一数据集的待检测商品的所述特征、特征组合值生成初始HMM模型,采用HMM参数学习的Baum-Welch算法,基于所述第二数据集优化所述初始HMM模型,生成最终的HMM模型;/n刷单预测模块,其根据第二数据集的待检测商品的特征组合值和所述最终的HMM模型,采用Viterbi算法实时预测1≤t≤T时刻的刷单结果。/n
【技术特征摘要】
1.一种基于HMM的刷单预测系统,其特征在于,包括:
数据收集模块,其利用网页爬虫工具获取t时刻若干待检测商品的信息数据,其中0≤t≤T;将t=0时刻的信息数据作为第一数据集,其余时刻的信息数据构成第二数据集;人工为第一数据集的训练集商品设置标签,通过所述标签表示该待检测商品为正常商品或刷单商品;
预处理模块,其根据所述待检测商品的信息数据,提取对应的若干个特征,并根据所述特征生成对应的特征组合值;
HMM模型训练模块,其根据第一数据集的待检测商品的所述特征、特征组合值生成初始HMM模型,采用HMM参数学习的Baum-Welch算法,基于所述第二数据集优化所述初始HMM模型,生成最终的HMM模型;
刷单预测模块,其根据第二数据集的待检测商品的特征组合值和所述最终的HMM模型,采用Viterbi算法实时预测1≤t≤T时刻的刷单结果。
2.如权利要求1所述的基于HMM的刷单预测系统,其特征在于,还包含刷单结果输出模块,其实时将预测的刷单结果反馈到监管部门。
3.如权利要求1所述的基于HMM的刷单预测系统,其特征在于,所述若干个特征包含:待检测商品的未经咨询的订单数,付款订单数,订单总数,确认收货时间,付款时间,商品详情页停留时间,好评数量,销售数量,有追评数量。
4.一种基于HMM的刷单预测方法,采用如权利要求1至3任一所述的基于HMM的刷单预测系统实现的,其特征在于,包含步骤:
S1、通过数据收集模块获取t时刻第一至第μ待检测商品的信息数据,其中0≤t≤T,μ为待检测商品总数;将t=0时刻的信息数据作为第一数据集,其余时刻的信息数据构成第二数据集;人工为第一数据集的待检测商品设置标签,通过所述标签表示该待检测商品为正常商品或刷单商品;
S2、通过预处理模块根据t时刻第一至第μ待检测商品的信息数据,提取对应的若干个特征,并根据所述特征生成对应的特征组合值;0≤t≤T;
S3、将第一数据集的待检测商品的标签、特征、特征组合值输入HMM模型训练模块,采用监督学习方法得到初始HMM模型;
S4、对所述初始HMM模型采用Baum-Welch算法进行优化,生成最终的HMM模型并保存至刷单预测模块;
S5、将第二数据集内待检测商品的特征及特征组合值输入到刷单预测模块,采用Viterbi算法实时预测1≤t≤T时刻第二数据集的刷单结果。
5.如权利要求4所述的基于HMM的刷单预测方法,其特征在于,步骤S2具体包含:
S21、根据第i待检测商品在t时刻的信息数据,提取对应的特征其中,i∈[1,μ],k∈[1,9];分别为第i待检测商品在t时刻的未经咨询的订单数,付款订单数,订单总数,确认收货时间,付款时间,商品详情页停留时间,好评数量,销售数量,有追评数量;
S22、根据生成第一至第六特征率分别为第i待检测商品在t时刻的静默转化率,订单付款率,成交时间差,商品详情页停留时间,好评率,追评率;其中
S23、采用正规化方法,将进行标准化;
S24、根据标准化后的计算得到对应的特征组合值为标准化后的的权重。
6.如权利要求4所述的基于HMM的刷单预测方法,其特征在于,步骤S24中,通过熵值法计算得到具体包含:
S241、计算第j特征率的熵值其中j∈[1,6];k=1/ln(μ);...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。