一种基于HMM的刷单预测系统及方法技术方案

技术编号:25310513 阅读:33 留言:0更新日期:2020-08-18 22:28
本发明专利技术提供一种基于HMM的刷单预测方法,包含步骤:S1、通过获取t时刻第一至第μ待检测商品的信息数据,将t=0时刻的信息数据作为第一数据集,其余信息数据构成第二数据集,为第一数据集的待检测商品设置是否刷单的标签;S2、根据t时刻第一至第μ待检测商品的信息数据,提取对应的若干个特征,并根据所述特征生成对应的特征组合值;S3、将第一数据集的待检测商品的标签、特征、特征组合值输入HMM模型训练模块,采用监督学习方法得到初始HMM模型;S4、优化所述初始HMM模型,生成最终的HMM模型;S5、通过最终的HMM模型预测1≤t≤T时刻第二数据集内待检测商品的刷单结果。本发明专利技术还包含一种基于HMM的刷单预测系统。

【技术实现步骤摘要】
一种基于HMM的刷单预测系统及方法
本专利技术涉及机器学习和电子商务
,特别涉及一种基于HMM的刷单预测系统及方法。
技术介绍
随着我国互联网经济的快速发展,网购因其方便、快捷、经济等优点得到广大消费者的青睐。与此同时,由于网络交易虚拟化的特征,刷单已经成为网络购物的普遍问题。所谓“刷单”是指网店经营者雇佣专业从事网店信誉提升的刷单平台,用虚假的购物方式提高店铺的信誉、销量及排名,来吸引消费者的行为。消费者在不知情的情况下,会首选这些“信誉好”的店铺,导致利益受损。由于相关监管部门难以实时监察海量网购订单,因此迫切需要一种自动化的识别刷单的系统及方法。
技术实现思路
本专利技术的目的是提供一种基于HMM的刷单预测系统及方法,本专利技术根据自动收集网购商品的信息建立HMM模型模型,并根据优化后的HMM模型及时准确的预测网购商品是否为刷单商品。为了达到上述目的,本专利技术提供一种基于HMM的刷单预测系统,包括:数据收集模块,其利用网页爬虫工具获取t时刻若干待检测商品的信息数据,其中0≤t≤T;将t=0时刻的信息数据作为第一数据集,其余时刻的信息数据构成第二数据集;人工为第一数据集的训练集商品设置标签,通过所述标签表示该待检测商品为正常商品或刷单商品;预处理模块,其根据所述待检测商品的信息数据,提取对应的若干个特征,并根据所述特征生成对应的特征组合值;HMM模型训练模块,其根据第一数据集的待检测商品的所述特征、特征组合值生成初始HMM模型,采用HMM参数学习的Baum-Welch算法,基于所述第二数据集优化所述初始HMM模型,生成最终的HMM模型;刷单预测模块,其根据第二数据集的待检测商品的特征组合值和所述最终的HMM模型,采用Viterbi算法实时预测1≤t≤T时刻的刷单结果。所述基于HMM的刷单预测系统,还包含刷单结果输出模块,其实时将预测的刷单结果反馈到监管部门。所述若干个特征包含:待检测商品的未经咨询的订单数,付款订单数,订单总数,确认收货时间,付款时间,商品详情页停留时间,好评数量,销售数量,有追评数量。一种基于HMM的刷单预测方法,采用本专利技术的基于HMM的刷单预测系统实现的,包含步骤:S1、通过数据收集模块获取t时刻第一至第μ待检测商品的信息数据,其中0≤t≤T,μ为待检测商品总数;将t=0时刻的信息数据作为第一数据集,其余时刻的信息数据构成第二数据集;人工为第一数据集的待检测商品设置标签,通过所述标签表示该待检测商品为正常商品或刷单商品;S2、通过预处理模块根据t时刻第一至第μ待检测商品的信息数据,提取对应的若干个特征,并根据所述特征生成对应的特征组合值;0≤t≤T;S3、将第一数据集的待检测商品的标签、特征、特征组合值输入HMM模型训练模块,采用监督学习方法得到初始HMM模型;S4、对所述初始HMM模型采用Baum-Welch算法进行优化,生成最终的HMM模型并保存至刷单预测模块;S5、将第二数据集内待检测商品的特征及特征组合值输入到刷单预测模块,采用Viterbi算法实时预测1≤t≤T时刻第二数据集的刷单结果。步骤S2具体包含:S21、根据第i待检测商品在t时刻的信息数据,提取对应的特征其中,i∈[1,μ],k∈[1,9];分别为第i待检测商品在t时刻的未经咨询的订单数,付款订单数,订单总数,确认收货时间,付款时间,商品详情页停留时间,好评数量,销售数量,有追评数量;S22、根据生成第一至第六特征率分别为第i待检测商品在t时刻的静默转化率,订单付款率,成交时间差,商品详情页停留时间,好评率,追评率;其中S23、采用正规化方法,将进行标准化;S24、根据标准化后的计算得到对应的特征组合值为标准化后的的权重。步骤S24中,通过熵值法计算得到具体包含:S241、计算第j特征率的熵值其中j∈[1,6];k=1/ln(μ);S242、计算第j特征率的信息熵冗余度S243、第j特征率的权重步骤S3具体包含:S31、建立隐状态集合S={S1,S2},S1为表示不刷单的隐状态,S2为表示刷单的隐状态;建立隐状态序列Q={q1,q2,…,qT},其中qT∈S;建立观测序列O={o1,o2,…,oT},观测状态S32、计算t=0时刻,第i待检测商品的隐状态转移概率矩阵表示在t=0时刻第i待检测商品隐状态为Sn的条件下,在t=1时刻其隐状态转移为Sm的概率;1≤n,m≤2;建立t=0时刻的隐状态转移概率矩阵A0==[anm(0)]2×2;其中,S33、计算t=0时刻,第i待检测商品的观测状态转移概率矩阵其中表示第i待检测商品在t=0时刻,其隐状态为Sm的条件下,该商品的观测状态为o1的概率;观测状态转移概率矩阵B0=[bm(i)(0)]m∈[1,2],i∈[1,μ],其中S34、计算t=0时刻的初始状态概率转移矩阵π0=[π1,π2];πm=P(q1=Sm)表示μ个待检测商品在t=0时刻处于隐状态Sm的概率,m=1,2;S35、得到初始HMM模型λ0=(A0,B0,π0)。步骤S4具体包含:S41、令γt(m)=P(qt=Sm|O,λ0)表示在已知初始HMM模型λ0=(A0,B0,π0)的情况下,并且观测序列为O=o1,o2,...,oT时,优化后的HMM模型在t时刻处于状态Sm的概率;ξt(m,n)=P(qt=Sm,qt+1=Sn|O,λ0)表示在已知初始HMM模型λ0=(A0,B0,π0)的情况下,并且观测序列为O=o1,o2,...,oT时,优化后的HMM模型在t时刻从状态Sm转换为状态Sn的概率;S42、由以下递推公式求解τ=1,…,T时刻的amn(τ),bn(i)(τ),πm(τ)的值:πm(τ)=γ1(m);Aτ==[anm(τ)]2×2,Bτ=[bn(i)(τ)]n∈[1,2],i∈[1,μ];S43、令优化后最终的HMM模型为λT=(AT,BT,πT)。步骤S5具体包含:S51、令表示在已知最终的HMM模型为λT=(AT,BT,πT)的情况下,观测到前t个观测状态o1,o2,...,ot,且第t个时刻HMM模型处于隐状态Sm的条件下,HMM模型处于最优状态序列,即最大概率的隐状态序列的联合概率;S52、初始化:δ1(m)=πmbm(i)(0),ψ1(m)=0,1≤m≤2;S53、递推:1≤t≤T,1≤m≤2;S54、终止:S55、最优路径回溯:对t=T-1,T-2,...,1,qt*=ψt+1(qt+1*),求得最优路径Q*=q1*,q2*,...,qT*,即为最后得到的隐状态序列;其中qt*∈{刷单,不刷单}(1≤t≤T)代表第t个时刻最大概率的隐状态值,也即与ot对应的刷单预测结果;p*为使HMM模型处于最优状态的终止条件,即第T个时刻最大概率的隐状态值;qT*为与观本文档来自技高网...

【技术保护点】
1.一种基于HMM的刷单预测系统,其特征在于,包括:/n数据收集模块,其利用网页爬虫工具获取t时刻若干待检测商品的信息数据,其中0≤t≤T;将t=0时刻的信息数据作为第一数据集,其余时刻的信息数据构成第二数据集;人工为第一数据集的训练集商品设置标签,通过所述标签表示该待检测商品为正常商品或刷单商品;/n预处理模块,其根据所述待检测商品的信息数据,提取对应的若干个特征,并根据所述特征生成对应的特征组合值;/nHMM模型训练模块,其根据第一数据集的待检测商品的所述特征、特征组合值生成初始HMM模型,采用HMM参数学习的Baum-Welch算法,基于所述第二数据集优化所述初始HMM模型,生成最终的HMM模型;/n刷单预测模块,其根据第二数据集的待检测商品的特征组合值和所述最终的HMM模型,采用Viterbi算法实时预测1≤t≤T时刻的刷单结果。/n

【技术特征摘要】
1.一种基于HMM的刷单预测系统,其特征在于,包括:
数据收集模块,其利用网页爬虫工具获取t时刻若干待检测商品的信息数据,其中0≤t≤T;将t=0时刻的信息数据作为第一数据集,其余时刻的信息数据构成第二数据集;人工为第一数据集的训练集商品设置标签,通过所述标签表示该待检测商品为正常商品或刷单商品;
预处理模块,其根据所述待检测商品的信息数据,提取对应的若干个特征,并根据所述特征生成对应的特征组合值;
HMM模型训练模块,其根据第一数据集的待检测商品的所述特征、特征组合值生成初始HMM模型,采用HMM参数学习的Baum-Welch算法,基于所述第二数据集优化所述初始HMM模型,生成最终的HMM模型;
刷单预测模块,其根据第二数据集的待检测商品的特征组合值和所述最终的HMM模型,采用Viterbi算法实时预测1≤t≤T时刻的刷单结果。


2.如权利要求1所述的基于HMM的刷单预测系统,其特征在于,还包含刷单结果输出模块,其实时将预测的刷单结果反馈到监管部门。


3.如权利要求1所述的基于HMM的刷单预测系统,其特征在于,所述若干个特征包含:待检测商品的未经咨询的订单数,付款订单数,订单总数,确认收货时间,付款时间,商品详情页停留时间,好评数量,销售数量,有追评数量。


4.一种基于HMM的刷单预测方法,采用如权利要求1至3任一所述的基于HMM的刷单预测系统实现的,其特征在于,包含步骤:
S1、通过数据收集模块获取t时刻第一至第μ待检测商品的信息数据,其中0≤t≤T,μ为待检测商品总数;将t=0时刻的信息数据作为第一数据集,其余时刻的信息数据构成第二数据集;人工为第一数据集的待检测商品设置标签,通过所述标签表示该待检测商品为正常商品或刷单商品;
S2、通过预处理模块根据t时刻第一至第μ待检测商品的信息数据,提取对应的若干个特征,并根据所述特征生成对应的特征组合值;0≤t≤T;
S3、将第一数据集的待检测商品的标签、特征、特征组合值输入HMM模型训练模块,采用监督学习方法得到初始HMM模型;
S4、对所述初始HMM模型采用Baum-Welch算法进行优化,生成最终的HMM模型并保存至刷单预测模块;
S5、将第二数据集内待检测商品的特征及特征组合值输入到刷单预测模块,采用Viterbi算法实时预测1≤t≤T时刻第二数据集的刷单结果。


5.如权利要求4所述的基于HMM的刷单预测方法,其特征在于,步骤S2具体包含:
S21、根据第i待检测商品在t时刻的信息数据,提取对应的特征其中,i∈[1,μ],k∈[1,9];分别为第i待检测商品在t时刻的未经咨询的订单数,付款订单数,订单总数,确认收货时间,付款时间,商品详情页停留时间,好评数量,销售数量,有追评数量;
S22、根据生成第一至第六特征率分别为第i待检测商品在t时刻的静默转化率,订单付款率,成交时间差,商品详情页停留时间,好评率,追评率;其中
S23、采用正规化方法,将进行标准化;
S24、根据标准化后的计算得到对应的特征组合值为标准化后的的权重。


6.如权利要求4所述的基于HMM的刷单预测方法,其特征在于,步骤S24中,通过熵值法计算得到具体包含:
S241、计算第j特征率的熵值其中j∈[1,6];k=1/ln(μ);...

【专利技术属性】
技术研发人员:高娜韩德志
申请(专利权)人:上海海事大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1