本申请公开了一种用户流失预测方法、装置、设备及存储介质。该方法包括:获取应用平台在目标时间节点的用户数据;对所述用户数据进行数据清洗得到清洗后数据;其中,所述数据清洗包括删除无用数据、数据格式转换、流失样本扩充和数据缩放;利用递归选择器和随机森林分类器对所述清洗后数据进行特征提取,以得到目标特征;利用包含所述目标特征的清洗后数据,对基于逻辑回归算法构建的空白模型进行训练和测试,得到用户流失预测模型,以用于预测用户是否存在流失倾向。可以实现对用户流失倾向的自动预测,提高了用户流失倾向预测的效率和准确性。准确性。准确性。
【技术实现步骤摘要】
一种用户流失预测方法、装置、设备及存储介质
[0001]本专利技术涉及计算机领域,特别涉及一种用户流失预测方法、装置、设备及存储介质。
技术介绍
[0002]当前,随着电商平台增量不断提升,用户的体量逐渐变大,但通常情况下GMV(Gross Merchandise Volume,成交金额)主要是由老客户带来的,并且开发一个新客的成本是维护一个老客成本的3
‑
5倍,同时,市场容量基本是固定的,所以需要重点关注维护老客的客情,应尽量避免老客的流失。现有技术中,运营人员基于历史用户的历史行为数据,通过数据分析或者是个人经验来判断用户是否有流失的倾向,但随着数据量的增多,人工判断客情的难度和成本呈线性提升,并且效率和准确率都较低,实际应用中会导致投入产出不成正比,判断失误造成的损失可能会过高。因此如何准确高效的实现用户流失预测是目前亟需解决的问题。
技术实现思路
[0003]有鉴于此,本专利技术的目的在于提供一种用户流失预测方法、装置、设备及介质,能够准确、高效地预测出用户是否存在流失倾向。其具体方案如下:
[0004]第一方面,本申请公开了一种用户流失预测方法,包括:
[0005]获取应用平台在目标时间节点的用户数据;
[0006]对所述用户数据进行数据清洗得到清洗后数据;其中,所述数据清洗包括删除无用数据、数据格式转换、流失样本扩充和数据缩放;
[0007]利用递归选择器和随机森林分类器对所述清洗后数据进行特征提取,以得到目标特征;
[0008]利用包含所述目标特征的清洗后数据,对基于逻辑回归算法构建的空白模型进行训练和测试,得到用户流失预测模型,以用于预测用户是否存在流失倾向。
[0009]可选的,所述获取应用平台在目标时间节点的用户数据,包括:
[0010]获取应用平台在目标时间节点的用户数据;其中,所述用户数据包括所述目标时间节点下用户基础信息、操作行为数据,以及所述目标时间节点之后第n天的用户状态信息;
[0011]根据所述第n天的用户状态信息确定出对应的用户是否为流失用户,并将流失用户对应的用户数据确定为用户流失样本数据。
[0012]可选的,所述对所述用户数据进行数据清洗得到清洗后数据,包括:
[0013]利用数据分析包从所述用户数据中筛选出无用数据,并删除所述无用数据得到删除后用户数据;所述无用数据包括不可进行映射处理和/或独热编码的特征数据,以及无关特征数据。
[0014]可选的,所述对所述用户数据进行数据清洗得到清洗后数据,包括:
[0015]对所述删除后用户数据中第一类型数据进行映射处理,得到相应的映射向量;
[0016]对所述删除后用户数据中第二类型数据进行独热编码得到相应的编码数据,以得到格式转化后数据。
[0017]可选的,所述对所述用户数据进行数据清洗得到清洗后数据,包括:
[0018]基于所述用户流失样本数据,通过SMOTE算法合成新的用户流失样本数据,得到扩充后用户数据。
[0019]可选的,所述利用递归选择器和随机森林分类器对所述清洗后数据进行特征提取,以得到目标特征,包括:
[0020]利用递归选择器通过多次筛选从所述清洗后数据中提取得到预设数量的特征,得到特征集;
[0021]利用随机森林分类器计算所述特征集中每个特征的重要性,并基于所述重要性构建所述特征集对应的帕累托图;
[0022]根据所述帕累托图从所述特征集中筛选出特征占比大于预设阈值的特征,以得到所述目标特征。
[0023]可选的,所述得到用户流失预测模型,以用于预测用户是否存在流失倾向,包括:
[0024]为所述用户流失预测模型添加API接口,以便通过所述API接口调用所述用户流失预测模型。
[0025]第二方面,本申请公开了一种用户流失预测装置,包括:
[0026]数据获取模块,用于获取应用平台在目标时间节点的用户数据;
[0027]数据清洗模块,用于对所述用户数据进行数据清洗得到清洗后数据;所述数据清洗包括删除无用数据、数据格式转换、流失样本扩充和数据缩放;
[0028]特征确定模块,用于利用递归选择器和随机森林分类器对所述清洗后数据进行特征提取,以得到目标特征;
[0029]预测模块,用于利用包含所述目标特征的清洗后数据,对基于逻辑回归算法构建的空白模型进行训练和测试,得到用户流失预测模型,以用于预测用户是否存在流失倾向。
[0030]第三方面,本申请公开了一种电子设备,包括:
[0031]存储器,用于保存计算机程序;
[0032]处理器,用于执行所述计算机程序,以实现前述的用户流失预测方法。
[0033]第四方面,本申请公开了一种计算机可读存储介质,用于存储计算机程序;其中计算机程序被处理器执行时实现前述的用户流失预测方法。
[0034]本申请中,获取应用平台在目标时间节点的用户数据;对所述用户数据进行数据清洗得到清洗后数据;其中,所述数据清洗包括删除无用数据、数据格式转换、流失样本扩充和数据缩放;利用递归选择器和随机森林分类器对所述清洗后数据进行特征提取,以得到目标特征;利用包含所述目标特征的清洗后数据,对基于逻辑回归算法构建的空白模型进行训练和测试,得到用户流失预测模型,以用于预测用户是否存在流失倾向。可见,通过对获取的用户数据进行多方面的数据清洗,并通过递归选择器和随机森林分类器对清洗后数据进行特征提取,得到用户主要突出的行为特征,然后利用包含特征的清洗后数据进行模型训练,得到用于预测用户是否存在流失倾向的用户流失预测模型,实现对用户流失倾向的自动预测,提高了用户流失倾向预测的效率和准确性。
附图说明
[0035]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0036]图1为本申请提供的一种用户流失预测方法流程图;
[0037]图2为本申请提供的一种具体的用户流失预测方法流程图;
[0038]图3为本申请提供的一种用户流失预测装置结构示意图;
[0039]图4为本申请提供的一种电子设备结构图。
具体实施方式
[0040]现有技术中,运营人员基于历史用户的历史行为数据,通过数据分析或者是个人经验来判断用户是否有流失的倾向,但随着数据量的增多,人工判断客情的难度和成本呈线性提升,并且效率和准确率较低。为克服上述技术问题,本申请提出一种用户流失预测方法,可以提高用户流失预测的效率和准确性。
[0041]本申请实施例公开了一种用户流失预测方法,参见图1所示,该方法可以包括以下步骤:
[0042]步骤S11:获取应用平台在目标时间节点的用户数据。
[0043]本实施例中,所述获取应用平台本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种用户流失预测方法,其特征在于,包括:获取应用平台在目标时间节点的用户数据;对所述用户数据进行数据清洗得到清洗后数据;其中,所述数据清洗包括删除无用数据、数据格式转换、流失样本扩充和数据缩放;利用递归选择器和随机森林分类器对所述清洗后数据进行特征提取,以得到目标特征;利用包含所述目标特征的清洗后数据,对基于逻辑回归算法构建的空白模型进行训练和测试,得到用户流失预测模型,以用于预测用户是否存在流失倾向。2.根据权利要求1所述的用户流失预测方法,其特征在于,所述获取应用平台在目标时间节点的用户数据,包括:获取应用平台在目标时间节点的用户数据;其中,所述用户数据包括所述目标时间节点下用户基础信息、操作行为数据,以及所述目标时间节点之后第n天的用户状态信息;根据所述第n天的用户状态信息确定出对应的用户是否为流失用户,并将流失用户对应的用户数据确定为用户流失样本数据。3.根据权利要求1所述的用户流失预测方法,其特征在于,所述对所述用户数据进行数据清洗得到清洗后数据,包括:利用数据分析包从所述用户数据中筛选出无用数据,并删除所述无用数据得到删除后用户数据;所述无用数据包括不可进行映射处理和/或独热编码的特征数据,以及无关特征数据。4.根据权利要求3所述的用户流失预测方法,其特征在于,所述对所述用户数据进行数据清洗得到清洗后数据,包括:对所述删除后用户数据中第一类型数据进行映射处理,得到相应的映射向量;对所述删除后用户数据中第二类型数据进行独热编码得到相应的编码数据,以得到格式转化后数据。5.根据权利要求2所述的用户流失预测方法,其特征在于,所述对所述用户数据进行数据清洗得到清洗后数据,包括:基于所述用户流失样本数据,通过SMOTE算...
【专利技术属性】
技术研发人员:张继龙,
申请(专利权)人:杭州拼便宜网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。