System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据分析,特别涉及一种用户的产品复购情况预测方法及装置。
技术介绍
1、用户复购行为是指用户在某个时间段内多次购买同一产品或服务的行为。复购行为不仅是客户忠诚度的重要体现,也是企业持续盈利的关键因素之一。通过准确预测用户的复购行为,企业可以制定有针对性的营销策略,例如个性化推荐、优惠券发放等,从而提高客户的满意度和忠诚度,增加销售额和利润。
2、而现有技术中,随着目前消费者线上行为的高度碎片化,数据分散,且目前用户决策越来越理智,对品牌的认知需要从认识到熟悉的过程,品牌心智的建立需要通过运营活动为载体,逐步建立起用户心智。同时,用户对品牌的注意力会随着时间发生变化。现有技术中基于消费订单数据的预测,缺少普适性和通用性,并且无法反映上述业务特点。其次,现有技术中用于模型训练的样本自身存在不平衡问题,目前在数据平衡问题,通常采用基于全部样本空间的过采样、欠采样操作。最后,模型准确率层面,目前主要应用机器学习算法做预测,在准确率层面有待提升。
技术实现思路
1、有鉴于此,本专利技术第一方面提供了一种用户的产品复购情况预测方法,以解决本专利技术
技术介绍
部分提出的技术问题。该方法包括:
2、获取目标产品相关的用户行为数据,并对所述用户行为数据进行预处理,所述用户行为数据包括用户订单数据、用户活动参与数据以及用户属性数据;
3、对预处理后的所述用户行为数据分别进行特征提取和特征选择,获得所述用户行为数据对应的特征子集,特征提取包括基础属性特征、
4、基于k-means++方法对所述特征子集对应的所述用户行为数据进行用户分群,得到用户分群数据,并根据所述用户分群数据对不同用户群体对应的用户行为数据进行混合采样实现样本平衡,获得均衡处理后的样本数据;
5、将均衡处理后的所述样本数据输入至ga-tabnet-stacking异质模型进行训练,所述ga-tabnet-stacking异质模型训练完成之后,将当前用户的用户数据输入至所述ga-tabnet-stacking异质模型,输出所述当前用户对所述目标产品的复购概率。
6、进一步的,对预处理后的所述用户行为数据进行特征提取时,基于滑动时间窗口的方法进行特征提取,具体包括:
7、将所述用户活动参与数据中的用户活动参与周期划分为7天、14天、30天、60天、90天、120天、150天、180天的8个时间窗口;
8、按照划分的各所述时间窗口分别对所述用户行为数据进行基础属性特征提取、用户连接强度特征提取和用户价值类特征提取。
9、进一步的,基于遗传算法对样本分类后的所述用户行为数据进行特征选择,获得所述特征子集。
10、进一步的,获得所述特征子集,包括:
11、确定所述遗传算法的超参数并且初始化所述遗传算法的种群,所述超参数包括种群大小、变异率和代数,所述种群包括多个特征子集;
12、使用tabnet模型的auc指标作为评价标准来评估所述种群内多个特征子集的性能,获得所述种群内各特征子集的适应度计算结果;
13、根据所述适应度计算结果,应用遗传算子对所述种群进行更新迭代,在迭代过程中,对所述遗传算法的超参数进行调整,在满足所述遗传算法的终止条件后,所述遗传算法输出所述种群内适应度最高的特征子集。
14、进一步的,所述获得均衡处理后的样本数据,还包括:
15、对特征选择得到的所述特征子集进行归一化处理;
16、基于k-means++方法对归一化后的所述特征子集进行聚类,对聚类后的数据进行分箱操作,获得所述用户分群数据;
17、通过对所述用户分群数据中不同用户群对应的用户行为数据进行正负样本分析,并对各所述用户群对应的用户行为数据进行混合采样实现样本的均衡处理后,获得均衡处理后的所述样本数据。
18、进一步的,所述对各所述用户群对应的用户行为数据进行混合采样实现样本的均衡处理中,均衡处理方法包括欠采样方法、过采样方法和smote方法。
19、进一步的,将所述用户价值类特征作为聚类标签,对所述特征子集进行聚类。
20、进一步的,所述ga-tabnet-stacking异质模型的训练方法包括:
21、将参数优化后的tabnet、xgboost、lightgbm三个模型作为所述异质模型的第一层,并对tabnet、xgboost、lightgbm将均衡处理后的所述样本数据作为训练数据进行并行训练,分别获取tabnet、xgboost、lightgbm输出的第一预测结果、第二预测结果和第三预测结果;
22、将所述第一预测结果、所述第二预测结果和所述第三预测结果合并到所述样本数据中,获得训练数据集;
23、将随机森林模型作为所述异质模型的第二层,将所述训练数据集作为训练数据对所述随机森林模型进行训练;
24、根据训练完成的所述随机森林模型和所述tabnet、xgboost、lightgbm模型,确定所述ga-tabnet-stacking异质模型。
25、本专利技术第二方面提供了一种用户的产品复购情况预测装置,以解决本专利技术
技术介绍
部分提出的技术问题。该装置包括:
26、用户数据获取模块,用于获取目标产品相关的用户行为数据,并对所述用户行为数据进行预处理,所述用户行为数据包括用户订单数据、用户活动参与数据以及用户属性数据;
27、特征提取及选择模块,用于对预处理后的所述用户行为数据分别进行特征提取和特征选择,获得所述用户行为数据对应的特征子集,特征提取包括基础属性特征、用户连接强度特征、用户价值类特征的提取,其中,基于改进的rfm模型对所述用户行为数据进行用户价值类特征的提取;
28、样本均衡模块,用于基于k-means++方法对所述特征子集对应的所述用户行为数据进行用户分群,得到用户分群数据,并根据所述用户分群数据对不同用户群体对应的用户行为数据进行混合采样实现样本平衡,获得均衡处理后的样本数据;
29、模型预测模块,用于将均衡处理后的所述样本数据输入至ga-tabnet-stacking异质模型进行训练,所述ga-tabnet-stacking异质模型训练完成之后,将当前用户的用户数据输入至所述ga-tabnet-stacking异质模型,输出所述当前用户对所述目标产品的复购概率。
30、进一步的,所述装置还包括模型训练模块,所述模型训练模块用于:
31、将参数优化后的tabnet、xgboost、lightgbm三个模型作为所述异质模型的第一层,并对tabnet、xgboost、lightgbm将均衡处理后的所述样本数据作为训练数据进行并行训练,分别获取tabnet、xgboost、lightgbm输出的第一预测结果、第二本文档来自技高网...
【技术保护点】
1.一种用户的产品复购情况预测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种用户的产品复购情况预测方法,其特征在于,对预处理后的所述用户行为数据进行特征提取,包括:
3.根据权利要求1所述的一种用户的产品复购情况预测方法,其特征在于,基于遗传算法对样本分类后的所述用户行为数据进行特征选择,获得所述特征子集。
4.根据权利要求3所述的一种用户的产品复购情况预测方法,其特征在于,获得所述特征子集,包括:
5.根据权利要求1所述的一种用户的产品复购情况预测方法,其特征在于,所述获得均衡处理后的样本数据,还包括:
6.根据权利要求5所述的一种用户的产品复购情况预测方法,其特征在于,所述对各所述用户群对应的用户行为数据进行混合采样实现样本的均衡处理中,均衡处理方法包括欠采样方法、过采样方法和SMOTE方法。
7.根据权利要求5所述的一种用户的产品复购情况预测方法,其特征在于,将所述用户价值类特征作为聚类标签,对所述特征子集进行聚类。
8.根据权利要求1所述的一种用户的产品复购情况预测方法,其
9.一种用户的产品复购情况预测装置,其特征在于,所述装置包括:
10.根据权利要求9所述的一种用户的产品复购情况预测装置,其特征在于,所述装置还包括模型训练模块,所述模型训练模块用于:
...【技术特征摘要】
1.一种用户的产品复购情况预测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种用户的产品复购情况预测方法,其特征在于,对预处理后的所述用户行为数据进行特征提取,包括:
3.根据权利要求1所述的一种用户的产品复购情况预测方法,其特征在于,基于遗传算法对样本分类后的所述用户行为数据进行特征选择,获得所述特征子集。
4.根据权利要求3所述的一种用户的产品复购情况预测方法,其特征在于,获得所述特征子集,包括:
5.根据权利要求1所述的一种用户的产品复购情况预测方法,其特征在于,所述获得均衡处理后的样本数据,还包括:
6.根据权利要求5所述的一种用户的产品复购情况预测方...
【专利技术属性】
技术研发人员:路新喜,杨溢龙,姜涛,姚宁,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。