特定人群圈定方法、装置、电子设备及存储介质制造方法及图纸

技术编号:24614012 阅读:20 留言:0更新日期:2020-06-24 01:24
本公开实施例公开了一种特定人群圈定方法、装置、电子设备及存储介质。该方法包括:获取样本用户的订单数据,根据所述订单数据对所述样本用户进行标记;将标记后的所述样本用户作为第一样本用户集,根据第一样本数据确定样本用户的第一候选特征;对第一样本用户集进行多次抽样,获得多个样本用户子集;根据样本用户子集中所述样本用户的所述第一候选特征确定目标特征;利用所述目标特征,对订单涉及的用户进行圈定,获得需要的特定人群。通过这种方式,从样本用户的候选特征中挑选出对圈定特定人群起重要作用的特征作为目标特征,使得在正样本用户较少,而负样本用户较多的情况下,可以去除干扰特征,进而能够提高特定人群的圈定准确率。

Method, device, electronic equipment and storage medium for specific crowd

【技术实现步骤摘要】
特定人群圈定方法、装置、电子设备及存储介质
本公开涉及计算机
,具体涉及一种特定人群圈定方法、装置、电子设备及存储介质。
技术介绍
用户特征的提取相关技术中,通过对用户属性和/或用户行为数据等进行统计分析后,基于统计分析结果标定用户的特征数据。用户的特征数据应用较为广泛,例如可以应用在机器自学习模型的训练过程中,以便训练机器自学习模型能够在线识别用户的信息。例如,可以通过用户特征数据识别线上平台用户的需求,进而为用户推荐相关的对象等。但是用户特征的提取需要大量的正样本和负样本数据,对于一些正样本数据较少而负样本数据较多的应用场景,利用传统技术提取到的特征数据噪音较大,进而会使得利用提取出的特征数据训练得到的机器自学习模型的识别能力不高。因此,针对正样本数据较少的应用场景,如何消除特征数据中的噪音成为了当前需要解决的重要技术问题之一。
技术实现思路
本公开实施例提供一种特定人群圈定方法、装置、电子设备及存储介质。第一方面,本公开实施例中提供了一种特定人群圈定方法。具体的,所述特定人群圈定方法,包括:获取样本用户的订单数据,并根据所述订单数据对所述样本用户进行标记;将标记后的所述样本用户作为第一样本用户集,并根据第一样本数据确定所述样本用户的第一候选特征;对所述第一样本用户集进行多次抽样,获得多个样本用户子集;根据所述样本用户子集中所述样本用户的所述第一候选特征确定目标特征;利用所述目标特征,对订单涉及的用户进行圈定,获得需要的特定人群。结合第一方面,本公开在第一方面的第一种实现方式中,根据所述样本用户子集中所述样本用户的所述第一候选特征确定目标特征,包括:针对每个样本用户子集,从所述样本用户的第一候选特征中获得候选特征组;其中所述候选特征组中包括特征权重值最大的预定数量个第二候选特征权重值最大的第一预设数量个第二候选特征,且所述特征权重值通过第一机器学习模型确定,且所述特征权重值用于表征所述第二候选特征在识别目标用户产生目标订单的概率时的重要程度;所述目标订单包括订单对象数量超过第三预设数量的订单;根据同一第二候选特征在各组候选特征组中的出现次数从所述第二候选特征确定目标特征。结合第一方面和/或第一方面的第一种实现方式,本公开在第一方面的第二种实现方式中,所述样本用户包括正样本用户和负样本用户;所述正样本用户包括在预设时间段内产生的目标订单数量大于或等于第二预设数量的用户,所述目标订单中的订单对象数量超过第三预设数量;和/或,所述负样本用户包括在预设时间段内未产生过目标订单且下单频次大于或等于第一预设阈值的用户。结合第一方面、第一方面的第一种实现方式和/或第一方面的第二种实现方式,本公开在第一方面的第三种实现方式中,针对每个样本用户子集,从所述样本用户的第一候选特征中获得候选特征组,包括:利用所述样本用户子集中所述样本用户的第一候选特征训练所述第一机器学习模型;根据训练结果确定所述第一机器学习模型中所述第一候选特征的特征权重值;将所述特征权重值最大的第一预设数量个所述第一候选特征确定为所述候选特征组中的第二候选特征。结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式和/或第一方面的第三种实现方式,本公开在第一方面的第四种实现方式中,根据同一第二候选特征在各组候选特征组中的出现次数从所述第二候选特征确定目标特征,包括:确定所述第二候选特征在多个所述候选特征组中的出现次数;将所述出现次数大于或等于第四预设数量的所述第二候选特征确定为目标特征。结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式和/或第一方面的第四种实现方式,本公开在第一方面的第五种实现方式中,还包括:从所述目标特征中剔除共线特征。结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式和/或第一方面的第五种实现方式,本公开在第一方面的第六种实现方式中,从所述目标特征中剔除共线特征,包括:根据所述目标特征获得多种目标特征组合;将第二机器学习模型的第一识别效果分别与多个第三机器学习模型的第二识别效果进行比较;其中,所述第二机器学习模型通过所述样本用户的所述目标特征训练得到;所述多个第三机器学习模型分别通过所述样本用户对应的不同的所述目标特征组合训练得到;在所述第一识别效果与第二识别效果之间的差值小于或等于第二预设阈值时,将所述第一识别效果对应的所述目标特征组合中未出现的所述目标特征作为共线特征,并剔除所述共线特征。结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式和/或第一方面的第六种实现方式,本公开在第一方面的第七种实现方式中,还包括:针对所述目标特征,提取与所述目标特征相关的时序特征;其中,所述时序特征包括所述目标特征的趋势变化信息;将所述时序特征加入所述目标特征。结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式、第一方面的第六种实现方式和/或第七种实现方式中,本公开在第一方面的第八种实现方式中,针对所述目标特征,提取与所述目标特征相关的时序特征,包括:利用长度为预设周期的平滑窗口对所述目标特征进行平滑操作,并确定平滑操作后所述目标特征的趋势变化信息;将所述趋势变化信息确定为所述目标特征相关的所述时序特征。第二方面,本公开实施例中提供了一种模型训练方法。具体的,所述模型训练方法,包括:获取第二样本用户集以及所述第二样本用户集中样本用户的目标特征;其中,所述样本用户的目标特征利用第一方面所述的特定人群圈定方法确定;利用所述样本用户的目标特征训练第四机器学习模型;其中,所述第四机器学习模型用于识别目标用户产生目标订单的概率;所述目标订单包括订单对象数量超过第三预设数量的订单。结合第二方面,本公开在第二方面的第一种实现方式中,还包括:利用所述第四机器学习模型对测试用户集中测试用户进行识别;根据识别结果将所述测试用户集划分为多组测试用户;针对每组测试用户,通过聚类方式得到每组测试用户中的聚类中心用户;根据所述聚类中心用户确定所述第四机器学习模型的识别准确度。结合第二方面和/或第二方面的第一种实现方式,本公开在第二方面的第二种实现方式中,根据识别结果将所述测试用户集划分为多组测试用户,包括:将所述识别结果与多个预设概率范围进行匹配,并将与同一所述预设概率范围相匹配的所述识别结果对应的所述测试用户划分为一组;其中,所述预设概率范围通过将所述机器学习模型的输出概率范围进行划分得到。第三方面,本公开实施例中提供了一种模型测试方法。具体的,所述模型测试方法,包括:利用第四机器学习模型对测试用户集中的测试用户进行识别;其中,所述第四机器学习模型用于识别目标用户产生目标订单的概率;所述目标订单包括订单对象数量超过第三预设数量的订单;根据识别结果将所述测试用户集划分为本文档来自技高网...

【技术保护点】
1.一种特定人群圈定方法,其特征在于,包括:/n获取样本用户的订单数据,并根据所述订单数据对所述样本用户进行标记;/n将标记后的所述样本用户作为第一样本用户集,并根据第一样本数据确定所述样本用户的第一候选特征;/n对所述第一样本用户集进行多次抽样,获得多个样本用户子集;/n根据所述样本用户子集中所述样本用户的所述第一候选特征确定目标特征;/n利用所述目标特征,对订单涉及的用户进行圈定,获得需要的特定人群。/n

【技术特征摘要】
1.一种特定人群圈定方法,其特征在于,包括:
获取样本用户的订单数据,并根据所述订单数据对所述样本用户进行标记;
将标记后的所述样本用户作为第一样本用户集,并根据第一样本数据确定所述样本用户的第一候选特征;
对所述第一样本用户集进行多次抽样,获得多个样本用户子集;
根据所述样本用户子集中所述样本用户的所述第一候选特征确定目标特征;
利用所述目标特征,对订单涉及的用户进行圈定,获得需要的特定人群。


2.根据权利要求1所述的方法,其特征在于,根据所述样本用户子集中所述样本用户的所述第一候选特征确定目标特征,包括:
针对每个样本用户子集,从所述样本用户的第一候选特征中获得候选特征组;其中所述候选特征组中包括特征权重值最大的预定数量个第二候选特征权重值最大的第一预设数量个第二候选特征,且所述特征权重值通过第一机器学习模型确定,且所述特征权重值用于表征所述第二候选特征在识别目标用户产生目标订单的概率时的重要程度;所述目标订单包括订单对象数量超过第三预设数量的订单;
根据同一第二候选特征在各组候选特征组中的出现次数从所述第二候选特征确定目标特征。


3.根据权利要求1或2所述的方法,其特征在于,所述样本用户包括正样本用户和负样本用户;所述正样本用户包括在预设时间段内产生的目标订单数量大于或等于第二预设数量的用户,所述目标订单中的订单对象数量超过第三预设数量;和/或,
所述负样本用户包括在预设时间段内未产生过目标订单且下单频次大于或等于第一预设阈值的用户。


4.一种模型训练方法,其特征在于,包括:
获取第二样本用户集以及所述第二样本用户集中样本用户的目标特征;其中,所述样本用户的目标特征利用权利要求1-3任一项所述的方法确定;
利用所述样本用户的目标特征训练第四机器学习模型;其中,所述第四机器学习模型用于识别目标用户产生目标订单的概率;所述目标订单包括订单对象数量超过第三预设数量的订单。


5.一种模型测试方法,其特征在于,包括:
利用第四机器学习模型对测试用户集中的测试用户进行识别;其中,所述第四机器学习模型用于识别目标用户产生目标订单的概率;所述目标订单包括订单对象数量超过第三预设数量的订单;
根据识别结果将所述测试用户集划分为多组测试...

【专利技术属性】
技术研发人员:赵呈路
申请(专利权)人:拉扎斯网络科技上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1