【技术实现步骤摘要】
终端信息的输出方法、装置及可读存储介质
[0001]本申请实施例涉及数据处理
,尤其涉及一种终端信息的输出方法、装置及可读存储介质。
技术介绍
[0002]2020年是5G正式进入我们生活中的商用化元年,运营商基于用户基本信息、套餐订购、终端使用情况、交往圈终端、终端换机时间、DPI及数字内容数据,形成用户统一的字段宽表数据,利用统一的字段构建决策树等二分类器算法识别5G终端换机用户。然而,对于新业务市场比如5G市场,普遍存在两种问题,1)部分字段存在时间和空间不稳定性,导致识别终端换机用户的方式鲁棒性较差;2)正负样本不平衡,导致识别终端换机用户效果较差。
技术实现思路
[0003]本申请实施例提供一种终端信息的输出方法、装置及可读存储介质,以解决现有技术中由于正负样本不平衡和部分字段存在时间和空间不稳定性,导致识别终端换机用户效果较差和鲁棒性较差的问题。
[0004]为解决上述问题,本申请是这样实现的:
[0005]第一方面,本申请实施例提供了一种终端信息的输出方法,由设备执行,所述方法包括:按照预设比例对第一数据集中的正样本和负样本进行提取,得到第二数据集,其中,所述第一数据集中的每一个数据包括多个字段,每一个字段用于指示与终端对应的信息;所述正样本为所述第一数据集中所述多个字段指示使用第一终端的数据,所述负样本为所述第一数据集中所述多个字段指示当前之前的预设时长内已换成第二终端的数据;根据所述第二数据集中所述多个字段中的第一字段的信息价值IV值,构建与所述第一字段对应的第 ...
【技术保护点】
【技术特征摘要】
1.一种终端信息的输出方法,由设备执行,其特征在于,所述方法包括:按照预设比例对第一数据集中的正样本和负样本进行提取,得到第二数据集,其中,所述第一数据集中的每一个数据包括多个字段,每一个字段用于指示与终端对应的信息;所述正样本为所述第一数据集中所述多个字段指示使用第一终端的数据,所述负样本为所述第一数据集中所述多个字段指示当前之前的预设时长内已换成第二终端的数据;根据所述第二数据集中所述多个字段中的第一字段的信息价值IV值,构建与所述第一字段对应的第一分类器;其中,所述第一字段与所述第一终端的属性信息相关;根据所述第一分类器的输出结果构建第二分类器;输出所述第二分类器的输出结果中大于第一预设阈值的第一目标结果,其中,所述第一目标结果用于指示所述第一数据集中待使用所述第一终端的对象。2.根据权利要求1所述的方法,其特征在于,所述按照预设比例对第一数据集中的正样本和负样本进行提取,得到第二数据集包括:根据所述多个字段从目标区域内的多个行政区内分别获取对应的目标数据;从所述目标数据中剔除出无效数据,将剔除无效数据后的所述多个行政区的目标数据组合为所述第一数据集;其中,所述第一数据集中字段个数相同的行政区所对应的数据具有相同的标识;按照所述预设比例对所述第一数据集中的正样本和负样本进行提取;根据所述标识对提取结果中的数据进行分类,其中,每一个分类结果对应一个所述第二数据集。3.根据权利要求2所述的方法,其特征在于,所述根据所述第二数据集中所述多个字段中的第一字段的信息价值IV值,构建与所述第一字段对应的第一分类器,包括:将所述第二数据集中第一字段的空值率大于第二预设阈值的字段设置为私有字段;将所述第二数据集中第一字段的空值率小于或等于所述第二预设阈值的字段设置为共有字段;使用第一IV值筛选方式对所述共有字段进行筛选得到第一筛选结果,其中,所述第一筛选结果用于指示所述第一字段中所述共有字段的IV值大于第三预设阈值的第一目标字段;使用第二IV值筛选方式对所述私有字段进行筛选得到第二筛选结果,其中,所述第二筛选结果用于指示所述第一字段中所述私有字段的IV值大于第四预设阈值的第二目标字段;基于所述第一目标字段和所述第二目标字段中字段为空值的正样本与所述第一数据集中的正样本的比值大于第五预设阈值的字段,构建第一目标分类器;基于所述第一目标字段和所述第二目标字段中字段为空值的正样本与所述第一数据集中的正样本的比值小于或等于所述第五预设阈值的字段,构建第二目标分类器;其中,所述第一分类器包括第一目标分类器和第二目标分类器。4.根据权利要求3所述的方法,其特征在于,所述使用第一IV值筛选方式对所述共有字段进行筛选得到第一筛选结果,包括:提取所述共有字段中的第一共有字段,并对所述第一共有字段进行分箱;统计每一分箱中正样本的数据与所述第一数据集中的正样本的第一比值;
统计每一分箱中负样本的数据与所述第一数据集中的负样本的第二比值;根据所述第一比值与所述第二比值的和确定所述第一共有字段的IV值;从所述共有字段中筛选出所述IV值大于所述第三预设阈值的第一共有字段,得到所述第一筛选结果。5.根据权利要求3所述的方法,其特征在于,所述使用第二IV值筛选方式对所述私有字段进行筛选得到第二筛选结果,包括:提取所述私有字段中的第一私有字段,以及所述第一私有字段对应的所述标识;根据所述标识对所述第一私有字段进行分类,并对分类后的每一类第一私有字段进行分箱;统计每一分箱中正样本的数据与所述第一数据集中的正样本的第三比值,以及统计每一分箱中正样本的数据与所述第一数据集中的正样本的第四比值;根据所述第三比值和所述第四比值确定分类后的每一类第一私有字段的IV值;从所述IV值中筛选出大于所述第四预设阈值的第一私有字段,得到所述第二筛选结果。6.根据权利要求3所述的方法,其特征在于,所述基于所述第一目标字段和所述第二目标字段中字段为空值的正样本与所述第一数据集中的正样本的比值大于第五预设阈值的字段,构建第一目标分类器包括:从所述第一目标字段和所述第二目标字段中字段空值的正样本与所述第一数据集中的正样本的比值大于所述第五预设阈值的字段中,筛选出IV值大于第六预设阈值的字段,以构建第一子目标分类器;从所述第一目标字段和所述第二目标字段中字段空值的正样本与所述第一数据集中的正样本的比值大于所述第五预...
【专利技术属性】
技术研发人员:聂文静,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。