终端信息的输出方法、装置及可读存储介质制造方法及图纸

技术编号:34202305 阅读:22 留言:0更新日期:2022-07-20 10:59
本申请提供一种终端信息的输出方法、装置及可读存储介质,其中,该方法包括:按照预设比例对第一数据集中的正样本和负样本进行提取,得到第二数据集;根据第二数据集中多个字段中的第一字段的信息价值IV值,构建与第一字段对应的第一分类器;其中,第一字段与第一终端的属性信息相关;根据第一分类器的输出结果构建第二分类器;输出第二分类器的输出结果中大于第一预设阈值的第一目标结果,其中,第一目标结果用于指示第一数据集中待使用第一终端的对象。通过本申请,解决了现有技术中由于正负样本不平衡和部分字段时间和空间不稳定性,导致识别终端换机用户效果较差和鲁棒性较差的问题。问题。问题。

【技术实现步骤摘要】
终端信息的输出方法、装置及可读存储介质


[0001]本申请实施例涉及数据处理
,尤其涉及一种终端信息的输出方法、装置及可读存储介质。

技术介绍

[0002]2020年是5G正式进入我们生活中的商用化元年,运营商基于用户基本信息、套餐订购、终端使用情况、交往圈终端、终端换机时间、DPI及数字内容数据,形成用户统一的字段宽表数据,利用统一的字段构建决策树等二分类器算法识别5G终端换机用户。然而,对于新业务市场比如5G市场,普遍存在两种问题,1)部分字段存在时间和空间不稳定性,导致识别终端换机用户的方式鲁棒性较差;2)正负样本不平衡,导致识别终端换机用户效果较差。

技术实现思路

[0003]本申请实施例提供一种终端信息的输出方法、装置及可读存储介质,以解决现有技术中由于正负样本不平衡和部分字段存在时间和空间不稳定性,导致识别终端换机用户效果较差和鲁棒性较差的问题。
[0004]为解决上述问题,本申请是这样实现的:
[0005]第一方面,本申请实施例提供了一种终端信息的输出方法,由设备执行,所述方法包括:按照预设比例对第一数据集中的正样本和负样本进行提取,得到第二数据集,其中,所述第一数据集中的每一个数据包括多个字段,每一个字段用于指示与终端对应的信息;所述正样本为所述第一数据集中所述多个字段指示使用第一终端的数据,所述负样本为所述第一数据集中所述多个字段指示当前之前的预设时长内已换成第二终端的数据;根据所述第二数据集中所述多个字段中的第一字段的信息价值IV值,构建与所述第一字段对应的第一分类器;其中,所述第一字段与所述第一终端的属性信息相关;根据所述第一分类器的输出结果构建第二分类器;输出所述第二分类器的输出结果中大于第一预设阈值的第一目标结果,其中,所述第一目标结果用于指示所述第一数据集中待使用所述第一终端的对象。
[0006]第二方面,本申请实施例提供了一种终端信息的输出装置,所述装置包括:第一提取模块,用于按照预设比例对第一数据集中的正样本和负样本进行提取,得到第二数据集,其中,所述第一数据集中的每一个数据包括多个字段,每一个字段用于指示与终端对应的信息;所述正样本为所述第一数据集中所述多个字段指示使用第一终端的数据,所述负样本为所述第一数据集中所述多个字段指示当前之前的预设时长内已换成第二终端的数据;第一构建模块,用于根据所述第二数据集中所述多个字段中的第一字段的信息价值IV值,构建与所述第一字段对应的第一分类器;其中,所述第一字段与所述第一终端的属性信息相关;第二构建模块,用于根据所述第一分类器的输出结果构建第二分类器;输出模块,用于输出所述第二分类器的输出结果中大于第一预设阈值的第一目标结果,其中,所述第一目标结果用于指示所述第一数据集中待使用所述第一终端的对象。
[0007]第六方面,本申请实施例还提供一种可读存储介质,用于存储程序,所述程序被处
理器执行时实现如前述第一方面所述方法中的步骤。
[0008]在本申请实施例中,对于第一数据集中的正样本和负样本,是根据预设比例进行提取正负样本的分布比较均匀的第二数据集从而使整个数据集中正负样本比较平衡,另外,根据IV值构建分类器,并将输出结果重新融合新的分类器,进而输出待使用第一终端的对象的结果,多个模型整合时,将每个模型的输出结果作为特征编码重新建立分类器,从而得到最终的输出结果,保证了输出结果的准确度;如果是以5G用户终端为例,则输出第一数据集中待使用5G终端的对象,从而解决了现有技术中由于正负样本不平衡和部分字段时间和空间不稳定性,导致识别终端换机用户效果较差和鲁棒性较差的问题。
附图说明
[0009]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0010]图1是本申请实施例提供的终端信息的输出方法的流程图;
[0011]图2是本申请实施例提供的识别潜在5G终端用户方法示意图;
[0012]图3是本申请实施提供的终端信息的输出装置的结构示意图。
具体实施方式
[0013]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0014]本申请实施例中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,本申请中使用“和/或”表示所连接对象的至少其中之一,例如A和/或B和/或C,表示包含单独A,单独B,单独C,以及A和B都存在,B和C都存在,A和C都存在,以及A、B和C都存在的7种情况。
[0015]以下对本申请实施例提供的终端信息的输出方法进行说明。
[0016]参见图1,图1是本申请实施例提供的终端信息的输出方法的流程示意图。图1所示的终端信息的输出方法可以由设备执行。
[0017]如图1所示,终端信息的输出方法可以包括以下步骤:
[0018]步骤101,按照预设比例对第一数据集中的正样本和负样本进行提取,得到第二数据集,其中,第一数据集中的每一个数据包括多个字段,每一个字段用于指示与终端对应的信息;正样本为第一数据集中多个字段指示当前正在使用第一终端的数据,负样本为第一数据集中多个字段指示当前之前的预设时长内已换成第二终端的数据;
[0019]步骤102,根据第二数据集中多个字段中的第一字段的信息价值IV值,构建与第一
字段对应的第一分类器;其中,第一字段与第一终端的属性信息相关;
[0020]步骤103,根据第一分类器的输出结果构建第二分类器;
[0021]步骤104,输出第二分类器的输出结果中大于第一预设阈值的第一目标结果,其中,第一目标结果用于指示第一数据集中待使用第一终端的对象。
[0022]通过上述步骤101至步骤104,对于第一数据集中的正样本和负样本,是根据预设比例进行提取正负样本的分布比较均匀的第二数据集从而使整个数据集中正负样本比较平衡,另外,根据IV值构建分类器,并将输出结果重新融合新的分类器,进而输出待使用第一终端的对象的结果,多个模型整合时,将每个模型的输出结果作为特征编码重新建立分类器,从而得到最终的输出结果,保证了输出结果的准确度;如果是以5G用户终端为例,则输出第一数据集中待使用5G终端的对象,从而解决了现有技术中由于正负样本不平衡和部分字段时间和空间不稳定性,导致识别终端换机用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种终端信息的输出方法,由设备执行,其特征在于,所述方法包括:按照预设比例对第一数据集中的正样本和负样本进行提取,得到第二数据集,其中,所述第一数据集中的每一个数据包括多个字段,每一个字段用于指示与终端对应的信息;所述正样本为所述第一数据集中所述多个字段指示使用第一终端的数据,所述负样本为所述第一数据集中所述多个字段指示当前之前的预设时长内已换成第二终端的数据;根据所述第二数据集中所述多个字段中的第一字段的信息价值IV值,构建与所述第一字段对应的第一分类器;其中,所述第一字段与所述第一终端的属性信息相关;根据所述第一分类器的输出结果构建第二分类器;输出所述第二分类器的输出结果中大于第一预设阈值的第一目标结果,其中,所述第一目标结果用于指示所述第一数据集中待使用所述第一终端的对象。2.根据权利要求1所述的方法,其特征在于,所述按照预设比例对第一数据集中的正样本和负样本进行提取,得到第二数据集包括:根据所述多个字段从目标区域内的多个行政区内分别获取对应的目标数据;从所述目标数据中剔除出无效数据,将剔除无效数据后的所述多个行政区的目标数据组合为所述第一数据集;其中,所述第一数据集中字段个数相同的行政区所对应的数据具有相同的标识;按照所述预设比例对所述第一数据集中的正样本和负样本进行提取;根据所述标识对提取结果中的数据进行分类,其中,每一个分类结果对应一个所述第二数据集。3.根据权利要求2所述的方法,其特征在于,所述根据所述第二数据集中所述多个字段中的第一字段的信息价值IV值,构建与所述第一字段对应的第一分类器,包括:将所述第二数据集中第一字段的空值率大于第二预设阈值的字段设置为私有字段;将所述第二数据集中第一字段的空值率小于或等于所述第二预设阈值的字段设置为共有字段;使用第一IV值筛选方式对所述共有字段进行筛选得到第一筛选结果,其中,所述第一筛选结果用于指示所述第一字段中所述共有字段的IV值大于第三预设阈值的第一目标字段;使用第二IV值筛选方式对所述私有字段进行筛选得到第二筛选结果,其中,所述第二筛选结果用于指示所述第一字段中所述私有字段的IV值大于第四预设阈值的第二目标字段;基于所述第一目标字段和所述第二目标字段中字段为空值的正样本与所述第一数据集中的正样本的比值大于第五预设阈值的字段,构建第一目标分类器;基于所述第一目标字段和所述第二目标字段中字段为空值的正样本与所述第一数据集中的正样本的比值小于或等于所述第五预设阈值的字段,构建第二目标分类器;其中,所述第一分类器包括第一目标分类器和第二目标分类器。4.根据权利要求3所述的方法,其特征在于,所述使用第一IV值筛选方式对所述共有字段进行筛选得到第一筛选结果,包括:提取所述共有字段中的第一共有字段,并对所述第一共有字段进行分箱;统计每一分箱中正样本的数据与所述第一数据集中的正样本的第一比值;
统计每一分箱中负样本的数据与所述第一数据集中的负样本的第二比值;根据所述第一比值与所述第二比值的和确定所述第一共有字段的IV值;从所述共有字段中筛选出所述IV值大于所述第三预设阈值的第一共有字段,得到所述第一筛选结果。5.根据权利要求3所述的方法,其特征在于,所述使用第二IV值筛选方式对所述私有字段进行筛选得到第二筛选结果,包括:提取所述私有字段中的第一私有字段,以及所述第一私有字段对应的所述标识;根据所述标识对所述第一私有字段进行分类,并对分类后的每一类第一私有字段进行分箱;统计每一分箱中正样本的数据与所述第一数据集中的正样本的第三比值,以及统计每一分箱中正样本的数据与所述第一数据集中的正样本的第四比值;根据所述第三比值和所述第四比值确定分类后的每一类第一私有字段的IV值;从所述IV值中筛选出大于所述第四预设阈值的第一私有字段,得到所述第二筛选结果。6.根据权利要求3所述的方法,其特征在于,所述基于所述第一目标字段和所述第二目标字段中字段为空值的正样本与所述第一数据集中的正样本的比值大于第五预设阈值的字段,构建第一目标分类器包括:从所述第一目标字段和所述第二目标字段中字段空值的正样本与所述第一数据集中的正样本的比值大于所述第五预设阈值的字段中,筛选出IV值大于第六预设阈值的字段,以构建第一子目标分类器;从所述第一目标字段和所述第二目标字段中字段空值的正样本与所述第一数据集中的正样本的比值大于所述第五预...

【专利技术属性】
技术研发人员:聂文静
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1