用户的分类方法、装置和非易失性计算机可读存储介质制造方法及图纸

技术编号:31500579 阅读:46 留言:0更新日期:2021-12-22 23:11
本公开涉及一种用户的分类方法、装置和非易失性计算机可读存储介质,涉及计算机技术领域。该方法包括:从多个数据提供方获取用户的相关数据;以从各相关数据中提取的用户特征为节点,建立决策树模型作为第一用户分类模型;根据第一用户分类模型中各节点指向其他节点的次数,确定各节点的重要性度量用于从各节点中筛选重要节点;利用各重要节点建立第二用户分类模型,对用户进行分类。对用户进行分类。对用户进行分类。

【技术实现步骤摘要】
用户的分类方法、装置和非易失性计算机可读存储介质


[0001]本公开涉及计算机
,特别涉及一种用户的分类方法、用户的分类装置和非易失性计算机可读存储介质。

技术介绍

[0002]近年来,人工智能和大数据等相关技术蓬勃发展并广泛应用。利用各平台(如电商平台、金融机构、社交平台)等提供的用户数据,可以对用户进行大数据分析。基于分析结果可以对用户进行分类,从而对不同用户进行有针对性的处理。
[0003]但是,由于海量数据分散在不同企业、组织,出于用户隐私和数据安全原因形成了“数据孤岛”现象。也就是说,各方数据不能直接共享或者交换,使得人工智能等技术的发展陷入瓶颈期。
[0004]在相关技术中,基于多个参与方提供的数据,在第三方进行联邦机器学习,从而在保护用户隐私和数据安全的前提下解决“数据孤岛”问题。

技术实现思路

[0005]本公开的专利技术人发现上述相关技术中存在如下问题:各参与方提供的数据质量良莠不齐,降低了用户分类联邦机器学习模型的性能,从而导致用户分类的准确性低。
[0006]鉴于此,本公开提出了一种用户的分类技术方案,能够对各参与方提供的数据进行评估和筛选,提高联邦机器学习模型的性能,从而提高用户分类的准确性。
[0007]根据本公开的一些实施例,提供了一种用户的分类方法,包括:从多个数据提供方获取用户的相关数据;以从各相关数据中提取的用户特征为节点,建立决策树模型作为第一用户分类模型;根据所述第一用户分类模型中各节点指向其他节点的次数,确定各节点的重要性度量用于从所述各节点中筛选重要节点;利用各重要节点建立第二用户分类模型,对所述用户进行分类。
[0008]在一些实施例中,所述根据所述第一用户分类模型中各节点指向其他节点的次数,确定各节点的重要性度量包括:根据任一节点在样本空间内的信息增益、所述任一节点指向的其他节点的信息增益、指向其他节点的次数,确定所述重要性度量,所述重要性度量与指向其他节点的次数正相关。
[0009]在一些实施例中,所述根据任一节点在样本空间内的信息增益、所述任一节点指向的其他节点的信息增益、指向其他节点的次数,确定所述重要性度量包括:计算各其他节点的信息增益的加权和,任一其他节点的权重与所述任一节点指向该其他节点的次数正相关;根据所述各其他节点的信息增益的加权和与所述任一节点的信息增益的加权和,确定所述重要性度量。
[0010]在一些实施例中,所述任一其他节点的权重为N/(N+M),N为所述任一节点指向该其他节点的次数,M为该其他节点指向所述任一节点的次数。
[0011]在一些实施例中,所述根据任一节点在样本空间内的信息增益、所述任一节点指
向的其他节点的信息增益、指向其他节点的次数,确定所述重要性度量包括:以所述各节点之间的指向关系为有向连接,以所述各节点指向其他节点的次数为有向连接的权重,建立包含所述各节点的指向关系图,所述指向关系图中标注有所述各节点的信息增益;根据所述指向关系图,确定所述重要性度量。
[0012]在一些实施例中,所述第一用户分类模型为包含多个决策树模型的集成学习模型;所述根据所述第一用户分类模型中各节点指向其他节点的次数,确定各节点的重要性度量包括:在各决策树模型中,分别确定所述各节点的子重要性度量;根据各子重要性度量的加权和,确定所述各节点的重要性度量。
[0013]在一些实施例中,所述各节点的重要性度量用于评估相应的数据提供方的贡献度量。
[0014]在一些实施例中,所述用户的分类结果用于确定对所述用户的处理策略。
[0015]在一些实施例中,在建立实施决策树模型之前分类方法还包括:对获取的各相关数据进行预处理,滤除其中的恶意数据和低效数据。所述恶意数据包含的所有用户特征为空值或者相同值,所述低效数据根据IV判定。
[0016]在一些实施例中,所述第一用户分类模型为基于Secure boost算法建立的包含多个梯度提升树模型的分类模型。
[0017]在一些实施例中,所述决策树模型中每一个分裂节点对应的用户特征均是在当前样本空间中信息增益最大的用户特征。
[0018]在一些实施例中,所述根据所述第一用户分类模型中各节点指向其他节点的次数,确定各节点的重要性度量用于从所述各节点中筛选重要节点包括:根据任一决策树模型中所有节点的重要性度量最大值和重要性度量最小值,对该决策树模型中各节点的重要性度量进行标准化处理;根据标准化处理后的重要性度量从所述各节点中筛选重要节点。
[0019]根据本公开的另一些实施例,提供一种用户的分类装置,包括:获取单元,用于从多个数据提供方获取用户的相关数据;建立单元,用于以从各相关数据中提取的用户特征为节点,建立决策树模型作为第一用户分类模型;确定单元,用于根据所述第一用户分类模型中各节点指向其他节点的次数,确定各节点的重要性度量用于从所述各节点中筛选重要节点;分类单元,用于利用根据各重要节点建立的第二用户分类模型,对所述用户进行分类。
[0020]在一些实施例中,确定单元根据任一节点在样本空间内的信息增益、所述任一节点指向的其他节点的信息增益、指向其他节点的次数,确定所述重要性度量,所述重要性度量与指向其他节点的次数正相关。
[0021]在一些实施例中,确定单元计算各其他节点的信息增益的加权和,任一其他节点的权重与所述任一节点指向该其他节点的次数正相关;根据所述加权和与所述任一节点的信息增益的加权和,确定所述重要性度量。
[0022]在一些实施例中,所述任一其他节点的权重为N/(N+M),N为所述任一节点指向该其他节点的次数,M为该其他节点指向所述任一节点的次数。
[0023]在一些实施例中,建立单元以所述各节点之间的指向关系为有向连接,以所述各节点指向其他节点的次数为有向连接的权重,建立包含所述各节点的指向关系图,所述指向关系图中标注有所述各节点的信息增益;确定单元根据所述指向关系图,确定所述重要
性度量。
[0024]在一些实施例中,所述第一用户分类模型为包含多个决策树模型的集成学习模型;确定单元在各决策树模型中,分别确定所述各节点的子重要性度量,根据各子重要性度量的加权和,确定所述各节点的重要性度量。
[0025]在一些实施例中,所述各节点的重要性度量用于评估相应的数据提供方的贡献度量。
[0026]在一些实施例中,所述用户的分类结果用于确定对所述用户的处理策略。
[0027]在一些实施例中,所述获取单元在建立实施决策树模型之前分类方法对获取的各相关数据进行预处理,滤除其中的恶意数据和低效数据。所述恶意数据包含的所有用户特征为空值或者相同值,所述低效数据根据IV判定。
[0028]在一些实施例中,所述第一用户分类模型为基于Secure boost算法建立的包含多个梯度提升树模型的分类模型。
[0029]在一些实施例中,所述决策树模型中每一个分裂节点对应的用户特征均是在当前样本空间中信息增益最大的用户特征。
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用户的分类方法,包括:从多个数据提供方获取用户的相关数据;以从各相关数据中提取的用户特征为节点,建立决策树模型作为第一用户分类模型;根据所述第一用户分类模型中各节点指向其他节点的次数,确定各节点的重要性度量用于从所述各节点中筛选重要节点;利用各重要节点建立第二用户分类模型,对所述用户进行分类。2.根据权利要求1所述的分类方法,其中,所述根据所述第一用户分类模型中各节点指向其他节点的次数,确定各节点的重要性度量包括:根据任一节点在样本空间内的信息增益、所述任一节点指向的其他节点的信息增益、指向其他节点的次数,确定所述重要性度量,所述重要性度量与指向其他节点的次数正相关。3.根据权利要求2所述的分类方法,其中,所述根据任一节点在样本空间内的信息增益、所述任一节点指向的其他节点的信息增益、指向其他节点的次数,确定所述重要性度量包括:计算各其他节点的信息增益的加权和,任一其他节点的权重与所述任一节点指向该其他节点的次数正相关;根据所述各其他节点的信息增益的加权和与所述任一节点的信息增益的加权和,确定所述重要性度量。4.根据权利要求3所述的分类方法,其中,所述任一其他节点的权重为N/(N+M),N为所述任一节点指向该其他节点的次数,M为该其他节点指向所述任一节点的次数。5.根据权利要求2所述的分类方法,其中,所述根据任一节点在样本空间内的信息增益、所述任一节点指向的其他节点的信息增益、指向其他节点的次数,确定所述重要性度量包括:以所述各节点之间的指向关系为有向连接,以所述各节点指向其他节点的次数为有向连接的权重,建立包含所述各节点的指向关系图,所述指向关系图中标注有所述各节点的信息增益;根据所述指向关系图,确定所述重要性度量。6.根据权利要求1所述的分类方法,其中,所述第一用户分类模型为包含多个决策树模型的集成学习模型;所述根据所述第一用户分类模型中各节点指向其他节点的次数,确定各节点的重要性度量包括:在各决策树模型中,分别确定所述各节点的子重要性度量;根据各子重要性度量的加权和,确定所述各节点的重要性度量。7...

【专利技术属性】
技术研发人员:范昊陈忠黄志翔彭南博程建波
申请(专利权)人:京东科技控股股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1