所属行业数据确定方法及其装置制造方法及图纸

技术编号:32671224 阅读:24 留言:0更新日期:2022-03-17 11:25
本公开涉及一种所属行业数据确定方法及其装置,其中,一种所属行业数据确定方法包括:确定缺失所属行业数据的用户数据记录,以及所述用户数据记录中的属性数据;判断是否存在与所述属性数据具有关联关系的所属行业关联数据;若存在,则根据所述所属行业关联数据,确定所述所属行业数据;若不存在,则根据所述属性数据,生成所述所属行业数据,相当于推测或者预测出了用户数据记录中缺失的所属行业数据;或者,直接根据所述属性数据生成所述所属行业数据,提高了用户数据记录的质量以及可靠性,且便于后续其他基于数据的应用。且便于后续其他基于数据的应用。且便于后续其他基于数据的应用。

【技术实现步骤摘要】
所属行业数据确定方法及其装置


[0001]本申请涉及数据处理
,具体涉及一种所属行业数据确定方法及其装置、计算机存储介质、电子设备。

技术介绍

[0002]在大数据应用中,通常需要采集用户数据,为此,需要配置不同属性数据的字段来保存用户不同的属性数据,但是,在采集时,由于网络延迟原因或者数据源可靠性较低,往往会存在采集不到对应字段的属性数据。后续进行数据结构化时,将包括了字段中没有数据的整条数据记录全部删除,由此导致有数据的其他字段也被删除,由此,降低了数据的质量,且,数据的可靠性较低

技术实现思路

[0003]本申请实施例提供一种所属行业数据确定方法及其装置、计算机存储介质、电子设备,用以克服或者缓解现有技术中存在的上述技术问题。
[0004]本申请采用的技术方案为:
[0005]一种所属行业数据确定方法,其包括:
[0006]确定缺失所属行业数据的用户数据记录,以及所述用户数据记录中的属性数据;
[0007]判断是否存在与所述属性数据具有关联关系的所属行业关联数据;
[0008]若存在,则根据所述所属行业关联数据,确定所述所属行业数据;若不存在,则根据所述属性数据,生成所述所属行业数据。
[0009]可选地,若所述属性数据包括用户所属企业数据;其中,所述判断是否存在与所述属性数据具有关联关系的所属行业关联数据,包括:判断是否存在所述用户所属企业数据对应的企业信息数据;
[0010]所述根据所述所属行业关联数据,确定所述所属行业数据,包括:将所述用户所属企业数据对应的企业信息数据作为所述所属行业关联数据,并根据所述所属行业关联数据,确定所述所属行业数据。
[0011]可选地,若所述属性数据包括为对应用户分配的唯一性ID;其中,所述判断是否存在与所述属性数据具有关联关系的所属行业关联数据,包括:根据为对应用户分配的唯一性ID,判断是否存在对应的使用应用程序的行为数据;
[0012]所述根据所述所属行业关联数据,确定所述所属行业数据,包括:将所述使用应用程序的行为数据对应的企业信息数据作为所述所属行业关联数据,并根据所述所属行业关联数据,确定所述所属行业数据。
[0013]可选地,所述将所述使用应用程序的行为数据对应的企业信息数据作为所述所属行业关联数据,包括:
[0014]确定所述使用应用程序的行为数据对应的行为时间戳,并从中选择行为时间戳在设定时间戳范围内的使用应用程序的行为数据,以将其对应的企业信息数据作为所属行业
关联数据。
[0015]可选地,若使用应用程序的行为数据包括:内容浏览行为数据;所述根据为对应用户分配的唯一性ID,判断是否存在对应的使用应用程序的行为数据,包括:根据为对应用户分配的唯一性ID,判断是否存在内容浏览行为数据;
[0016]所述根据所述所属行业关联数据,确定所述所属行业数据,包括:将所述内容浏览行为数据对应的企业信息数据作为所述所属行业关联数据,并根据所述所属行业关联数据,确定所述所属行业数据。
[0017]可选地,所述根据所述属性数据,生成所述所属行业数据,包括:基于预先训练的行业分类模型,根据所述属性数据,生成预测的所述所属行业数据。
[0018]可选地,所述预先训练的行业分类模型包括逻辑回归模型,所述逻辑回归模型包括:多个权重参数矩阵,一个权重参数矩阵对应一类备选所属行业数据,每个权重参数矩阵包括多个分类权重值,分类权重值的数量与所述属性数据的维度相同;
[0019]其中,所述基于预先训练的逻辑回归模型,根据所述属性数据,生成预测的所述所属行业数据,包括:
[0020]针对每个权重参数矩阵,所述属性数据中每个维度的数据与权重参数矩阵中对应的分类权重值相乘再进行求和运算,得到预测值;
[0021]对所有权重参数矩阵对应预测值进行求和运算,得到预测值之和;
[0022]计算每个权重参数矩阵对应预测值与所述预测值之和的比值,将所述比值作为将对应的所述备选所属行业数据预测为所述所属行业数据的概率值;
[0023]将最大概率值对应的所述备选所属行业数据作为所述所属行业数据。
[0024]可选地,所述预先训练的行业分类模型包括决策树,所述决策树包括:节点以及节点间树枝连线,所述节点包括根节点、内部节点、叶子节点,所述节点间树枝连线始于所述根节点、经过所述内部节点并到达所述叶子节点,每个所述根节点和所述内部节点对应所述属性数据中的一个维度,一个所述叶子节点对应一类备选所属行业数据;
[0025]其中,所述基于预先训练的逻辑回归模型,根据所述属性数据,生成预测的所述所属行业数据,包括:
[0026]查找所述属性数据中每个维度的数据在所述决策树中对应的节点;
[0027]根据所述查找出的节点,确定对应的节点间树枝连线以及位于所述节点间树枝连线上的叶子节点;
[0028]将所述叶子节点对应的所述备选所属行业数据作为所述所属行业数据。
[0029]一种所属行业数据确定装置,其包括:
[0030]第一处理单元,用于确定缺失所属行业数据的用户数据记录,以及所述用户数据记录中的属性数据;
[0031]第二处理单元,用于判断是否存在与所述属性数据具有关联关系的所属行业关联数据;
[0032]第三处理单元,用于在存在所属行业关联数据时根据所述所属行业关联数据,确定所述所属行业数据;以及用于在不存在所属行业关联数据时,根据所述属性数据,生成所述所属行业数据。
[0033]一种计算机存储介质,所述计算机存储介质上存储有计算机可执行程序,所述计
算机可执行程序被运行以实施本申请实施例任一所述的方法。
[0034]一种电子设备,所述电子设备包括存储器以及处理器,所述存储器上用于存储计算机可执行程序,所述处理器用于运行所述计算机可执行程序以实施本申请实施例任一所述的方法。
[0035]一种计算机程序产品,所述计算机程序产品上存储计算机可执行程序,所述计算机可执行程序被运行以实施本申请实施例任一所述的方法。
[0036]本申请实施例,通过确定缺失所属行业数据的用户数据记录,以及所述用户数据记录中的属性数据;判断是否存在与所述属性数据具有关联关系的所属行业关联数据;若存在,则根据所述所属行业关联数据,确定所述所属行业数据;若不存在,则根据所述属性数据,生成所述所属行业数据,从而基于与所述属性数据具有关联关系的所属行业关联数据,确定所述所属行业数据,相当于推测或者预测出了用户数据记录中缺失的所属行业数据;或者,直接根据所述属性数据生成所述所属行业数据,提高了用户数据记录的质量以及可靠性,且便于后续其他基于数据的应用。
附图说明
[0001]图1A为本申请实施例中所属行业数据确定方法流程示意图;
[0002]图1B为本申请实施例中基于逻辑回归模型生成预测的所述所属行业数据的流程示意图;
[0003]图1C为本申请实施例中基于决策树生本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种所属行业数据确定方法,其特征在于,包括:确定缺失所属行业数据的用户数据记录,以及所述用户数据记录中的属性数据;判断是否存在与所述属性数据具有关联关系的所属行业关联数据;若存在,则根据所述所属行业关联数据,确定所述所属行业数据;若不存在,则根据所述属性数据,生成所述所属行业数据。2.根据权利要求1所述的方法,其特征在于,若所述属性数据包括用户所属企业数据;其中,所述判断是否存在与所述属性数据具有关联关系的所属行业关联数据,包括:判断是否存在所述用户所属企业数据对应的企业信息数据;所述根据所述所属行业关联数据,确定所述所属行业数据,包括:将所述用户所属企业数据对应的企业信息数据作为所述所属行业关联数据,并根据所述所属行业关联数据,确定所述所属行业数据。3.根据权利要求1所述的方法,其特征在于,若所述属性数据包括为对应用户分配的唯一性ID;其中,所述判断是否存在与所述属性数据具有关联关系的所属行业关联数据,包括:根据为对应用户分配的唯一性ID,判断是否存在对应的使用应用程序的行为数据;所述根据所述所属行业关联数据,确定所述所属行业数据,包括:将所述使用应用程序的行为数据对应的企业信息数据作为所述所属行业关联数据,并根据所述所属行业关联数据,确定所述所属行业数据。4.根据权利要求3所述的方法,其特征在于,所述将所述使用应用程序的行为数据对应的企业信息数据作为所述所属行业关联数据,包括:确定所述使用应用程序的行为数据对应的行为时间戳,并从中选择行为时间戳在设定时间戳范围内的使用应用程序的行为数据,以将其对应的企业信息数据作为所属行业关联数据。5.根据所述权利要求4所述的方法,其特征在于,若使用应用程序的行为数据包括:内容浏览行为数据;所述根据为对应用户分配的唯一性ID,判断是否存在对应的使用应用程序的行为数据,包括:根据为对应用户分配的唯一性ID,判断是否存在内容浏览行为数据;所述根据所述所属行业关联数据,确定所述所属行业数据,包括:将所述内容浏览行为数据对应的企业信息数据作为所述所属行业关联数据,并根据所述所属行业关联数据,确定所述所属行业数据。6.根据权利要求1所述的方法,其特征在于,所述根据所述属性数据,生成所述所属行业数据,包括:基于预先训练的行业分类模型,根据所述属性数据,生成预测的所述所属行业数据。7.根据权利要求6所述的方法,其特征在于,所述预先训练的行业分类模型包...

【专利技术属性】
技术研发人员:刘杰辰
申请(专利权)人:北京金堤科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1