本申请公开了用户标识的关联关系判断方法和装置。该方法的一具体实施方式包括:通过分别获取与第一用户标识相关联的第一特征信息以及与第二用户标识相关联的第二特征信息;基于第一特征信息与第二特征信息,判断第一用户标识与第二用户标识是否具有关联关系,并且得到初始判断结果;检测第一特征信息与第二特征信息的变化量,以及基于变化量与初始判断结果,生成指示是否需要重新判断第一用户标识与第二用户标识是否具有关联关系的判断指示信息;执行与判断指示信息对应的操作,确定第一用户标识与第二用户标识是否具有关联关系。从而避免了每次判断过程中均需对用户的标识之间的关联关系重新判断而造成的重复计算,减少了对网络资源的消耗。
【技术实现步骤摘要】
本申请涉及计算机领域,具体涉及数据处理领域,尤其涉及用户标识的关联关系 判断方法和装置。
技术介绍
目前,在对海量的用户标识之间的关联关系的挖掘中(例如确定用户标识是否属 于同一用户),判断用户标识之间的关联关系的方式为:每一次对用户标识之间的关联关 系的判断过程之间不具有关联性,在每一次判断中,所有用户标识之间的关联关系均需重 新进行判断。然而,在多次判断中连续出现的用户标识之间的关联关系的判断结果发生变 化的可能性较小的情况下,依然需要对连续出现的用户标识之间的关联关系再次进行判 断,从而造成大量的不必要的重复计算,在现有的单日全量预测量在万亿级别的数据规模 下,消耗网络资源较为严重。
技术实现思路
本申请提供了用户标识的关联关系判断方法和装置,用于解决上述
技术介绍
部分 存在的技术问题。 第一方面,本申请提供了用户标识的关联关系判断方法,该方法包括:分别获取与 第一用户标识相关联的第一特征信息以及与第二用户标识相关联的第二特征信息,其中, 特征信息包括搜索特征信息、浏览特征信息;基于第一特征信息与第二特征信息,判断第一 用户标识与第二用户标识是否具有关联关系,并且得到初始判断结果;检测第一特征信息 与第二特征信息的变化量,以及基于变化量与初始判断结果,生成判断指示信息,判断指示 信息指示是否需要重新判断第一用户标识与第二用户标识是否具有关联关系;执行与判断 指示信息对应的操作,确定第一用户标识与第二用户标识是否具有关联关系。 第二方面,本申请提供了用户标识的关联关系判断装置,该装置包括:获取单元, 配置用于分别获取与第一用户标识相关联的第一特征信息以及与第二用户标识相关联的 第二特征信息,其中,特征信息包括搜索特征信息、浏览特征信息;判断单元,配置用于基于 第一特征信息与第二特征信息,判断第一用户标识与第二用户标识是否具有关联关系,并 且得到初始判断结果;生成单元,配置用于检测第一特征信息与第二特征信息的变化量,以 及基于变化量与初始判断结果,生成判断指示信息,判断指示信息指示是否需要重新判断 第一用户标识与第二用户标识是否具有关联关系;执行单元,配置用于执行与判断指示信 息对应的操作,确定第一用户标识与第二用户标识是否具有关联关系。 本申请提供的用户标识的关联关系判断方法和装置,通过分别获取与第一用户标 识相关联的第一特征信息以及与第二用户标识相关联的第二特征信息;基于第一特征信息 与第二特征信息,判断第一用户标识与第二用户标识是否具有关联关系,并且得到初始判 断结果;检测第一特征信息与第二特征信息的变化量,以及基于变化量与初始判断结果,生 成指示是否需要重新判断第一用户标识与第二用户标识是否具有关联关系的判断指示信 息;执行与判断指示信息对应的操作,确定第一用户标识与第二用户标识是否具有关联关 系。从而避免了每次判断过程中均需对用户的标识之间的关联关系重新判断而造成的重复 计算,减少了对网络资源的消耗。【附图说明】 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它 特征、目的和优点将会变得更明显: 图1示出了根据本申请的用户标识的关联关系判断方法的一个实施例的流程图; 图2其示出了特征向量结构示意图; 图3示出了根据本申请的用户标识的关联关系判断装置的一个实施例的结构示 意图。【具体实施方式】 下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描 述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了 便于描述,附图中仅示出了与有关专利技术相关的部分。 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相 互组合。下面将参考附图并结合实施例来详细说明本申请。 在本申请的实施例中,第一用户标识和第二用户标识并不特指某一用户的用户标 识。第一用户标识和第二用户标识可以为在判断用户的标识是否属于同一用户的过程中, 获取到的海量用户标识中任意两个用户标识。 请参考图1,其示出了根据本申请的用户标识的关联关系判断方法的一个实施例 的流程100。该方法包括以下步骤: 步骤101,分别获取与第一用户标识相关联的第一特征信息以及与第二用户标识 相关联的第二特征信息。 在本实施例中,特征信息包括搜索特征信息、浏览特征信息。用户标识(也可称之 为用户ID)为用于标识用户在网络中的身份的信息。可以预先基于用户标识对用户的网络 行为(例如搜索行为、浏览行为)等相关联的信息进行记录,从而获取与第一用户标识相关 联的第一特征信息以及与第二用户标识相关联的第二特征信息。 在本实施例的一些可选地实现方式中,用户标识包括以下之一:移动设备国际识 别码頂EI、浏览记录标识。在本实施例中,浏览记录标识可以为用户的cookie。 在本实施例的一些可选地实现方式中,搜索特征信息包括以下至少一项:搜索词 类型、搜索时间;浏览特征信息包括以下至少一项:浏览网页类型、在线地点、在线时间。在 本实施例中,在线地点可以用户接入网络的地点。在线时间可以为用户使用特定网络服务 的时间,也可以为用户接入网络的时间段。 步骤102,基于第一特征信息与第二特征信息,判断第一用户标识与第二用户标识 是否具有关联关系,并且得到初始判断结果。 在本实施例中,可以基于第一特征信息与第二特征信息之间的相似度,来判断第 一用户标识与第二用户标识是否具有关联关系,从而得到表征第一用户标识与第二用户标 识是否具有关联关系的初始判断结果。 在本实施例的一些可选地实现方式中,关联关系包括第一用户标识与第二用户标 识属于同一用户的用户标识。判断第一用户标识与第二用户标识是否具有关联关系,并且 得到初始判断结果包括:分别生成表征多个第一特征信息的第一特征向量与表征多个第二 特征信息的第二特征向量,其中,特征向量中每一个分量对应一个特征信息;采用余弦相似 度算法分别计算第一特征向量中每一个分量与其对应的第二特征向量中的分量之间的相 似度,得到多个相似度子参数,并且基于多个相似度子参数,得到相似度参数;当相似度参 数大于相似度阈值时,确定第一用户标识与第二用户标识具有关联关系。 在本实施例中,可以采用以下形式的特征向量表示与用户标识相关联的特征信 息:ATTR = {attrO, attrl, attr2,…,attrn}。其中,attri (i = 0, 1,…,η)各自对应一个 特征信息,特征信息可以用一个具体的数值进行表示,也可以用一个集合结构进行表示。可 以分别采用上述特征向量表示与第一用户标识相关联的特征信息以及与第二用户标识相 关联的特征信息。在本实施例中,特征信息可以包括浏览网页类型、在线地点、在线时间,搜 索时所使用的搜索词类型等类型的信息。 请参考图2,其示出了特征向量结构示意图。在图2中,示出了浏览网页类型、在线 地点、在线时间等特征信息。其中,浏览网页类型、在线地点采用集合结构进行表示,浏览网 页类型采用一个关键词集合进行表示,在线地点采用表征用户位置的坐标集合进行表示。 在线时间则采用表征时间段的向量进行表示。 在本实施例中,在确定第一特征信息对应的特征向量与第二特征信息对应的特征 特征向量之后,可以采用余弦相似度算法对上述两个向量中每一个分量之本文档来自技高网...
【技术保护点】
一种用户标识的关联关系判断方法,其特征在于,所述方法包括:分别获取与第一用户标识相关联的第一特征信息以及与第二用户标识相关联的第二特征信息,其中,特征信息包括搜索特征信息、浏览特征信息;基于所述第一特征信息与第二特征信息,判断第一用户标识与第二用户标识是否具有关联关系,并且得到初始判断结果;检测所述第一特征信息与第二特征信息的变化量,以及基于所述变化量与所述初始判断结果,生成判断指示信息,所述判断指示信息指示是否需要重新判断第一用户标识与第二用户标识是否具有关联关系;执行与所述判断指示信息对应的操作,确定第一用户标识与第二用户标识是否具有关联关系。
【技术特征摘要】
【专利技术属性】
技术研发人员:叶青,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。