数据处理方法和装置制造方法及图纸

技术编号:11124311 阅读:50 留言:0更新日期:2015-03-11 13:59
本发明专利技术公开了一种数据处理方法和装置。其中,该数据处理方法包括:抽取多个用户的日志文件中的用户标识,得到多个用户标识;按照预设规则对多个用户标识进行排序;按顺序对排序后的多个用户标识添加序号;将序号与多个用户标识进行映射,得到用户的映射标识。通过本发明专利技术,解决了现有技术中将日志文件中的用户标识映射为整数时不准确的问题,达到了准确将日志文件的用户标识映射为整数的效果。

【技术实现步骤摘要】
数据处理方法和装置
本专利技术涉及互联网领域,具体而言,涉及一种数据处理方法和装置。
技术介绍
推荐系统越来越多的被各个网站使用,推荐系统的数据源一般是日志文件。在常 用的日志文件中包含了大量的用户历史行为数据,推荐系统根据用户历史行为数据位用户 提供推荐信息。在提供推荐信息时,首先要根据用户的标识识别出用户的身份,由于每个网 站生成的日志文件中记载用户标识的方式不存在统一的规范,导致日志文件中没有标准的 用户标识字段,一般是自定义的字符串。而对于推荐引擎的算法库来说,这种自定义的字符 串会降低推荐的效率,基于对性能和处理复杂度的考虑,在进行推荐时需要输入一个整数 类型的用户标识。 现有技术可以通过哈希算法将自定义的字符串标识映射为整数,但是,不同的字 符串经过哈希算法映射的整数可能相同,因此导致一个整数所对应的用户标识不唯一,造 成数据处理不准确。 针对现有技术将日志文件中的用户标识映射为整数时不准确的问题,目前尚未提 出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种数据处理方法和装置,以解决现有技术将日志文 件中的用户标识映射为整数时不准确的问题。 为了实现上述目的,根据本专利技术实施例的一个方面,提供了一种数据处理方法。根 据本专利技术的数据处理方法包括:抽取多个用户的日志文件中的用户标识,得到多个用户标 识,其中,每个用户包括一个用户标识;按照预设规则对所述多个用户标识进行排序;按顺 序对排序后的所述多个用户标识添加序号;将所述序号与所述多个用户标识进行映射,得 到所述用户的映射标识。 进一步地,在按照预设规则对所述多个用户标识进行排序之前,所述方法还包括: 获取记录有所述序号和所述映射标识的映射表和待映射用户标识;从所述映射中查找所述 待映射用户标识;判断所述待映射用户标识是否存在于所述映射表中;如果判断出所述待 映射用户标识存在于所述映射表中,则将所述待映射用户标识映射为查找到的用户标识所 对应的映射标识;如果判断出所述待映射用户标识不存在于所述映射表中,则确定对所述 待映射用户标识进行排序。 进一步地,如果判断出所述待映射用户标识不存在于所述映射表中,则确定对所 述用户标识进行排序包括:获取所述映射表中的用户标识;将所述映射表中的所述用户标 识和所述待映射用户标识一起进行排序。 进一步地,在将所述待映射用户标识映射为查找到的用户标识所对应的映射标识 之后,所述方法还包括:将所述待映射用户标识更新到所述映射表中。 进一步地,按照预设规则对所述用户标识进行排序包括:获取待映射用户标识所 在的日志文件中的时间信息;按照所述时间信息对所述用户标识进行排序,得到排序后的 用户标识;以及按照所述预设规则对所述排序后的用户标识进行排序。 为了实现上述目的,根据本专利技术实施例的另一方面,提供了一种数据处理装置。根 据本专利技术的数据处理装置包括:抽取单元,用于抽取多个用户的日志文件中的用户标识,得 到多个用户标识,其中,每个用户包括一个用户标识;排序单元,用于按照预设规则对所述 多个用户标识进行排序;添加单元,用于按顺序对排序后的所述多个用户标识添加序号; 映射单元,用于将所述序号与所述多个用户标识进行映射,得到所述用户的映射标识。 进一步地,所述装置还包括:获取单元,用于在按照预设规则对所述多个用户标识 进行排序之前,获取记录有所述序号和所述映射标识的映射表和待映射用户标识;查找单 元,用于从所述映射中查找所述待映射用户标识;判断单元,用于判断所述待映射用户标识 是否存在于所述映射表中;确定单元,用于在判断出所述待映射用户标识存在于所述映射 表中时,将所述待映射用户标识映射为查找到的用户标识所对应的映射标识;在判断出所 述待映射用户标识不存在于所述映射表中时,确定对所述待映射用户标识进行排序。 进一步地,所述确定单元包括:第一获取模块,用于获取所述映射表中的用户标 识;第一排序模块,用于将所述映射表中的所述用户标识和所述待映射用户标识一起进行 排序。 进一步地,所述装置还包括:更新单元,用于在将所述待映射用户标识映射为查找 到的用户标识所对应的映射标识之后,将所述待映射用户标识更新到所述映射表中。 进一步地,所述排序单元包括:第二获取模块,用于获取待映射用户标识所在的日 志文件中的时间信息;第二排序模块,用于按照所述时间信息对所述用户标识进行排序,得 到排序后的用户标识;以及第三排序模块,用于按照所述预设规则对所述排序后的用户标 识进行排序。 根据专利技术实施例,通过抽取多个用户的日志文件中的用户标识,得到多个用户标 识;按照预设规则对多个用户标识进行排序;按顺序对排序后的多个用户标识添加序号; 将序号与多个用户标识进行映射,得到用户的映射标识,即提取用户标识之后,对用户标识 进行排序,将排序的序号作为这多个用户标识的新的标识,由于序号为整数,也就是实现了 将不规则的用户标识映射为规则的整数,解决了现有技术中将日志文件中的用户标识映射 为整数时不准确的问题,达到了准确将日志文件的用户标识映射为整数的效果。 【附图说明】 构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实 施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中: 图1是根据本专利技术实施例的数据处理方法的流程图;以及 图2是根据本专利技术实施例的数据处理装置的示意图。 【具体实施方式】 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相 互组合。下面将参考附图并结合实施例来详细说明本专利技术。 为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的 附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是 本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术 人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范 围。 需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语第一、第 二等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使 用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例。此外,术语包括和 具有以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元 的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有 清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。 本专利技术实施例提供了一种数据处理方法。该数据处理方法能够在利用用户的日志 文件进行数据分析时,将不规则的、自定义的用户标识映射为整数,并且,每个用户标识仅 对应一个整数,一个整数可以对应具有相同的用户标识的多个日志文件。通过该方法,能够 实现用户标识到整数的映射,使得进行的例如新闻推荐等与用户标识相关的动作时,减少 处理用户标识所占用的内存资源,提高了数据处理的效率。 图1是根据本专利技术实施例的数据处理方法的流程图。如图1所示,该数据处理方 法包括步骤如下: 步骤S102,抽取多个用户的日志文件中的用户标识,得到多个本文档来自技高网
...

【技术保护点】
一种数据处理方法,其特征在于,包括:抽取多个用户的日志文件中的用户标识,得到多个用户标识,其中,每个用户包括一个用户标识;按照预设规则对所述多个用户标识进行排序;按顺序对排序后的所述多个用户标识添加序号;将所述序号与所述多个用户标识进行映射,得到所述用户的映射标识。

【技术特征摘要】
1. 一种数据处理方法,其特征在于,包括: 抽取多个用户的日志文件中的用户标识,得到多个用户标识,其中,每个用户包括一个 用户标识; 按照预设规则对所述多个用户标识进行排序; 按顺序对排序后的所述多个用户标识添加序号; 将所述序号与所述多个用户标识进行映射,得到所述用户的映射标识。2. 根据权利要求1所述的方法,其特征在于,在按照预设规则对所述多个用户标识进 行排序之前,所述方法还包括: 获取记录有所述序号和所述映射标识的映射表和待映射用户标识; 从所述映射中查找所述待映射用户标识; 判断所述待映射用户标识是否存在于所述映射表中; 如果判断出所述待映射用户标识存在于所述映射表中,则将所述待映射用户标识映射 为查找到的用户标识所对应的映射标识; 如果判断出所述待映射用户标识不存在于所述映射表中,则确定对所述待映射用户标 识进行排序。3. 根据权利要求2所述的方法,其特征在于,如果判断出所述待映射用户标识不存在 于所述映射表中,则确定对所述用户标识进行排序包括: 获取所述映射表中的用户标识; 将所述映射表中的所述用户标识和所述待映射用户标识一起进行排序。4. 根据权利要求2所述的方法,其特征在于,在将所述待映射用户标识映射为查找到 的用户标识所对应的映射标识之后,所述方法还包括: 将所述待映射用户标识更新到所述映射表中。5. 根据权利要求1所述的方法,其特征在于,按照预设规则对所述用户标识进行排序 包括: 获取待映射用户标识所在的日志文件中的时间信息; 按照所述时间信息对所述用户标识进行排序,得到排序后的用户标识;以及 按照所述预设规则对所述排序后的用户标识进行排序。6. -种数据处理装置,其特征在于,包括: 抽取单元,用于抽取...

【专利技术属性】
技术研发人员:王江伟
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1