本发明专利技术提供了一种基于历史记录的用户兴趣提取方法,该方法包括:对用户行为历史数据进行预处理并识别独立用户;确定关键词在上下文的语义,根据语义对关键词进行词频统计,从而得到用户的兴趣特征。本发明专利技术提出了一种基于历史记录的用户兴趣提取方法,通过对独立用户行为进行用户识别,在识别过程中展示了用户的兴趣爱好,实现了针对性的有价值信息推送。
【技术实现步骤摘要】
本专利技术涉及大数据,特别涉及一种。
技术介绍
近年来移动互联网、电子商务、物联网迅猛发展,用户在网上可获取的消息越来越多,互联网中有海量的信息内容,用户为了找到自己真正感兴趣和需要的信息,不得不花费巨大的时间和精力去筛选这些信息,甚至可能还会由于搜索不当导致用户错过或漏选真正感兴趣的信息。因此需要一种根据自身在网络中的行为习惯和兴趣爱好,能够自动为用户提供用户需要的信息的服务。比如网络商家,当商家在网络中发布自己的商品信息,而对此感兴趣的用户又错过了浏览该商品的机会,商家就丧失了一次可能进行商品交易的机会,因此商家也需要网络能够提供一种自动将其发布的商品信息提供给对商品可能感兴趣的用户的服务。传统的技术方案对用户在网络中的行为习惯和兴趣爱好进行分析,实现信息推送。而只是记录了用户的上网记录,访问了哪些服务器的哪些页面。这些信息不能很明显地展示用户的兴趣爱好。而通过第三方网站跟踪用户的用户识别方法只考虑了商家的需求,没有考虑用户的信息安全;根据用户上网的行为模式判断新会话属于哪个用户的方法只是分析了动态的会话,而且当数据量庞大时,由于缺少识别用户的信息,仅依靠用户的行为模式,不能进行用户识别。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了一种,包括:对用户行为历史数据进行预处理并识别独立用户;确定关键词在上下文的语义,根据语义对关键词进行词频统计,从而得到用户的兴趣特征。优选地,所述对用户行为历史数据进行预处理,进一步包括:删除Web日志中无关的数据,然后将网站日志数据规范化为以下字段:Record =〈Source,ACC,Time,URL,Reference,Des,Agent,cke>;其中,Source为用户登录时主机的IP地址;ACC为用户的账户;Time是用户访问这一 URL的时刻,即生成这一条日志的时刻;URL则是用户访问的页面;Reference表示用户是从哪一个页面链接到当前页面;Des是用户要访问的页面所在的网站的主机IP,S卩服务器IP地址;Agent则是用户当前使用的机器的配置和使用的浏览器的配置的信息;cke是用户在网站上的私人信息,其中Agent和cke是经过编码的,使用Java库中的相应解码函数对其进行解码;其中,所述确定关键词在上下文的语义,根据语义对关键词进行词频统计,从而得到用户的兴趣特征,进一步包括:对于输入的每条关键词记录,如果不存在该记录,则新增一列词频字段,并将其置为I;如果已经存在一条记录与该记录的字段都相同,则将与该条记录一致的词的词频值更新为原来的值+1;统计出每个用户词频值最大的预定义数量的记录并输出,将每一用户的预定义数量词频最大的记录的特征词即为该用户的兴趣特征,记录为: Record =〈UserID,I ist〈Key,Cls,Weight〉其中,Weight为该特征词在该分类下出现的次数,即权重;list作为其兴趣特征,其中Key是特征词,Cls是兴趣特征词的分类,对每一个用户记录的每一个用户兴趣特征词提取其分类,然后添加到特征分类词库CLB;提取兴趣特征分类时,判断分类词库中是否存在该特征分类,如果不存在,则将其加入特征词库;如果存在,再继续提取下个特征词的分类;接下来根据特征分类词库中的每一个词找出对该分类感兴趣的用户,即找相似特征用户;将用户User的每个兴趣特征词记为W1,则在计算该用户在每一个兴趣特征词与分类词的语义近似度的值时在兴趣特征词与分类词的相似度的值上加上权重比例,得到用户User与分类词C的语义近似度;然后,对所有用户按照其与分类词的语义近似度的值进行降序排序,取排序后预定比例的用户作为属于该分类的用户,将这些用户的UserID添加到分类词的链表中记录下来;然后计算所有用户的兴趣特征与CLB中的其他分类词的语义近似度;计算每个分类下的用户,最终得到CLB中每个分类词下所属的用户。本专利技术相比现有技术,具有以下优点:本专利技术提出了一种,通过对独立用户行为进行用户识别,在识别过程中展示了用户的兴趣爱好,实现了针对性的有价值信息推送。。【附图说明】图1是根据本专利技术实施例的的流程图。【具体实施方式】下文与图示本专利技术原理的附图一起提供对本专利技术一个或者多个实施例的详细描述。结合这样的实施例描述本专利技术,但是本专利技术不限于任何实施例。本专利技术的范围仅由权利要求书限定,并且本专利技术涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本专利技术的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本专利技术。本专利技术的一方面提供了一种。图1是根据本专利技术实施例的流程图。本专利技术选择在云计算平台上实现。云平台整体架构由用户识别模块和兴趣分析模块两部分组成。用户识别模块从日志数据中识别出独立会话,并且将这些数据按照用户聚类,从而识别出用户,为下一步的用户兴趣特征模块提供数据。兴趣分析模块在用户识别的基础上,对数据进行提取、分析,进一步找出用户兴趣特征,构建特征分类库,并最终找出属于每一个分类的用户,即相似特征用户,为将来的推荐提供有用信息。用户识别模块由数据清理、会话识别、客户端缓存数据提取和用户识别四个子模块组成。数据清理子模块是对日志数据中一些冗余和无效等影响存储效率和分析效率的数据进行删除,得到无冗余的日志。会话识别子模块是根据日志记录中的时刻和URL等字段,对日志进行分析,找到属于同一个会话的日志,并对其进行聚类和标识。客户端缓存数据提取子模块对每个会话中客户端缓存数据非空的日志进行Name字段的提取,该字段是用户登录的一些网站的用户名。用户识别子模块是在上述数据清理、会话识别和客户端缓存数据提取的基础上,根据形成的日志格式和内容进行用户识别分析,将属于同一用户的会话聚类,识别出每一个上网的用户,方便后续的兴趣分析模块使用。兴趣分析模块包括关键词提取、兴趣特征提取和相似特征用户挖掘三个子模块。关键词提取子模块是对日志的URL进行搜索关键词提取,并对提取的关键词分词。兴趣特征提取子模块是对关键词提取子模块获取的分词进行语义确定,获取每个词语的词义和分类,并对用户的相同语义和分类下的词语进行词频统计,从而得到用户兴趣特征。相似特征用户挖掘子模块是通过构建特征分类库,从而找出属于分类库中每一个分类的用户,实现对用户的聚类,实现特定兴趣特征用户的针对性推荐。本专利技术采用了聚类进行用户识别,将所有对于识别出有用的字段都纳入了判断用户的比较范围,识别出了用户,并对日志进行了标记,而且将日志按用户进行了分类;采用基于分类词库的语义确定方法,判断其在不同上下文的环境中的不同的语义;在挖掘相似用户时,通过构建一个分类库,提取表示用户兴趣特征词语的分类;对上述过程在云计算平台上进行了实现,将海量的互联网日志数据存储在分布式文件系统中,然后对研究内容在MapReduce框架上进行实现。在用户识别前,首先进行数据清理,删除Web日志中无关的数据,包括:1)访问的文件是图片、框架等文件;2)用户请求访问失败的记录。这些数据对于分析和识别真实用户在网站的访问情况并无关系,属于干扰信息,因此进行删除。经过数据清理后的日志有八个字段,可以表示为:Record =〈Source,ACC,Ti本文档来自技高网...
【技术保护点】
一种基于历史记录的用户兴趣提取方法,其特征在于,包括:对用户行为历史数据进行预处理并识别独立用户;确定关键词在上下文的语义,根据语义对关键词进行词频统计,从而得到用户的兴趣特征。
【技术特征摘要】
【专利技术属性】
技术研发人员:董政,吴文杰,陈露,李学生,
申请(专利权)人:成都陌云科技有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。