基于历史记录的用户兴趣提取方法技术

技术编号：13197204 阅读：64 留言：0更新日期：2016-05-12 08:30

本发明专利技术提供了一种基于历史记录的用户兴趣提取方法，该方法包括：对用户行为历史数据进行预处理并识别独立用户；确定关键词在上下文的语义，根据语义对关键词进行词频统计，从而得到用户的兴趣特征。本发明专利技术提出了一种基于历史记录的用户兴趣提取方法，通过对独立用户行为进行用户识别，在识别过程中展示了用户的兴趣爱好，实现了针对性的有价值信息推送。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大数据，特别涉及一种。
技术介绍
近年来移动互联网、电子商务、物联网迅猛发展，用户在网上可获取的消息越来越多，互联网中有海量的信息内容，用户为了找到自己真正感兴趣和需要的信息，不得不花费巨大的时间和精力去筛选这些信息，甚至可能还会由于搜索不当导致用户错过或漏选真正感兴趣的信息。因此需要一种根据自身在网络中的行为习惯和兴趣爱好，能够自动为用户提供用户需要的信息的服务。比如网络商家，当商家在网络中发布自己的商品信息，而对此感兴趣的用户又错过了浏览该商品的机会，商家就丧失了一次可能进行商品交易的机会，因此商家也需要网络能够提供一种自动将其发布的商品信息提供给对商品可能感兴趣的用户的服务。传统的技术方案对用户在网络中的行为习惯和兴趣爱好进行分析，实现信息推送。而只是记录了用户的上网记录，访问了哪些服务器的哪些页面。这些信息不能很明显地展示用户的兴趣爱好。而通过第三方网站跟踪用户的用户识别方法只考虑了商家的需求，没有考虑用户的信息安全;根据用户上网的行为模式判断新会话属于哪个用户的方法只是分析了动态的会话，而且当数据量庞大时，由于缺少识别用户的信息，仅依靠用户的行为模式，不能进行用户识别。
技术实现思路
为解决上述现有技术所存在的问题，本专利技术提出了一种，包括:对用户行为历史数据进行预处理并识别独立用户；确定关键词在上下文的语义，根据语义对关键词进行词频统计，从而得到用户的兴趣特征。优选地，所述对用户行为历史数据进行预处理，进一步包括:删除Web日志中无关的数据，然后将网站日志数据规范化为以下字段:Record =〈Source，ACC，T...

【技术保护点】
一种基于历史记录的用户兴趣提取方法，其特征在于，包括：对用户行为历史数据进行预处理并识别独立用户；确定关键词在上下文的语义，根据语义对关键词进行词频统计，从而得到用户的兴趣特征。

【技术特征摘要】

【专利技术属性】
技术研发人员：董政，吴文杰，陈露，李学生，
申请(专利权)人：成都陌云科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人