本发明专利技术提供了一种基于交互历史数据的个性化推荐方法,该方法包括:通过API分布式抓取历史会话数据,通过文本挖掘为每个会话确定一个主题,利用会话主题分布确定用户的兴趣特征,统计用户的特征行为并确定会话发起用户,向会话参与用户推送会话发起用户。本发明专利技术提出了一种基于交互历史数据的个性化推荐方法,从多角度分析用户的兴趣需求,准确刻画用户的兴趣爱好的前提下增加用户潜在兴趣的发掘,提高推送结果的多样性和准确性。
【技术实现步骤摘要】
本专利技术涉及大数据,特别涉及一种基于交互历史数据的个性化推荐方法。
技术介绍
随着信息技术和网络技术的高速发展,互联网己经表现为了去中心化,开放,共享的特点,这些特点影响并改变着人们的生活方式。互联网已经不再只是用户发布消息和获取消息的媒介,更多的是人与人之间的交流互动平台。随着社交网络的出现与发展,社交网络开始拥有庞大的用户群体,并且用户在社交网络上可以表达自己的观点,频繁地更新微博,将自己感兴趣的信息分享给好友,不断添加自己感兴趣的用户扩展自己的爱好群等。如此海量的数据让用户很容易迷失在信息的海洋中,要想更快、更准确地寻找到用户自己需要的数据变得更加的困难。基于传统的搜索获取信息的推送方式己经不适合。价值高、可靠性强的信息无法展示在它感兴趣的用户面前。目前没有有效方法对这些数据进行深度分析并挖掘深层次的有用信息,为用户提供个性化的推送服务。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了一种基于交互历史数据的个性化推荐方法,包括:通过API分布式抓取历史会话数据,通过文本挖掘为每个会话确定一个主题,利用会话主题分布确定用户的兴趣特征,统计用户的特征行为并确定会话发起用户,向会话参与用户推送会话发起用户。优选地,所述通过API分布式抓取历史会话数据,进一步包括:搭建分布式并行数据抓取架构,该架构包括采集服务器和事务分配服务器,所述采集服务器按照预定的时间间隔,触发客户端抓取数据,将抓取的内容保存到分布式数据库中,并将会话ID和用户ID存储到ID数据库中,所述ID数据库用于存储ID,为后续的用户维度和会话维度作为ID缓存;并且用于实现重复控制,防止重复抓取相同的用户和会话,如果检测到已经抓取过的用户和会话则不再调用API接口去抓取,也不再将数据保存在分布式数据库,设置了事务分配服务器,每台抓取客户端向事务服务器申请ID事务,将信息抓取后存入分布式数据库后再向事务服务器申请ID;如果有抓取需求的改变,则根据事务的需要增加或减少客户端。优选地,所述利用会话主题分布确定用户的兴趣特征,进一步包括:将用户的每个会话的主题用主题分布概率来表示,表示为会话的特征向量;通过训练得到的会话主题分布,提取用户主题分布;所述提取用户主题分布通过以下两种方法之一来实现,将每个用户所发表的会话集合并成一个文档,重新训练一个用户模型,从而训练计算得到一个用户主题分布参数;或者,得到每个用户的每条会话的主题分布,根据每个用户会话集合中的每段会话,发现每个用户每条会话占最大比重的主题,统计用户所有会话的主题。本专利技术相比现有技术,具有以下优点:本专利技术提出了一种基于交互历史数据的个性化推荐方法,从多角度分析用户的兴趣需求,准确刻画用户的兴趣爱好的前提下增加用户潜在兴趣的发掘,提高推送结果的多样性和准确性。附图说明图1是根据本专利技术实施例的基于交互历史数据的个性化推荐方法的流程图。具体实施方式下文与图示本专利技术原理的附图一起提供对本专利技术一个或者多个实施例的详细描述。结合这样的实施例描述本专利技术,但是本专利技术不限于任何实施例。本发明的范围仅由权利要求书限定,并且本专利技术涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本专利技术的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本专利技术。本专利技术的一方面提供了一种基于交互历史数据的个性化推荐方法。图1是根据本专利技术实施例的基于交互历史数据的个性化推荐方法流程图。本专利技术的方法基于会话数据采集、会话主题分类、会话发起用户提取和会话发起用户推送。会话数据采集架构通过API分布式抓取需要的数据,为会话发起用户推送提供资源。会话主题分类通过文本挖掘为每个会话确定一个主题,会话发起用户提取通过会话主题分布矩阵转换为用户主题分布矩阵,作为用户的兴趣特征,对用户的特征行为进行统计,结合用户的关注数和被关注数两个特征对用户进行分类,将用户分为会话参与用户和会话发起用户。通过会话发起用户的提取,为推送算法找到推送的主体;所述会话发起用户推送通过推送算法将会话参与用户感兴趣的会话发起用户推送给会话参与用户,本专利技术还结合高影响力用户和主题之间的关联关系,可以挖掘会话参与用户的潜在主题爱好。为了快速准确获取会话数据,本专利技术搭建分布式并行数据抓取架构。系统架构由两部分组成,在一定的时间间隔上,采集服务器触发客户端抓取数据,将抓取的内容保存到分布式数据库中,并将会话ID和用户ID存储到ID数据库中。ID数据库提供两个功能,一个是存储ID,为后续的用户维度和会话维度作为ID缓存。第二个是为了实现重复控制,防止重复抓取相同的用户和会话,如果检测到已经抓取过的用户和会话就不会调用API接口去抓取,也不会将数据保存在分布式数据库,设置了事务分配服务器,每台抓取客户端向事务服务器申请ID事务,将信息抓取后存入分布式数据库后再向事务服务器申请ID。如果有抓取需求的改变,可以根据事务的需要适当增加或减少客户端,而不需要更改整个系统的架构。为消除歧义性进一步挖掘潜在语义,所以在第一步的时候通过数据清洗将无用数据清除,提高会话数据的质量。分词和主题提取是会话内容分析的基础,通过数据预处理和分词,将会话的内容信息转化为结构向量。抓取下来的数据是结构化的数据,必须对需要的信息进行会话文本信息的提取还有进行一些文本处理工作。具体的处理有以下几种。(1)通过收集缩写词和全称的映射表,对会话的内容进行替换处理;(2)将表情符号和无意义字符进行过滤处理;(3)从用户会话中提取代表会话的主题以及目标用户信息。采用的是条件随机场算法进行中文分词。在分词系统中输入会话的内容,然后经过会话预处理、分词算法后,输出的会话数据就变成一条条的词条序列,词与词之间是用空格分割开来。在每个领域上都有一些专门从事某个方向的用户,本专利技术称作会话发起用户。这些会话发起用户可能是信息传播的关键中介,也可能是热点信息的来源。会话发起用户在社交网络中起到消息传播的作用,他们能够制造关于某些主题的会话和转发某些主题的会话,大部分主题会话都是会话参与用户会选择关注的感兴趣的内容,会引发用户更多地去转发。本专利技术将用户的每个会话的主题都用主题分布概率来表示,这样主题的个数一般控制在比较小的一个范围内,就可以用一个比较低维度的向量来表示会话的特征向量。同理,需要通过训练得到的会话主题分布来提取用户主题分本文档来自技高网...
【技术保护点】
一种基于交互历史数据的个性化推荐方法,其特征在于,包括:通过API分布式抓取历史会话数据,通过文本挖掘为每个会话确定一个主题,利用会话主题分布确定用户的兴趣特征,统计用户的特征行为并确定会话发起用户,向会话参与用户推送会话发起用户。
【技术特征摘要】
1.一种基于交互历史数据的个性化推荐方法,其特征在于,包括:
通过API分布式抓取历史会话数据,通过文本挖掘为每个会话确定一
个主题,利用会话主题分布确定用户的兴趣特征,统计用户的特征行为并
确定会话发起用户,向会话参与用户推送会话发起用户。
2.根据权利要求1所述的方法,其特征在于,所述通过API分布式抓
取历史会话数据,进一步包括:
搭建分布式并行数据抓取架构,该架构包括采集服务器和事务分配服
务器,所述采集服务器按照预定的时间间隔,触发客户端抓取数据,将抓
取的内容保存到分布式数据库中,并将会话ID和用户ID存储到ID数据库
中,所述ID数据库用于存储ID,为后续的用户维度和会话维度作为ID缓
存;并且用于实现重复控制,防止重复抓取相同的用户和会话,如果检测
到已经抓取过的用户和会话则不再调用API接口去抓取,也不再将...
【专利技术属性】
技术研发人员:董政,吴文杰,陈露,李学生,
申请(专利权)人:成都陌云科技有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。