【技术实现步骤摘要】
本专利技术涉及数据挖掘领域,特别是涉及一种数据挖掘的方法数据挖掘的方法和装置。
技术介绍
如何扩大互联网应用服务的使用人群以及增强现有用户的行为活跃度,对于互联网应用服务提供商来说至关重要。用户的行为活跃度一般通过用户行为频率来考量,用户行为可以理解为用户与应用服务之间的交互操作,例如,用户在社交网站上的用户行为包括转载、发帖、看帖、评论等等。目前,许多互联网应用服务尝试通过提供额外奖励的方式来吸引用户登陆并参与互动,然而该策略主要依靠外在刺激来维持用户活跃度,不仅开销较大,而且实际效果也非常有限。另一种广泛采用的策略是运用推荐系统为用户推荐好友、社区、新闻等,以增强用户粘性,但是随着该策略使用的普及,其效果也越来越低。因此,挖掘出真正可提升用户活跃度的因素是亟需解决的问题。在以往研究中,用户活跃度影响因素的挖掘一般先通过人工挑选少量的特征,计算这些特征与目标变量的Pearson相关系数或格兰杰因果关系,最后挑选评分较高的特征。这种方法在样本量及特征数量均较少时较适用,而在用户活跃度影响因素挖掘问题中,用户行为数据集庞大,且潜在影响用户活跃度的可能因素非常多,通过人工挑选出可能是用户活跃度的影响因素的特征显示行不通。
技术实现思路
基于此,有必要提供可从海量数据中自动挖掘出准确的用户行为频率提升因素的一种数据挖掘的方法和装置。一种数据挖掘的方法,包括以下步骤:获取各个用 ...
【技术保护点】
一种数据挖掘的方法,包括以下步骤:获取各个用户的行为序列,所述行为序列中包含多条按照行为执行时间顺序排列的行为节点,所述行为节点由行为与行为执行时间组成;搜索所述行为序列中对应的提升值满足预设的长期提升条件的行为节点作为所述行为序列中的行为频率提升点,所述行为节点对应的提升值为所述行为序列中该行为节点后的行为发生频率与所述行为序列中该行为节点前的行为发生频率的比值;获取发生时间满足行为频率提升点相关的时间条件的对应用户发生的事件作为行为频率提升因素。
【技术特征摘要】
1.一种数据挖掘的方法,包括以下步骤:
获取各个用户的行为序列,所述行为序列中包含多条按照行为执行时间顺
序排列的行为节点,所述行为节点由行为与行为执行时间组成;
搜索所述行为序列中对应的提升值满足预设的长期提升条件的行为节点作
为所述行为序列中的行为频率提升点,所述行为节点对应的提升值为所述行为
序列中该行为节点后的行为发生频率与所述行为序列中该行为节点前的行为发
生频率的比值;
获取发生时间满足行为频率提升点相关的时间条件的对应用户发生的事件
作为行为频率提升因素。
2.根据权利要求1所述的方法,其特征在于,所述搜索所述行为序列中对
应提升值满足预设的长期提升条件的行为节点作为所述行为序列中的行为频率
提升点的步骤包括:
将所述行为序列划分为多个区段;
计算每个区段包括的行为节点对应的提升值的下界和上界;
过滤对应的上界不满足预设的长期提升条件的区段,并将对应的下界满足
预设的长期提升条件的区段中的所有行为节点都列为所述行为序列的行为频率
提升点,获得对应的上界满足预设的长期提升条件且对应的下界不满足预设的
长期提升条件的区段。
3.根据权利要求2所述的方法,其特征在于,一个区段包括的行为节点对
应的提升值的下界包括:该区段包括的所有行为节点的行为执行时间均等于该
区段的起始行为执行时间的假设情况下,该区段包括的最后一个行为节点对应
的提升值;
一个区段包括的行为节点对应的提升值的上界包括:该区段包括的所有行
为节点的行为执行时间均等于该区段的最晚行为执行时间的假设情况下,该区
段包括的第一个行为节点对应的提升值。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述行为序列中统计各个所述行为频率提升点的行为执行时间后第一预
\t设时间内的行为数量和各个所述行为频率提升点的行为执行时间前第一预设时
间内的行为数量,筛选出后第一预设时间内的行为数量与前第一预设时间内的
行为数量的比值满足预设的短期提升条件的行为频率提升点。
5.根据权利要求1至4任一所述的方法,其特征在于,所述获取发生时间
满足行为频率提升点相关的时间条件的对应用户发生的事件作为行为频率提升
因素的步骤包括:
将各个用户的行为序列的行为频率提升点的行为执行时间前第二预设时间
内对应用户发生的事件列为候选因素,计算各个候选因素导致行为频率提升的
置信度;
获...
【专利技术属性】
技术研发人员:李晓晨,陈川,岳亚丁,易玲玲,贺鹏,管刚,刘婷婷,孔庆超,张育浩,毛文吉,
申请(专利权)人:中国科学院自动化研究所,腾讯科技深圳有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。