数据挖掘的方法和装置制造方法及图纸

技术编号:14968219 阅读:123 留言:0更新日期:2017-04-02 22:28
一种数据挖掘的方法,包括以下步骤:获取各个用户的行为序列,所述行为序列中包含多条按照行为执行时间顺序排列的行为节点,所述行为节点由行为与行为执行时间组成;搜索所述行为序列中对应的提升值满足预设的长期提升条件的行为节点作为所述行为序列中的行为频率提升点,所述行为节点对应的提升值为所述行为序列中该行为节点后的行为发生频率与所述行为序列中该行为节点前的行为发生频率的比值;获取发生时间满足行为频率提升点相关的时间条件的对应用户发生的事件作为行为频率提升因素。上述方法可挖掘出准确的用户行为频率提升因素。此外,还提供一种数据挖掘的装置。

【技术实现步骤摘要】

本专利技术涉及数据挖掘领域,特别是涉及一种数据挖掘的方法数据挖掘的方法和装置
技术介绍
如何扩大互联网应用服务的使用人群以及增强现有用户的行为活跃度,对于互联网应用服务提供商来说至关重要。用户的行为活跃度一般通过用户行为频率来考量,用户行为可以理解为用户与应用服务之间的交互操作,例如,用户在社交网站上的用户行为包括转载、发帖、看帖、评论等等。目前,许多互联网应用服务尝试通过提供额外奖励的方式来吸引用户登陆并参与互动,然而该策略主要依靠外在刺激来维持用户活跃度,不仅开销较大,而且实际效果也非常有限。另一种广泛采用的策略是运用推荐系统为用户推荐好友、社区、新闻等,以增强用户粘性,但是随着该策略使用的普及,其效果也越来越低。因此,挖掘出真正可提升用户活跃度的因素是亟需解决的问题。在以往研究中,用户活跃度影响因素的挖掘一般先通过人工挑选少量的特征,计算这些特征与目标变量的Pearson相关系数或格兰杰因果关系,最后挑选评分较高的特征。这种方法在样本量及特征数量均较少时较适用,而在用户活跃度影响因素挖掘问题中,用户行为数据集庞大,且潜在影响用户活跃度的可能因素非常多,通过人工挑选出可能是用户活跃度的影响因素的特征显示行不通。
技术实现思路
基于此,有必要提供可从海量数据中自动挖掘出准确的用户行为频率提升因素的一种数据挖掘的方法和装置。一种数据挖掘的方法,包括以下步骤:获取各个用户的行为序列,所述行为序列中包含多条按照行为执行时间顺序排列的行为节点,所述行为节点由行为与行为执行时间组成;搜索所述行为序列中对应的提升值满足预设的长期提升条件的行为节点作为所述行为序列中的行为频率提升点,所述行为节点对应的提升值为所述行为序列中该行为节点后的行为发生频率与所述行为序列中该行为节点前的行为发生频率的比值;获取发生时间满足行为频率提升点相关的时间条件的对应用户发生的事件作为行为频率提升因素。一种数据挖掘的装置,其特征在于,包括:行为序列获取模块,用于获取各个用户的行为序列,所述行为序列中包含多条按照行为执行时间顺序排列的行为节点,所述行为节点由行为与行为执行时间组成;提升点搜索模块,用于搜索所述行为序列中对应的提升值满足预设的长期提升条件的行为节点作为所述行为序列中的行为频率提升点,所述行为节点对应的提升值为所述行为序列中该行为节点后的行为发生频率与所述行为序列中该行为节点前的行为发生频率的比值;提升因素获取模块,用于获取发生时间满足行为频率提升点相关的时间条件的对应用户发生的事件作为行为频率提升因素。上述数据挖掘的方法和装置,可以在数据量庞大的行为序列中挖掘出其后的行为发生频率与其前的行为发生频率的比值满足预设的长期提升条件的行为节点,并将这些行为节点作为行为序列的行为频率提升点;若在行为序列中某一行为节点后的行为发生频率在一定程度上高出该行为节点前的行为发生频率,则说明在该行为节点的行为执行时刻之前可能发生了影响行为频率提升的因素;上述方法和装置进一步基于行为频率提升点获取导致行为频率提升的行为频率提升因素,从而可挖掘出准确的用户行为频率提升因素。附图说明图1为一个实施例中可运行本申请文件中的数据挖掘的方法的设备的内部结构示意图;图2为一个实施例中的数据挖掘的方法的流程示意图;图3为一个实施例中图2中的步骤S204的流程示意图;图4A为第i年的所有行为集中发生于第i年起始行为执行时间的情况下的平均活跃度曲线图;图4B为第i年的所有行为集中发生于第i年最晚行为执行时间的情况下的平均活跃度曲线示意图;图5为一个实施例中图2中的步骤S206的流程示意图;图6为一个实施例中图5中的步骤S504的流程示意图;图7为一个实施例中挖掘行为频率提升组合因素的过程的流程示意图;图8为一个实施例中的用户行为序列示意图;图9为一个实施例中的数据挖掘的装置的结构示意图;图10为一个实施例中提升点搜索模块的结构示意图;图11为另一实施例中的数据挖掘的装置的结构示意图;图12为一个实施例中提升因素获取模块的结构示意图;图13为一个实施例中置信度计算单元的结构示意图;图14A为一个实施例中的数据挖掘的装置的结构示意图;图14B为一个实施例中组合提升因素获取模块的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。可以理解,本专利技术所使用的术语“第一”、“第二”等可在本文中用于描述各种对象,但这些对象不受这些术语限制。这些术语仅用于将第一个对象与另一个对象区分。举例来说,在不脱离本专利技术的范围的情况下,可以将本申请文件中的第一预设时间称为第二预设时间,而将原第二预设时间称为第一预设时间,等等。图1为一个实施例中可运行本申请文件中的数据挖掘的方法的设备的内部结构示意图。如图1所示,该设备可包括通过系统总线连接的处理器、存储介质、内存和网络接口。其中,该设备的存储介质存储有操作系统、数据库等,另外该设备的存储介质中还存储了用于实现本申请文件中的数据挖掘的方法的软件指令,该设备的处理器执行这些指令以实现本申请文件中的数据挖掘的方法。如图2所示,一种数据挖掘的方法,包括以下步骤:步骤S202,获取各个用户的行为序列,行为序列中包含多条按照行为执行时间顺序排列的行为节点,其中的行为节点由行为与行为执行时间组成。行为序列用于记录用户的行为,用户的行为可包括用户与应用服务交互过程中进行的所有操作,例如,在社交网站上进行的转载、发帖、看帖、评论等操作。一条行为序列用于按照行为执行时间的先后顺序记录一个用户的行为。例如,一条行为序列可表示为{<A1,t1>,<A2,t2>,…,<Ai,ti>,…,<An,tn>本文档来自技高网...

【技术保护点】
一种数据挖掘的方法,包括以下步骤:获取各个用户的行为序列,所述行为序列中包含多条按照行为执行时间顺序排列的行为节点,所述行为节点由行为与行为执行时间组成;搜索所述行为序列中对应的提升值满足预设的长期提升条件的行为节点作为所述行为序列中的行为频率提升点,所述行为节点对应的提升值为所述行为序列中该行为节点后的行为发生频率与所述行为序列中该行为节点前的行为发生频率的比值;获取发生时间满足行为频率提升点相关的时间条件的对应用户发生的事件作为行为频率提升因素。

【技术特征摘要】
1.一种数据挖掘的方法,包括以下步骤:
获取各个用户的行为序列,所述行为序列中包含多条按照行为执行时间顺
序排列的行为节点,所述行为节点由行为与行为执行时间组成;
搜索所述行为序列中对应的提升值满足预设的长期提升条件的行为节点作
为所述行为序列中的行为频率提升点,所述行为节点对应的提升值为所述行为
序列中该行为节点后的行为发生频率与所述行为序列中该行为节点前的行为发
生频率的比值;
获取发生时间满足行为频率提升点相关的时间条件的对应用户发生的事件
作为行为频率提升因素。
2.根据权利要求1所述的方法,其特征在于,所述搜索所述行为序列中对
应提升值满足预设的长期提升条件的行为节点作为所述行为序列中的行为频率
提升点的步骤包括:
将所述行为序列划分为多个区段;
计算每个区段包括的行为节点对应的提升值的下界和上界;
过滤对应的上界不满足预设的长期提升条件的区段,并将对应的下界满足
预设的长期提升条件的区段中的所有行为节点都列为所述行为序列的行为频率
提升点,获得对应的上界满足预设的长期提升条件且对应的下界不满足预设的
长期提升条件的区段。
3.根据权利要求2所述的方法,其特征在于,一个区段包括的行为节点对
应的提升值的下界包括:该区段包括的所有行为节点的行为执行时间均等于该
区段的起始行为执行时间的假设情况下,该区段包括的最后一个行为节点对应
的提升值;
一个区段包括的行为节点对应的提升值的上界包括:该区段包括的所有行
为节点的行为执行时间均等于该区段的最晚行为执行时间的假设情况下,该区
段包括的第一个行为节点对应的提升值。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述行为序列中统计各个所述行为频率提升点的行为执行时间后第一预

\t设时间内的行为数量和各个所述行为频率提升点的行为执行时间前第一预设时
间内的行为数量,筛选出后第一预设时间内的行为数量与前第一预设时间内的
行为数量的比值满足预设的短期提升条件的行为频率提升点。
5.根据权利要求1至4任一所述的方法,其特征在于,所述获取发生时间
满足行为频率提升点相关的时间条件的对应用户发生的事件作为行为频率提升
因素的步骤包括:
将各个用户的行为序列的行为频率提升点的行为执行时间前第二预设时间
内对应用户发生的事件列为候选因素,计算各个候选因素导致行为频率提升的
置信度;
获...

【专利技术属性】
技术研发人员:李晓晨陈川岳亚丁易玲玲贺鹏管刚刘婷婷孔庆超张育浩毛文吉
申请(专利权)人:中国科学院自动化研究所腾讯科技深圳有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1