一种数据分析方法和装置制造方法及图纸

技术编号:25481512 阅读:31 留言:0更新日期:2020-09-01 23:02
本申请实施例公开了一种数据分析方法和装置;本申请实施例可以获取至少一个用户针对应用的使用时间和文件更新数据,其中,文件更新数据包括应用的文件更新路径集合,文件更新路径集合包括至少一条文件更新路径、以及文件更新路径对应的文件更新时间;从文件更新路径集合中选取文件更新时间与使用时间相匹配的匹配文件更新路径,得到各个用户的候选文件更新路径集合;统计匹配文件更新路径在各候选文件更新路径集合中出现的总频数;基于匹配文件更新路径对应的总频数,确定匹配文件更新路径为目标文件更新路径,得到应用的目标文件更新路径集合;基于目标文件更新路径集合对应用进行用户行为预测。该方案可以实现基于人工智能的用户行为预测。

【技术实现步骤摘要】
一种数据分析方法和装置
本申请涉及计算机
,具体涉及一种数据分析方法和装置。
技术介绍
随着大数据时代的到来,用户的网络行为可以通过应用来表现,因此,通过用户的应用数据对用户进行分析,可以更好地刻画用户的属性以及对应用进行用户行为预测,从而可以精准地对用户进行数据推荐与信息推送,例如,可以推荐用户可能感兴趣的内容、判断用户是否有还款能力,等等。在对相关技术的研究和实践过程中,本申请的专利技术人发现,在基于应用数据进行用户分析的过程中,由于无法准确区分用户针对应用的活跃情况,而且,十分依赖于是否能够获取用户生成的内容,从而增加了基于应用数据进行用户分析的难度,也容易导致得到的结论错误率较高。
技术实现思路
本申请实施例提供一种数据分析方法及装置,可以通过分析用户针对应用的文件更新数据来进行用户行为预测。本申请实施例提供一种数据分析方法,包括:获取至少一个用户针对应用的使用时间和文件更新数据,其中,所述文件更新数据包括所述应用的文件更新路径集合,所述文件更新路径集合包括至少一条文件更新路径、以及所述文件更新路径对应的文件更新时间;从所述文件更新路径集合中选取文件更新时间与所述使用时间相匹配的匹配文件更新路径,得到各个用户的候选文件更新路径集合;统计所述匹配文件更新路径在各候选文件更新路径集合中出现的总频数;基于匹配文件更新路径对应的总频数,确定所述匹配文件更新路径为目标文件更新路径,得到所述应用的目标文件更新路径集合;基于所述目标文件更新路径集合对所述应用进行用户行为预测。相应的,本申请实施例还提供一种数据分析装置,包括:获取单元,用于获取至少一个用户针对应用的使用时间和文件更新数据,其中,所述文件更新数据包括所述应用的文件更新路径集合,所述文件更新路径集合包括至少一条文件更新路径、以及所述文件更新路径对应的文件更新时间;选取单元,用于从所述文件更新路径集合中选取文件更新时间与所述使用时间相匹配的匹配文件更新路径,得到各个用户的候选文件更新路径集合;统计单元,用于统计所述匹配文件更新路径在各候选文件更新路径集合中出现的总频数;确定单元,用于基于匹配文件更新路径对应的总频数,确定所述匹配文件更新路径为目标文件更新路径,得到所述应用的目标文件更新路径集合;预测单元,用于基于所述目标文件更新路径集合对所述应用进行用户行为预测。在一实施例中,所述选取单元,包括:路径提取子单元,用于从所述文件更新路径集合中提取待匹配的文件更新路径;信息确定子单元,用于确定所述文件更新路径的文件更新时间与所述使用时间之间的关联信息;匹配确定子单元,用于基于所述文件更新路径对应的关联信息,确定所述文件更新路径为所述匹配文件更新路径。在一实施例中,所述使用时间包括开始使用时间和结束使用时间;所述信息确定子单元,用于:确定所述文件更新时间对应的时间匹配精度;根据所述时间匹配精度,对所述文件更新时间进行时间数据截取;基于所述使用时间的开始使用时间和结束使用时间,生成所述用户的使用时间区间;若所述截取后的文件更新时间属于所述使用时间区间,则确定所述关联信息为完全关联。在一实施例中,所述统计单元,包括:频数计算子单元,用于计算所述匹配文件更新路径在各候选文件更新路径集合中出现的频数;频数求和子单元,用于对所述频数进行求和操作,得到所述总频数。在一实施例中,所述确定单元,包括:阈值确定子单元,用于确定所述目标文件更新路径的用户覆盖数量阈值;目标确定子单元,用于基于所述用户覆盖数量阈值和所述匹配文件更新路径对应的总频数,确定所述目标文件更新路径;路径组合子单元,用于将所述目标文件更新路径进行组合,得到所述目标文件更新路径集合。在一实施例中,所述阈值确定子单元,用于:确定所述用户的用户数量;根据所述用户数量以及预设的用户覆盖比例,计算所述用户覆盖数量阈值。在一实施例中,所述目标确定子单元,用于:将所述用户覆盖数量阈值和所述匹配文件更新路径对应的总频数进行比较;将总频数大于或等于所述用户覆盖数量阈值的匹配文件更新路径确定为所述目标文件更新路径。在一实施例中,所述预测单元,包括:集合发送子单元,用于向所述应用的至少一个用户发送所述目标文件更新路径集合;数据获取子单元,用于基于所述目标文件更新路径集合,获取所述用户的用户行为数据;数据发送子单元,用于将所述用户行为数据发送到预设的用户行为预测模型,以得到用户行为预测结果。在一实施例中,所述数据获取子单元,用于:从所述目标文件更新路径集合中提取至少一条目标文件更新路径;基于所述目标文件更新路径对所述应用进行数据扫描,得到所述用户在所述目标文件更新路径上的文件更新数据;对所述文件更新数据进行数据解析,得到所述用户行为数据。本申请实施例可以获取至少一个用户针对应用的使用时间和文件更新数据,其中,所述文件更新数据包括所述应用的文件更新路径集合,所述文件更新路径集合包括至少一条文件更新路径、以及所述文件更新路径对应的文件更新时间;从所述文件更新路径集合中选取文件更新时间与所述使用时间相匹配的匹配文件更新路径,得到各个用户的候选文件更新路径集合;统计所述匹配文件更新路径在各候选文件更新路径集合中出现的总频数;基于匹配文件更新路径对应的总频数,确定所述匹配文件更新路径为目标文件更新路径,得到所述应用的目标文件更新路径集合;基于所述目标文件更新路径集合对所述应用进行用户行为预测。该方案可以对用户针对应用的使用时间和文件更新时间进行匹配,精准地区分用户针对应用的活跃度、并减少部分不活跃应用给用户行为预测带来的误差,从而实现了通过大数据真实还原用户使用应用的情况,并提高了用户行为预测的准确率。并且,本方案解放了用户行为预测对用户生成内容的依赖、且无需获取各应用的数据权限,从而可以降低基于应用数据进行用户行为分析的难度。此外,本方案从大量的文件更新路径中筛选出有限的目标文件更新路径,并基于该有限的目标文件更新路径针对应用进行用户行为预测,可以大大降低需要上报的数据量以及用户行为预测需要处理的数据量,同时也很好地保护了用户的隐私。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1a是本申请实施例提供的数据分析方法的场景示意图;图1b是本申请实施例提供的数据分析方法的流程图;图1c是本申请实施例提供的数据分析方法的文件更新路径集合示意图;图2a是本申请实施例提供的数据分析方法的另一流程示意图;图2b是本申请实施例提供的数据分析方法的权限设置示意图;图2c是本申请实施例提供的数据分析方法的文件更新指引本文档来自技高网...

【技术保护点】
1.一种数据分析方法,其特征在于,包括:/n获取至少一个用户针对应用的使用时间和文件更新数据,其中,所述文件更新数据包括所述应用的文件更新路径集合,所述文件更新路径集合包括至少一条文件更新路径、以及所述文件更新路径对应的文件更新时间;/n从所述文件更新路径集合中选取文件更新时间与所述使用时间相匹配的匹配文件更新路径,得到各个用户的候选文件更新路径集合;/n统计所述匹配文件更新路径在各候选文件更新路径集合中出现的总频数;/n基于匹配文件更新路径对应的总频数,确定所述匹配文件更新路径为目标文件更新路径,得到所述应用的目标文件更新路径集合;/n基于所述目标文件更新路径集合对所述应用进行用户行为预测。/n

【技术特征摘要】
1.一种数据分析方法,其特征在于,包括:
获取至少一个用户针对应用的使用时间和文件更新数据,其中,所述文件更新数据包括所述应用的文件更新路径集合,所述文件更新路径集合包括至少一条文件更新路径、以及所述文件更新路径对应的文件更新时间;
从所述文件更新路径集合中选取文件更新时间与所述使用时间相匹配的匹配文件更新路径,得到各个用户的候选文件更新路径集合;
统计所述匹配文件更新路径在各候选文件更新路径集合中出现的总频数;
基于匹配文件更新路径对应的总频数,确定所述匹配文件更新路径为目标文件更新路径,得到所述应用的目标文件更新路径集合;
基于所述目标文件更新路径集合对所述应用进行用户行为预测。


2.根据权利要求1所述的数据分析方法,其特征在于,从所述文件更新路径集合中选取文件更新时间与所述使用时间相匹配的匹配文件更新路径,包括:
从所述文件更新路径集合中提取待匹配的文件更新路径;
确定所述文件更新路径的文件更新时间与所述使用时间之间的关联信息;
基于所述文件更新路径对应的关联信息,确定所述文件更新路径为所述匹配文件更新路径。


3.根据权利要求2所述的数据分析方法,其特征在于,所述使用时间包括开始使用时间和结束使用时间;
确定所述文件更新路径的文件更新时间与所述使用时间之间的关联信息,包括:
确定所述文件更新时间对应的时间匹配精度;
根据所述时间匹配精度,对所述文件更新时间进行时间数据截取;
基于所述使用时间的开始使用时间和结束使用时间,生成所述用户的使用时间区间;
若所述截取后的文件更新时间属于所述使用时间区间,则确定所述关联信息为完全关联。


4.根据权利要求1所述的数据分析方法,其特征在于,统计所述匹配文件更新路径在各候选文件更新路径集合中出现的总频数,包括:
计算所述匹配文件更新路径在各候选文件更新路径集合中出现的频数;
对所述频数进行求和操作,得到所述总频数。


5.根据权利要求1所述的数据分析方法,其特征在于,基于匹配文件更新路径对应的总频数,确定所述匹配文件更新路径为目标文件更新路径,得到所述应用的目标文件更新路径集合,包括:
确定所述目标文件更新路径的用户覆盖数量阈值;
基于所述用户覆盖数量阈值和所述匹配文件更新路径对应的总频数,确定所述目标文件更新...

【专利技术属性】
技术研发人员:谢毅张燕
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1