一种用户上网偏好数据识别方法技术

技术编号:11210376 阅读:106 留言:0更新日期:2015-03-26 19:49
本发明专利技术公开一种用户上网偏好数据识别方法,通过利用现有的中位数概念、H-index算法,根据用户的上网行为特征,对用户的偏好进行偏好、偏好度识别,提高数据识别的准确度和识别效率。方法首先将获取到的用户上网行为日志数据根据不同应用进行分别汇总,然后指定各应用的指标类型,并取出各指标的最大值和最小值,再通过偏好挖掘算法根据最大值与最小值算出变异系数,然后分别对各不同应用的不同指标值进行标准化指标值,根据标准化的值计算各不同应用偏好度,根据偏好度数值高低对各应用进行排序,从排序后的各应用中选取偏好度居中的应用偏好度作为中位数;将偏好度大于中位数的应用添加至偏好度排名中,最后根据H-index算法给用户打上偏好度标签。

【技术实现步骤摘要】

本专利技术涉及数据挖掘技术,特别是一种可用于基于用户上网偏好进行营销目标挖 掘的用户上网偏好数据识别方法
技术介绍
传统方法在基于用户上网偏好进行营销目标挖掘时,通常通过用户上网行为日 志,从经分数据仓库获取用户基础信息以规则限定的方式给用户打上偏好标签。 例如:音乐网站偏好,本月通过手机上网访问音乐网站次数大于10次的用户就为 音乐网站偏好用户;咪咕音乐偏好,本月通过手机使用咪咕音乐客户端大于5次的用户为 咪咕音乐偏好用户。 基于规则限定的方式,在传统数据库上识别用户的偏好过程中,根据用户手机 上网的记录(例:网访问音乐网站次数大于10次的用户)打上偏好标签,无法保证较高的 识别精准度,缺乏统一的、标准的算法,精确度无法保障。
技术实现思路
本专利技术要解决的技术问题为:通过利用现有的中位数概念、H-index算法,根据用 户的上网行为特征,对用户的偏好进行偏好、偏好度识别,提高数据识别的准确度和识别效 率。 本专利技术采取的技术方案具体为:用户上网偏好数据识别方法,包括以下步骤: 1)获取用户上网行为日志数据,所述上网行为数据包括用户使用的应用、访问的 内容、上网的时段、上网的位置数据; 2)将用户上网行为日志数据根据不同应用进行分别汇总; 3)指定用户访问各应用的指标类型包括访问次数、流量、访问频次,从各不同应用 对应的汇总数据中分别取出各指标的最大值和最小值; 4)对于各不同应用的不同指标,分别根据最大值与最小值进行指标值标准化:定 义某指标的最大值为a_max,最小值为a_min,标准化指标值为index,则此指标的标准化指 标值为: index =(当前值 _a_min) / (a_max_a_min); 5)对于各不同应用,获取步骤4)中所得到的各指标对应的标准化指标值的权重 weight,并根据标准化的指标值及相应权重计算各应用综合所有指标的偏好度score : score (n) = index(I)^weight(I)+index(2)^weight(2)+index(3)^weight (3).. .index(n)^weight (n) 式中:n代表指标的数量;index (n)和weight (n)分别代表第n个指标的标准化指 标值和权重值; 6)根据偏好度数值高低对各应用进行排序; 7)从排序后的各应用中选取偏好度居中的应用偏好度作为中位数; 8)将各应用的偏好度与中位数进行比较,如一应用偏好度小于中位数则丢弃此应 用对应的数据;反之将此应用添加至偏好度排名中; 9)根据H-index算法给用户打上偏好度标签: 当用户偏好度的排名〈=使用该应用的用户数*5/6,和用户偏好度的排名〉使用 用户数*4/6为一般偏好应用; 当用户偏好度的排名〈=使用用户数*4/6,和用户偏好度的排名〉使用用户数 *2/6为强偏好应用。 本专利技术中,用户上网日志可从服务器中获取,如访问次数、流量、访问频次这些主 要指标等,将这些数据进行汇总输入本专利技术的偏好挖掘模型中,模型输入参考表1 : 表 1 本文档来自技高网...
一种用户上网偏好数据识别方法

【技术保护点】
一种用户上网偏好数据识别方法,其特征是,包括以下步骤:1)获取用户上网行为日志数据,所述上网行为数据包括用户使用的应用、访问的内容、上网的时段、上网的位置数据;2)将用户上网行为日志数据根据不同应用进行分别汇总;3)指定用户访问各应用的指标类型包括访问次数、流量、访问频次,从各不同应用对应的汇总数据中分别取出各指标的最大值和最小值;4)对于各不同应用的不同指标,分别根据最大值与最小值进行指标值标准化:定义某指标的最大值为a_max,最小值为a_min,标准化指标值为index,则此指标的标准化指标值为:index=(当前值‑a_min)/(a_max‑a_min);5)对于各不同应用,获取步骤4)中所得到的各指标对应的标准化指标值的权重weight,并根据标准化的指标值及相应权重计算各应用的偏好度score:score(n)=index(1)*weight(1)+index(2)*weight(2)+index(3)*weight(3)...index(n)*weight(n)式中:n代表指标的种类数量;index(n)和weight(n)分别代表第n类指标的标准化指标值和权重值;6)根据偏好度数值高低对各应用进行排序;7)从排序后的各应用中选取偏好度居中的应用偏好度作为中位数;8)将各应用的偏好度与中位数进行比较,如一应用偏好度小于中位数则丢弃此应用对应的数据;反之将此应用添加至偏好度排名中;9)根据H‑index算法给用户打上偏好度标签:当用户偏好度的排名<=使用用户数*5/6,和用户偏好度的排名>使用用户数*4/6为一般偏好应用;当用户偏好度的排名<=使用用户数*4/6,和用户偏好度的排名>使用用户数*2/6为强偏好应用。...

【技术特征摘要】
1. 一种用户上网偏好数据识别方法,其特征是,包括w下步骤: 1) 获取用户上网行为日志数据,所述上网行为数据包括用户使用的应用、访问的内容、 上网的时段、上网的位置数据; 2) 将用户上网行为日志数据根据不同应用进行分别汇总; 3) 指定用户访问各应用的指标类型包括访问次数、流量、访问频次,从各不同应用对应 的汇总数据中分别取出各指标的最大值和最小值; 4) 对于各不同应用的不同指标,分别根据最大值与最小值进行指标值标准化;定义某 指标的最大值为a_max,最小值为a_min,标准化指标值为index,则此指标的标准化指标值 为: index =(当前值-a_min) / (a_max-a_min); 5) 对于各不同应用,获取步骤4)中所得到的各指标对应的标准化指标值的权重 wei曲t,并根据标准化的指标值及相应权重计算各应用的偏好度score ; score (...

【专利技术属性】
技术研发人员:刘雷
申请(专利权)人:亚信科技南京有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1