一种用户浏览行为的兴趣挖掘方法技术

技术编号：14454853 阅读：74 留言：0更新日期：2017-01-19 02:42

公开一种用户浏览行为的兴趣挖掘方法,用户u1，u2，u3，指定时间内用户u1访问了网站标签t1，t2，t3，用户u2访问了网站标签t2，用户t3访问了网站标签t2，t3，该方法包括步骤：(1)对每个兴趣标签内的一些典型网站进行标注，此时这些标注的网站tag‑>interest对应兴趣的权重默认为1.0；(2)根据用户user及其指定时间内访问过的网站tag之间建立二部图模型，通过n轮随机游走，其中n为正整数，汇总多轮游走的结果，计算出user‑>tag的权重；(3)用步骤(2)的user‑>tag乘以步骤(1)的tag‑>interest，得到user‑>interest，user‑>interest是每个用户到所有兴趣标签的一个置信度值；(4)设置一个阈值a，当user‑>interest的置信度大于a时，作为user预测为interest兴趣标签。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于大数据处理和分析的
，具体地涉及一种用户浏览行为的兴趣挖掘方法。
技术介绍
在互联网逐渐步入大数据时代后，随着大数据技术的深入研究与应用，企业的专注点日益聚焦于利用大数据来刻画“用户画像”，进而深入挖掘潜在的商业价值，用户兴趣挖掘可以挖掘出不同的兴趣人群，方便做精准营销服务。用户上网会浏览很多网站，从这众多的网站中挖掘出用户的兴趣偏好就是兴趣挖掘，现有的技术中，方法A是对一些网站进行兴趣标注，如京东、天猫网站对应着“电商购物偏好”，爱奇艺、优酷土豆对应着“影音娱乐偏好”，设定一个阈值，当用户一定时间内访问京东、天猫网站超过这个阈值时，即判定这个用户有“电商购物偏好”。方法B是首先有大量的标注样本，如用户A的标注兴趣是“电商购物偏好”，用户B的标注兴趣是“影音娱乐偏好”等，然后通过有监督的机器学习方法以这些标注样本做训练集，训练多分类器，来对其他未标注样本进行兴趣预测、分类；还有一种做法是类似于推荐系统里面的协同过滤，通过计算未标注用户与已标注用户的相似度，将相似度高的已标注用户的兴趣赋给未标注用户。方法A简单有效、易实现，但是效果的好坏受限于网站标注规模的大小，如只把京东、天猫网站标注为“电商购物偏好”，那么有用户访问了“唯品会”、“国美”、“苏宁”等网站，就会被忽略，对应不到“电商购物偏好”，而人工不可能标注上所有的电商购物类网站，标注规模越大，人工成本越高。方法B利用有监督的机器学习模型来解决兴趣挖掘问题，首先得需要大量用户的兴趣标注样本，这个在多数场景下不容易解决，面临着冷启动的问题，最初始的那一批用户兴趣标注样本不容易获得，另...

【技术保护点】
一种用户浏览行为的兴趣挖掘方法，用户u1，u2，u3，指定时间内用户u1访问了网站标签t1，t2，t3，用户u2访问了网站标签t2，用户t3访问了网站标签t2，t3，其特征在于：该方法包括以下步骤：(1)对每个兴趣标签内的一些典型网站进行标注，此时这些标注的网站tag‑>interest对应兴趣的权重默认为1.0；(2)根据用户user及其指定时间内访问过的网站tag之间建立二部图模型，通过n轮随机游走，其中n为正整数，user1‑>tag1‑>user2‑>tag2‑>user3‑>tag3,汇总多轮游走的结果，计算出user‑>tag的权重；(3)用步骤(2)得到的user‑>tag乘以步骤(1)得到的tag‑>interest，得到user‑>interest，user‑>interest是每个用户到所有兴趣标签的一个置信度值，介于0‑n之间，n是随机游走迭代的次数；(4)设置一个阈值a，当user‑>interest的置信度大于a时，作为user预测为interest兴趣标签。

【技术特征摘要】
1.一种用户浏览行为的兴趣挖掘方法，用户u1，u2，u3，指定时间内用户u1访问了网站标签t1，t2，t3，用户u2访问了网站标签t2，用户t3访问了网站标签t2，t3，其特征在于：该方法包括以下步骤：(1)对每个兴趣标签内的一些典型网站进行标注，此时这些标注的网站tag->interest对应兴趣的权重默认为1.0；(2)根据用户user及其指定时间内访问过的网站tag之间建立二部图模型，通过n轮随机游走，其中n为正整数，user1->tag1->user2->tag2->user3->tag3,汇总多轮游走的结果，计算出user->tag的权重；(3)用步骤(2)得到的user->tag乘以步骤(1)得到的tag->interest，得到user->interest，user->interest是每个用户到所有兴趣标签的一个置信度值，介于0-n之间，n是随机游走迭代的次数；(4)设置一个阈值a，当user->interest的置信度大于a时，作为user预测为interest兴趣标签。2.根据权利要求1所述的用户浏览行为的兴趣挖掘方法，其特征在于：所述步骤(2)包括以下分步骤：(2.1)通过用户user访问网站tag的次数pv和天数dv进行加权求和，然后归一化得到初始的user->tag和tag->user的权重；(2.2)用tag->user的权重乘以user->tag的权重，得到tag->tag的权重；(2.3)设第1轮游走迭代的user->tag的权重为步骤(2.1)...

【专利技术属性】
技术研发人员：华林森，张翼，崔晶晶，林佳婕，
申请(专利权)人：北京集奥聚合科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人