公开一种用户浏览行为的兴趣挖掘方法,用户u1,u2,u3,指定时间内用户u1访问了网站标签t1,t2,t3,用户u2访问了网站标签t2,用户t3访问了网站标签t2,t3,该方法包括步骤:(1)对每个兴趣标签内的一些典型网站进行标注,此时这些标注的网站tag‑>interest对应兴趣的权重默认为1.0;(2)根据用户user及其指定时间内访问过的网站tag之间建立二部图模型,通过n轮随机游走,其中n为正整数,汇总多轮游走的结果,计算出user‑>tag的权重;(3)用步骤(2)的user‑>tag乘以步骤(1)的tag‑>interest,得到user‑>interest,user‑>interest是每个用户到所有兴趣标签的一个置信度值;(4)设置一个阈值a,当user‑>interest的置信度大于a时,作为user预测为interest兴趣标签。
【技术实现步骤摘要】
本专利技术属于大数据处理和分析的
,具体地涉及一种用户浏览行为的兴趣挖掘方法。
技术介绍
在互联网逐渐步入大数据时代后,随着大数据技术的深入研究与应用,企业的专注点日益聚焦于利用大数据来刻画“用户画像”,进而深入挖掘潜在的商业价值,用户兴趣挖掘可以挖掘出不同的兴趣人群,方便做精准营销服务。用户上网会浏览很多网站,从这众多的网站中挖掘出用户的兴趣偏好就是兴趣挖掘,现有的技术中,方法A是对一些网站进行兴趣标注,如京东、天猫网站对应着“电商购物偏好”,爱奇艺、优酷土豆对应着“影音娱乐偏好”,设定一个阈值,当用户一定时间内访问京东、天猫网站超过这个阈值时,即判定这个用户有“电商购物偏好”。方法B是首先有大量的标注样本,如用户A的标注兴趣是“电商购物偏好”,用户B的标注兴趣是“影音娱乐偏好”等,然后通过有监督的机器学习方法以这些标注样本做训练集,训练多分类器,来对其他未标注样本进行兴趣预测、分类;还有一种做法是类似于推荐系统里面的协同过滤,通过计算未标注用户与已标注用户的相似度,将相似度高的已标注用户的兴趣赋给未标注用户。方法A简单有效、易实现,但是效果的好坏受限于网站标注规模的大小,如只把京东、天猫网站标注为“电商购物偏好”,那么有用户访问了“唯品会”、“国美”、“苏宁”等网站,就会被忽略,对应不到“电商购物偏好”,而人工不可能标注上所有的电商购物类网站,标注规模越大,人工成本越高。方法B利用有监督的机器学习模型来解决兴趣挖掘问题,首先得需要大量用户的兴趣标注样本,这个在多数场景下不容易解决,面临着冷启动的问题,最初始的那一批用户兴趣标注样本不容易获得,另外标注的这批用户访问网站信息随着时间更新时,用户兴趣发生变化时,通过用户之间的相似度来给用户预测兴趣标签会存在问题。
技术实现思路
本专利技术的技术解决问题是:克服现有技术的不足,提供一种用户浏览行为的兴趣挖掘方法,其人工标注成本大大降低,当用户访问网站信息更新、兴趣发生变化时,只需要每周或者每月用模型重新计算一下所有用户的兴趣标签即可。本专利技术的技术解决方案是:这种用户浏览行为的兴趣挖掘方法,用户u1,u2,u3,指定时间内用户u1访问了网站标签t1,t2,t3,用户u2访问了网站标签t2,用户t3访问了网站标签t2,t3,该方法包括以下步骤:(1)对每个兴趣标签内的一些典型网站进行标注,此时这些标注的网站tag->interest对应兴趣的权重默认为1.0;(2)根据用户user及其指定时间内访问过的网站tag之间建立二部图模型,通过n轮随机游走,其中n为正整数,user1->tag1->user2->tag2->user3->tag3,汇总多轮游走的结果,计算出user->tag的权重;(3)用步骤(2)得到的user->tag乘以步骤(1)得到的tag->interest,得到user->interest,user->interest是每个用户到所有兴趣标签的一个置信度值,介于0-n之间,n是随机游走迭代的次数;(4)设置一个阈值a,当user->interest的置信度大于a时,作为user预测为interest兴趣标签。本专利技术对用户和其访问过的网站标签进行二部图建模,通过随机游走,只需要人工标注少量的网站,即可计算出用户的兴趣标签,因此人工标注成本大大降低;因为是对网站进行标注,而不是对用户标注,所以用户访问网站信息更新,兴趣发生变化时,只需要每周或者每月用模型重新计算一下所有用户的兴趣标签即可。附图说明图1是根据本专利技术的用户浏览行为的兴趣挖掘方法的流程图。图2示出了用户及其访问网站tag的二部图模型。具体实施方式如图1、2所示,这种用户浏览行为的兴趣挖掘方法,用户u1,u2,u3,指定时间内用户u1访问了网站标签t1,t2,t3,用户u2访问了网站标签t2,用户t3访问了网站标签t2,t3,该方法包括以下步骤:(1)对每个兴趣标签内的一些典型网站进行标注,此时这些标注的网站tag->interest对应兴趣的权重默认为1.0;(2)根据用户user及其指定时间内访问过的网站tag之间建立二部图模型,通过n轮随机游走,其中n为正整数,user1->tag1->user2->tag2->user3->tag3,汇总多轮游走的结果,计算出user->tag的权重;(3)用步骤(2)得到的user->tag乘以步骤(1)得到的tag->interest,得到user->interest,user->interest是每个用户到所有兴趣标签的一个置信度值,介于0-n之间,n是随机游走迭代的次数;(4)设置一个阈值a,当user->interest的置信度大于a时,作为user预测为interest兴趣标签。本专利技术对用户和其访问过的网站标签进行二部图建模,通过随机游走,只需要人工标注少量的网站,即可计算出用户的兴趣标签,因此人工标注成本大大降低;因为是对网站进行标注,而不是对用户标注,所以用户访问网站信息更新,兴趣发生变化时,只需要每周或者每月用模型重新计算一下所有用户的兴趣标签即可。更进一步地,所述步骤(2)包括以下分步骤:(2.1)通过用户user访问网站tag的次数pv和天数dv进行加权求和,然后归一化得到初始的user->tag和tag->user的权重;(2.2)用tag->user的权重乘以user->tag的权重,得到tag->tag的权重;(2.3)设第1轮游走迭代的user->tag的权重为步骤(2.1)中得到的user->tag的值,记为I1,那么设第n轮游走迭代的结果为In,则In+1=In*(tag->tag);(2.4)汇总求和:tag->user=I1+I2+…..In。更进一步地,所述步骤(2.1)中,用户访问所有网站的pv和dv都是相同的,那么user1->tag1=1/3,user1->tag2=1/3,user1->tag3=1/3,user2、user3的计算与user1的计算相同;tag3->user1=1/2,tag3->user3=1/2,tag1、tag2的计算与tag3的计算相同。更进一步地,所述步骤(2.2)中计算结果为:tag2->tag1=(tag2->user1)*(user1->tag1)=1/3*1=1/3,tag2->tag3=(tag2->user1)*(user1->tag3)+(tag2->user3)*(user3->tag3)=1/3*1/3+1/3*1/2=5/18,tag1,tag3计算同tag2。更进一步地,所述步骤(2.3)中第2轮随机游走:user1->tag3=(user1->tag1)*(tag1->tag3)+(user1->tag2)*(tag2->tag3)=1*1/3+1/3*5/18=23/54。本专利技术的有益效果如下:1.本文档来自技高网...
【技术保护点】
一种用户浏览行为的兴趣挖掘方法,用户u1,u2,u3,指定时间内用户u1访问了网站标签t1,t2,t3,用户u2访问了网站标签t2,用户t3访问了网站标签t2,t3,其特征在于:该方法包括以下步骤:(1)对每个兴趣标签内的一些典型网站进行标注,此时这些标注的网站tag‑>interest对应兴趣的权重默认为1.0;(2)根据用户user及其指定时间内访问过的网站tag之间建立二部图模型,通过n轮随机游走,其中n为正整数,user1‑>tag1‑>user2‑>tag2‑>user3‑>tag3,汇总多轮游走的结果,计算出user‑>tag的权重;(3)用步骤(2)得到的user‑>tag乘以步骤(1)得到的tag‑>interest,得到user‑>interest,user‑>interest是每个用户到所有兴趣标签的一个置信度值,介于0‑n之间,n是随机游走迭代的次数;(4)设置一个阈值a,当user‑>interest的置信度大于a时,作为user预测为interest兴趣标签。
【技术特征摘要】
1.一种用户浏览行为的兴趣挖掘方法,用户u1,u2,u3,指定时间内用户u1访问了网站标签t1,t2,t3,用户u2访问了网站标签t2,用户t3访问了网站标签t2,t3,其特征在于:该方法包括以下步骤:(1)对每个兴趣标签内的一些典型网站进行标注,此时这些标注的网站tag->interest对应兴趣的权重默认为1.0;(2)根据用户user及其指定时间内访问过的网站tag之间建立二部图模型,通过n轮随机游走,其中n为正整数,user1->tag1->user2->tag2->user3->tag3,汇总多轮游走的结果,计算出user->tag的权重;(3)用步骤(2)得到的user->tag乘以步骤(1)得到的tag->interest,得到user->interest,user->interest是每个用户到所有兴趣标签的一个置信度值,介于0-n之间,n是随机游走迭代的次数;(4)设置一个阈值a,当user->interest的置信度大于a时,作为user预测为interest兴趣标签。2.根据权利要求1所述的用户浏览行为的兴趣挖掘方法,其特征在于:所述步骤(2)包括以下分步骤:(2.1)通过用户user访问网站tag的次数pv和天数dv进行加权求和,然后归一化得到初始的user->tag和tag->user的权重;(2.2)用tag->user的权重乘以user->tag的权重,得到tag->tag的权重;(2.3)设第1轮游走迭代的user->tag的权重为步骤(2.1)...
【专利技术属性】
技术研发人员:华林森,张翼,崔晶晶,林佳婕,
申请(专利权)人:北京集奥聚合科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。