【技术实现步骤摘要】
本专利技术涉及互联网数据挖掘
,尤其涉及一种基于社交网络的关联用户的挖掘方法及装置。
技术介绍
在微博等社交网络中,存在着在某些维度上具备相同属性的用户,比如同为互联网领域专家、同为港台明星、同为某一团体成员等,本专利技术实施例中将该类用户称为关联用户。在推荐场景中,当粉丝关注了用户A之后,可以向粉丝推荐用户A的关联用户。当前社交网络中关联用户的挖掘都是基于用户自然属性进行挖掘,当用户的属性覆盖到某一维度时,才能发现该维度下的关联用户。比如只有挖掘出用户的地域属性后,才能发现地域维度上的关联用户。现有技术存在如下的技术缺点:1.关联用户的覆盖率不足,同时不能及时发现最新的关联用户关系;2.挖掘代价高,计算量大。
技术实现思路
本专利技术实施例提供一种基于社交网络的关联用户的挖掘方法及装置,以便能有效地进行全方位的关联关系的覆盖。一方面,本专利技术实施例提供了一种基于社交网络的关联用户的挖掘方法,所述方法包括:根据用户的正向亲密度信息和一级能力标签信息,构建能力用户的亲密度基础数据,所述能力用户是指一级能力标签信息中能力权重大于设定的第一权重阈值的博主用户,所述能力用户的亲密度基础数据包括能力用户的亲密粉丝用户数量、亲密粉丝用户标识以及对应的正向亲密度权重,所述亲密粉丝用户是指正向亲密度信息中正向亲密度权重大于设定的第二权重阈值的粉丝用户;基于能力用户的亲密度基础数据,针对每一个能力用户,将当前能力用户作为主体用户,与当前能力用户之间具有相同亲密粉丝用户的数量大于设定的第三数量阈值的其他能力用户作为该主体用户的关联用户,得到主体用户与关联用户的对应关系数 ...
【技术保护点】
一种基于社交网络的关联用户的挖掘方法,其特征在于,所述方法包括:根据用户的正向亲密度信息和一级能力标签信息,构建能力用户的亲密度基础数据,所述能力用户是指一级能力标签信息中能力权重大于设定的第一权重阈值的博主用户,所述能力用户的亲密度基础数据包括能力用户的亲密粉丝用户数量、亲密粉丝用户标识以及对应的正向亲密度权重,所述亲密粉丝用户是指正向亲密度信息中正向亲密度权重大于设定的第二权重阈值的粉丝用户;基于能力用户的亲密度基础数据,针对每一个能力用户,将当前能力用户作为主体用户,与当前能力用户之间具有相同亲密粉丝用户的数量大于设定的第三数量阈值的其他能力用户作为该主体用户的关联用户,得到主体用户与关联用户的对应关系数据;根据主体用户与关联用户的对应关系数据,选取具有至少一个相同的能力标签的主体用户及其关联用户;基于选取出的主体用户及其关联用户,确定主体用户与该主体用户的每一个关联用户共同的亲密粉丝用户数量,再结合主体用户的亲密粉丝用户数量,确定主体用户的各关联用户的权重值,基于权重值挖掘出主体用户的有效关联用户。
【技术特征摘要】
1.一种基于社交网络的关联用户的挖掘方法,其特征在于,所述方法包括:根据用户的正向亲密度信息和一级能力标签信息,构建能力用户的亲密度基础数据,所述能力用户是指一级能力标签信息中能力权重大于设定的第一权重阈值的博主用户,所述能力用户的亲密度基础数据包括能力用户的亲密粉丝用户数量、亲密粉丝用户标识以及对应的正向亲密度权重,所述亲密粉丝用户是指正向亲密度信息中正向亲密度权重大于设定的第二权重阈值的粉丝用户;基于能力用户的亲密度基础数据,针对每一个能力用户,将当前能力用户作为主体用户,与当前能力用户之间具有相同亲密粉丝用户的数量大于设定的第三数量阈值的其他能力用户作为该主体用户的关联用户,得到主体用户与关联用户的对应关系数据;根据主体用户与关联用户的对应关系数据,选取具有至少一个相同的能力标签的主体用户及其关联用户;基于选取出的主体用户及其关联用户,确定主体用户与该主体用户的每一个关联用户共同的亲密粉丝用户数量,再结合主体用户的亲密粉丝用户数量,确定主体用户的各关联用户的权重值,基于权重值挖掘出主体用户的有效关联用户。2.如权利要求1所述基于社交网络的关联用户的挖掘方法,其特征在于,针对能力用户的亲密粉丝用户数量设置至少一级数量阈值,并为各级数量阈值对应设置权重阈值,其中,各级数量阈值以及各级权重阈值依次增大,最低级权重阈值大于所述第二权重阈值;以及根据用户的正向亲密度信息和一级能力标签信息,构建能力用户的亲密度基础数据之后,还包括:判断能力用户的亲密粉丝用户数量是否小于等于最低级数量阈值;如果是,保持所述能力用户的亲密度基础数据不变;如果否,确定所述能力用户的亲密粉丝用户数量所对应的数量阈值等级、以及权重阈值等级,并根据确定出的权重阈值等级更新所述能力用户的亲密度基础数据。3.如权利要求2所述基于社交网络的关联用户的挖掘方法,其特征在于,所述确定所述能力用户的亲密粉丝用户数量所对应的数量阈值等级、以及权重阈值等级,具体包括:如果所述能力用户的亲密粉丝用户数量大于设定的第N级数量阈值且小于等于设定的第N+1级数量阈值,则确定所述能力用户的亲密粉丝用户数量所对应的数量阈值等级、以及权重阈值等级为N;以及所述根据确定出的权重阈值等级更新所述能力用户的亲密度基础数据,具体包括:根据确定出的第N级权重阈值更新所述能力用户的亲密度基础数据,更新后的亲密粉丝用户是指正向亲密度信息中正向亲密度权重大于设定的第N级权重阈值的粉丝用户。4.如权利要求1所述基于社交网络的关联用户的挖掘方法,其特征在于,所述选取具有至少一个相同的能力标签的主体用户及其关联用户,具体包括:如果主体用户及其关联用户的能力标签数量均为1并且相同,或者在有多个能力标签的情况下主体用户及其关联用户的能力标签存在包含关系,则选取当前的主体用户及其关联用户为具有至少一个相同的能力标签的主体用户及其关联用户。5.如权利要求1所述基于社交网络的关联用户的挖掘方法,其特征在于,所述基于选取出的主体用户及其关联用户,确定主体用户与该主体用户的每一个关联用户共同的亲密粉丝用户数量,再结合主体用户的亲密粉丝用户数量,确定主体用户的各关联用户的权重值,基于权重值挖掘出主体用户的有效关联用户,包括:基于选取出的主体用户及其关联用户,确定主体用户与该主体用户的每一个关联用户共同的亲密粉丝用户数量,按照共同的亲密粉丝用户数量对各关联用户进行降序排序,针对任一关联用户,通过与主体用户共同的亲密粉丝用户数量与主体用户的亲密粉丝用户数量计算主体用户的当前关联用户的权重值,计算公式如下:weight=round(interact_count/valid_fans_count*100,2),其中,interact_count是当前关联用户与主体用户共同的亲密粉丝用户数量,valid_fans_count是主体用户的亲密粉丝用户数量;round()是按照四舍五入的原则保留小数点后两位有效数据的函数;利用逻辑回归算法中的sigmoid函数对主体用户的各关联用户的权重值进行归一化处理,所述sigmoid函数的计算公式如下:S=11+e-weight.]]>基...
【专利技术属性】
技术研发人员:李金奎,
申请(专利权)人:微梦创科网络科技中国有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。