【技术实现步骤摘要】
兴趣圈发现方法、装置、服务器和介质
本专利技术实施例涉及计算机
,尤其涉及一种兴趣圈发现方法、装置、服务器和介质。
技术介绍
生活中的各种关系都能构成关系网络结构,根据网络结构内关系连接的紧密和稀疏分布,能发现其中内部结构紧密,外部结构稀疏的不同的关系圈子。在社会学领域,社会学家也发现社区结构在各种复杂网络中的普遍存在性。近年来,随着关系网络的崛起,人们对该领域的关注度已大大提升。并且,随着互联网的发展和网络结构的扩张,网络内部的顶点数量不断增加,网络结构顶点几乎达到亿级别。发现这种庞大网络的内在社区结构对建立用户画像、进行文章推荐和广告推荐等都有一定指引作用。现有的关系圈子发现算法通常是基于单数据源来进行处理,而单数据源数据量有限,关系的产生也具有很大的局限性,无法对关系圈子进行合理地发现,也就无法满足各领域对于发现关系圈子的现实需求。
技术实现思路
本专利技术实施例提供一种兴趣圈发现方法、装置、服务器和介质,以提高兴趣圈发现的合理性。第一方面,本专利技术实施例提供了一种兴趣圈发现方法,该方法包括:基于至少两种数据源构建关系网络结构,其中,所述关系网络结构用于描述用户和用户以及用户和每种不同的数据源之间的关系;利用特定算法发现所述关系网络结构中的团块,将每个团块作为发现的兴趣圈。第二方面,本专利技术实施例还提供了一种兴趣圈发现装置,该装置包括:关系网络结构构建模块,用于基于至少两种数据源构建关系网络结构,其中,所述关系网络结构用于描述用户和用 ...
【技术保护点】
1.一种兴趣圈发现方法,其特征在于,包括:/n基于至少两种数据源构建关系网络结构,其中,所述关系网络结构用于描述用户和用户以及用户和每种不同的数据源之间的关系;/n利用特定算法发现所述关系网络结构中的团块,将每个团块作为发现的兴趣圈。/n
【技术特征摘要】
1.一种兴趣圈发现方法,其特征在于,包括:
基于至少两种数据源构建关系网络结构,其中,所述关系网络结构用于描述用户和用户以及用户和每种不同的数据源之间的关系;
利用特定算法发现所述关系网络结构中的团块,将每个团块作为发现的兴趣圈。
2.根据权利要求1所述的方法,其特征在于,所述基于至少两种数据源构建关系网络结构,包括:
分析所述至少两种数据源中的数据,确定用户和用户之间、以及用户和每种不同的数据源之间的关系以及关系类型;
基于所述关系以及关系类型构建异构网络结构,其中,所述异构网络结构中包含用户实体节点、数据源概念节点、用户实体节点和用户实体节点的关系、用户实体节点和数据源概念节点的关系;
基于所述异构网络结构中各节点之间的关系和关系类型,将所述异构网络结构转化为同质网络结构,其中,所述同质网络结构中包含用户实体节点、以及用户实体节点与用户实体节点之间的用户兴趣关系。
3.根据权利要求2所述的方法,其特征在于,基于所述异构网络结构中各节点之间的关系和关系类型,将所述异构网络结构转化为同质网络结构,包括:
基于所述异构网络结构中用户实体节点之间的关系确定用户实体节点之间的用户兴趣关系;以及
基于所述异构网络结构中用户实体节点与数据源概念节点之间的关系和关系类型,将多个用户实体节点与数据源概念节点之间的关系转化为多个用户实体节点之间的用户兴趣关系;
基于所述用户实体节点和所述用户兴趣关系确定所述同质网络结构。
4.根据权利要求3所述的方法,其特征在于,在所述利用特定算法发现所述关系网络结构中的团块,每个团块作为发现的兴趣圈之前,所述方法还包括:
确定所述同质网络结构中用户实体节点之间基于不同数据源的交互频数总和,并对所述同质网络结构中所述交互频数总和低于第一预设阈值的用户兴趣关系进行过滤;和/或
将所述同质网络结构中用户实体节点之间符合如下条件的用户兴趣关系进行过滤:用户兴趣关系为针对所述至少两种数据源中的单一数据对象产生的兴趣关系。
5.根据权利要求3所述的方法,其特征在于,基于所述异构网络结构中各节点之间的关系和关系类型,将所述异构网络结构转化为同质网络结构,还包括:确定所述同质网络结构中任意两个用户实体节点之间的用户兴趣关系的程度值。
6.根据权利要求5所述的方法,其特征在于,所述用户兴趣关系的程度值的确定过程包括:
统计所述异构网络结构中存在的节点间关系类型总数,以及每种关系类型的交互次数;
根据所述每种关系类型的交互次数和所述节点间关系类型总数,确定每种关系类型的权重;
确定所述同质网络结构中任意两个用户实体节点之间存在的每种关系类型的交互次数,利用所述权重和每种关系类型的交互次数,经加权求和得到该任意两个用户实体节点之间的用户兴趣关系的程度值;
相应的,在所述利用特定算法发现所述关系网络结构中的团块,每个团块作为发现的兴趣圈之前,所述方法还包括:
对所述同质网络结构中所述用户兴趣关系的程度值低于第二预设阈值的用户兴趣关系进行过滤。
7.根据权利要求1~6任一所述的方法,其特征在于,所述特定算法包括重叠标签传递算法。
8.根据权利要求1~6任一所述的方法,其特征在于,所述至少两种数据源包括贴吧、feed文章和博文中的至少两种。
9.一种兴趣圈发现装置,其特征在于,包括:
关系网络结构构建模块,用于基于至少两种数据源构建关系网络结构,其中,所述关系网络结构用于描述用户和用户以及用户和每种不同...
【专利技术属性】
技术研发人员:潘剑飞,戴明洋,石逸轩,罗程亮,姚远,杨胜文,范斌,周俊,许金泉,陈家伟,王栋,刘少杰,刘康,王楠,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。