兴趣圈发现方法、装置、服务器和介质制造方法及图纸

技术编号:24095371 阅读:19 留言:0更新日期:2020-05-09 10:04
本发明专利技术实施例公开了一种兴趣圈发现方法、装置、服务器和介质,其中,该方法包括:基于至少两种数据源构建关系网络结构,其中,关系网络结构用于描述用户和用户以及用户和每种不同的数据源之间的关系;利用特定算法发现关系网络结构中的团块,将每个团块作为发现的兴趣圈。本发明专利技术实施例解决了基于单数据源发现兴趣圈的方案合理性较低的问题,提高了兴趣圈发现的合理性。

Discovery methods, devices, servers and media of interest circle

【技术实现步骤摘要】
兴趣圈发现方法、装置、服务器和介质
本专利技术实施例涉及计算机
,尤其涉及一种兴趣圈发现方法、装置、服务器和介质。
技术介绍
生活中的各种关系都能构成关系网络结构,根据网络结构内关系连接的紧密和稀疏分布,能发现其中内部结构紧密,外部结构稀疏的不同的关系圈子。在社会学领域,社会学家也发现社区结构在各种复杂网络中的普遍存在性。近年来,随着关系网络的崛起,人们对该领域的关注度已大大提升。并且,随着互联网的发展和网络结构的扩张,网络内部的顶点数量不断增加,网络结构顶点几乎达到亿级别。发现这种庞大网络的内在社区结构对建立用户画像、进行文章推荐和广告推荐等都有一定指引作用。现有的关系圈子发现算法通常是基于单数据源来进行处理,而单数据源数据量有限,关系的产生也具有很大的局限性,无法对关系圈子进行合理地发现,也就无法满足各领域对于发现关系圈子的现实需求。
技术实现思路
本专利技术实施例提供一种兴趣圈发现方法、装置、服务器和介质,以提高兴趣圈发现的合理性。第一方面,本专利技术实施例提供了一种兴趣圈发现方法,该方法包括:基于至少两种数据源构建关系网络结构,其中,所述关系网络结构用于描述用户和用户以及用户和每种不同的数据源之间的关系;利用特定算法发现所述关系网络结构中的团块,将每个团块作为发现的兴趣圈。第二方面,本专利技术实施例还提供了一种兴趣圈发现装置,该装置包括:关系网络结构构建模块,用于基于至少两种数据源构建关系网络结构,其中,所述关系网络结构用于描述用户和用户以及用户和每种不同的数据源之间的关系;兴趣圈发现模块,用于利用特定算法发现所述关系网络结构中的团块,每个团块作为发现的兴趣圈。第三方面,本专利技术实施例还提供了一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术任一实施例所述的兴趣圈发现方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术任一实施例所述的兴趣圈发现方法。本专利技术实施例通过基于至少两种数据源,构建出可用于描述用户和用户以及用户和每种不同数据源之间关系的关系网络结构,利用特定算法发现该关系网络结构中的团块,将每个团块作为发现的兴趣圈,解决了基于单数据源发现兴趣圈的方案合理性较低的问题,提高了兴趣圈发现的合理性。附图说明图1是本专利技术实施例一提供的兴趣圈发现方法的流程图;图2是本专利技术实施例二提供的兴趣圈发现方法的流程图;图3是本专利技术实施例二提供的一种异构网络结构的示意图;图4是本专利技术实施例三提供的兴趣圈发现装置的结构示意图;图5是本专利技术实施例四提供的一种服务器的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1是本专利技术实施例一提供的兴趣圈发现方法的流程图,本实施例可适用于基于关系网络结构发现兴趣圈的情况,该方法可以由兴趣圈发现装置来执行,该装置可以采用软件和/或硬件的方式实现,并可集成在服务器上。如图1所示,本实施例提供的兴趣圈发现方法可以包括:S110、基于至少两种数据源构建关系网络结构,其中,关系网络结构用于描述用户和用户以及用户和每种不同的数据源之间的关系。在虚拟网络中,每个用户均可以参与不同的网络主题服务,因而在复杂关系网络中,除了同一网络主题服务下的用户可能存在交互关系外,不同网络主题服务之间的用户也可能存在一定的交互关系。其中,不同的网络主题服务是指基于不同服务策略的网络服务,不同网络主题服务对应不同的数据源,例如贴吧、feed文章和博文等属于不同的网络主题服务。相比于利用单一数据源建立关系网络结构的方式,基于多种数据源构建关系网络结构,即考虑用户在多种网络主题服务中的交叉网络行为,可以构建出更加全面的关系网络结构,从而为合理发现兴趣圈奠定基础。示例性的,本实施例中至少两种数据源包括贴吧、feed文章和博文中的至少两种。网站贴吧数据指根据帖子的内容产生的用户交互数据,包括针对统一帖子内容的针对性评论、楼层对帖子的回复、楼层间相互的交互、楼中楼的交互和用户发布帖子的行为等;feed文章数据指针对feed文章的用户交互数据,包括用户针对文章的评论、用户间的点赞、用户间的关注和用户发布文章的行为等;博文数据指基于微博平台产生的用户交互数据,包括针对微博内容的用户评论、用户点赞、用户间交互和用户发布微博的行为等。以上数据源之间很少存在单纯的用户和用户之间的交互,更多的是通过文章或者帖子对不同的用户行为关系进行转化得到的交互关系,例如同时关注贴吧和微博的用户A对微博用户B的微博进行点赞,则可认为贴吧用户A和微博用户B通过微博点赞行为产生了交互关系。因此,尽管不同的数据源之间社交关系较弱,但是基于数据分析,仍可以建立起大规模的关系网络结构。S120、利用特定算法发现关系网络结构中的团块,将每个团块作为发现的兴趣圈。根据实际需求,可以从现有的社区发现算法选择特定算法,用于发现所建立的关系网络结构中的团块,一个团块即代表一个兴趣爱好一致的用户群。可选的,特定算法包括重叠标签传递算法,该算法即可用于发现重叠社区的基于标签传递的社区发现算法,其特点在于发现的兴趣圈结果中,用户可以属于不同的兴趣圈,即用户可以含有多个不同的兴趣点。此外,本实施例中特定算法还可以包括派系过滤CPM(ClusterPercolationmethod)算法和Louvain算法等。现有技术中通常在单数据源的基础上利用k-means算法或者DBSCAN聚类等算法发现兴趣圈,其中的局限性包括用于发现兴趣圈的数据量有限,以及用户只能属于单一兴趣圈等,本实施例中采用将多源数据进行关系融合后发现兴趣圈的方式,不仅解决了现有技术中用于发现兴趣圈的数据量有限的问题,而且兴趣圈发现结果中用户可以属于多个不同的兴趣圈,使得兴趣圈的发现更加贴合实际情况。因此,本实施例技术方案通过基于至少两种数据源构建出可用于描述用户和用户以及用户和每种不同数据源之间关系的关系网络结构,利用特定算法发现该关系网络结构中的团块,将每个团块作为发现的兴趣圈,解决了现有技术中基于单数据源的兴趣圈发现方案的合理性较低的问题,实现了基于多源数据关系融合发现兴趣圈的效果,提高了兴趣圈发现的合理性。实施例二图2是本专利技术实施例二提供的兴趣圈发现方法的流程图,本实施例是在上述实施例的基础上进一步进行优化。如图2所示,该方法可以包括:S210、分析至少两种数据源中的数据,确定用户和用户之间、以及用户和每种不同的数据源之间的关系以及关系类型。其中,用户和用户之间的关系包括但不限本文档来自技高网...

【技术保护点】
1.一种兴趣圈发现方法,其特征在于,包括:/n基于至少两种数据源构建关系网络结构,其中,所述关系网络结构用于描述用户和用户以及用户和每种不同的数据源之间的关系;/n利用特定算法发现所述关系网络结构中的团块,将每个团块作为发现的兴趣圈。/n

【技术特征摘要】
1.一种兴趣圈发现方法,其特征在于,包括:
基于至少两种数据源构建关系网络结构,其中,所述关系网络结构用于描述用户和用户以及用户和每种不同的数据源之间的关系;
利用特定算法发现所述关系网络结构中的团块,将每个团块作为发现的兴趣圈。


2.根据权利要求1所述的方法,其特征在于,所述基于至少两种数据源构建关系网络结构,包括:
分析所述至少两种数据源中的数据,确定用户和用户之间、以及用户和每种不同的数据源之间的关系以及关系类型;
基于所述关系以及关系类型构建异构网络结构,其中,所述异构网络结构中包含用户实体节点、数据源概念节点、用户实体节点和用户实体节点的关系、用户实体节点和数据源概念节点的关系;
基于所述异构网络结构中各节点之间的关系和关系类型,将所述异构网络结构转化为同质网络结构,其中,所述同质网络结构中包含用户实体节点、以及用户实体节点与用户实体节点之间的用户兴趣关系。


3.根据权利要求2所述的方法,其特征在于,基于所述异构网络结构中各节点之间的关系和关系类型,将所述异构网络结构转化为同质网络结构,包括:
基于所述异构网络结构中用户实体节点之间的关系确定用户实体节点之间的用户兴趣关系;以及
基于所述异构网络结构中用户实体节点与数据源概念节点之间的关系和关系类型,将多个用户实体节点与数据源概念节点之间的关系转化为多个用户实体节点之间的用户兴趣关系;
基于所述用户实体节点和所述用户兴趣关系确定所述同质网络结构。


4.根据权利要求3所述的方法,其特征在于,在所述利用特定算法发现所述关系网络结构中的团块,每个团块作为发现的兴趣圈之前,所述方法还包括:
确定所述同质网络结构中用户实体节点之间基于不同数据源的交互频数总和,并对所述同质网络结构中所述交互频数总和低于第一预设阈值的用户兴趣关系进行过滤;和/或
将所述同质网络结构中用户实体节点之间符合如下条件的用户兴趣关系进行过滤:用户兴趣关系为针对所述至少两种数据源中的单一数据对象产生的兴趣关系。


5.根据权利要求3所述的方法,其特征在于,基于所述异构网络结构中各节点之间的关系和关系类型,将所述异构网络结构转化为同质网络结构,还包括:确定所述同质网络结构中任意两个用户实体节点之间的用户兴趣关系的程度值。


6.根据权利要求5所述的方法,其特征在于,所述用户兴趣关系的程度值的确定过程包括:
统计所述异构网络结构中存在的节点间关系类型总数,以及每种关系类型的交互次数;
根据所述每种关系类型的交互次数和所述节点间关系类型总数,确定每种关系类型的权重;
确定所述同质网络结构中任意两个用户实体节点之间存在的每种关系类型的交互次数,利用所述权重和每种关系类型的交互次数,经加权求和得到该任意两个用户实体节点之间的用户兴趣关系的程度值;
相应的,在所述利用特定算法发现所述关系网络结构中的团块,每个团块作为发现的兴趣圈之前,所述方法还包括:
对所述同质网络结构中所述用户兴趣关系的程度值低于第二预设阈值的用户兴趣关系进行过滤。


7.根据权利要求1~6任一所述的方法,其特征在于,所述特定算法包括重叠标签传递算法。


8.根据权利要求1~6任一所述的方法,其特征在于,所述至少两种数据源包括贴吧、feed文章和博文中的至少两种。


9.一种兴趣圈发现装置,其特征在于,包括:
关系网络结构构建模块,用于基于至少两种数据源构建关系网络结构,其中,所述关系网络结构用于描述用户和用户以及用户和每种不同...

【专利技术属性】
技术研发人员:潘剑飞戴明洋石逸轩罗程亮姚远杨胜文范斌周俊许金泉陈家伟王栋刘少杰刘康王楠
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1