本发明专利技术涉及一种在线社交网络中社群话题的发现方法,该具体过程为:基于网络爬虫对目标社交网络进行数据采集;基于采集到的社交网络中用户对象之间的交互关系,计算每个用户对象在交互网络拓扑中的相关度;构建用户对象静态的交互网络;利用层次聚类,根据用户对象的相关度得到紧密的用户社群结构;对于划分出的每个社群,查找数据库获得该社群对应的文本信息,将其作为文档输入,使用SVM分类,计算出该社群的热门话题。本发明专利技术提出了一种基于社群划分的社群话题发现方法,与现有的在线社交网络话题发现方法相比,可以有效排除噪音数据,获得更为紧密的社群之间的话题,有助于更深入地了解社交网络的信息传播规律。
【技术实现步骤摘要】
本专利技术涉及社会计算
,尤其涉及一种在线社交网络中社群话题的发现方法。
技术介绍
随着网络技术的发展,互联网正逐渐成为人们交往的重要渠道,人与人之间的社会网络关系蕴藏进了互联网中,诞生了社交网络服务。在社交网站通过在线服务向其用户提供服务的过程中,用户间形成了基于网络的成员之间的社交网络关系。社交网络在我们的日常生活扮演重要角色。人们通过社会性关系来完成互相间的通信和信息分享。在这个过程中,形成了社交网络中的话题。社交网络是基于用户关系实现信息的分享、获取以及传播的互联网平台。用户利用社交网络构建和维持着自身的人际网络关系,并在相关平台上发布消息。社交网络中通常包括一些松散的用户集群,其中的成员相互联系较之其余用户更加密切,我们称之为社群。发现这种固有的社会结构中的话题分布有助于我们更深入地了解社交网络的信息传播规律。中国专利200880124053.7、201210210349.9提出了一些在线社交网络的社群识别方法,但是无法在划分的社群中发现话题。专利201210514421.7提出使用专家知识人工去除噪音用户发现社交网络中的重要目标和专利201210054254.2采用分析用户话题链接行为识别社交网络中的话题领袖,都只能获得社交网络核心用户的话题内容。专利201210350117.3提出了一种发现社交网络中弱链接的方法,可以有效寻找到话题路径,但是无法发现具体的话题。专利201210210349.9能够挖掘社交网络中话题核心圈,依旧无法覆盖所有社群的话题。鉴于上述缺陷,本专利技术创作者经过长时间的研究和实践终于获得了本创作。
技术实现思路
本专利技术的目的在于提供一种在线社交网络中社群话题的发现方法,用以克服上述技术缺陷。为实现上述目的,本专利技术提供一种在线社交网络中社群话题的发现方法,该具体过程为:步骤1,基于网络爬虫对目标社交网络进行数据采集;步骤2,基于采集到的社交网络中用户对象之间的交互关系,计算每个用户对象在交互网络拓扑中的相关度;步骤3,构建用户对象静态的交互网络;步骤4,利用层次聚类,根据用户对象的相关度得到紧密的用户社群结构;步骤5,对于划分出的每个社群,查找数据库获得该社群对应的文本信息,将其作为文档输入,使用SVM分类,计算出该社群的热门话题。进一步,通过下述公式(1)计算用户之间的相关度ηij,并存入数据库中,ηij=αij+1Σk=1nαik+n·h1+βij+1Σk=1nβik+n·h2+λij+1Σk=1nλik+n·h3---(1)]]>其中,ηij表示用户i和用户j的相关度,αij表示用户i对用户j的评论次数,βij表示用户i对用户j的转发次数,γij表示用户i对用户j的分享次数;h1,h2,h3分别表示评论、转发、分享这三种操作的权值。进一步,在上述步骤3中,对于一个含有n个用户的社群Q,设其中的用户分别为U1、U2、...Ui...Un,对于其中任意个用户Ui,通过公式(1)的用户相关度公式,可以计算出其和其它N-1个用户的相关度ηij;定义向量为用户i的社群相关度向量,则该向量表示用户i对于社群中所有用户的相关度;计算出社群中所有用户的相关度向量Ai后,定义矩阵T为社群Q的相关度矩阵。进一步,所述层次聚类,将网络中聚类最近的两个点或者集合不断的聚集在一起,形成新的集合,最后会形成一颗聚类二叉树,根据给定的社群数量,可以将其分割为任意数量的子树,每个子树对应的用户集合就是一个社群,在裁剪的过程中,不断丢弃那些子树个数为一的孤立节点,实现对噪音数据的过滤。进一步,在上述步骤4中,对目标社交网络划分为K个社群的过程具体过程为:步骤41:对于一个社交网络的相关度矩阵MQ,使用层次聚类方法获得其聚类树ClusterTree;步骤42:将ClusterTree加入聚类树集合Q中;步骤43:如果Q中的聚类集合数量大于K直接进入步骤44,否则选取集合Q中根节点距离最大的聚类树拆为两颗子树,如果子树的根节点数量小于2,则删除该子树,否则将子树添加到集合Q中;步骤44:如果Q中的聚类集合数量小于K直接进入步骤45,否则选取集合Q中根节点距离最小的两颗聚类树合并为一颗子树;步骤45:如果Q中的聚类集合数量等于K则结束,否则返回43。进一步,根据三种操作的重要程度不同和比例关系,所述h1=0.45;h2=0.3,h3=0.25。进一步,所述步骤1中采集信息包括用户发布的所有新鲜事文本,以及新鲜事条目下其他用户对其进行的转发、分享、评论等交互操作;并在采集过程中,解析新鲜事信息中包含的交互操作。与现有技术相比较本专利技术的有益效果在于:本专利技术提出了一种基于社群划分的社群话题发现方法,与现有的在线社交网络话题发现方法相比,可以有效排除噪音数据,获得更为紧密的社群之间的话题,有助于更深入地了解社交网络的信息传播规律。附图说明图1为本专利技术实例中话题发现的流程图;图2为本专利技术实例中的社群划分过程的流程图;图3为本专利技术实例中的社群话题发现结果。具体实施方式以下结合附图,对本专利技术上述的和另外的技术特征和优点作更详细的说明。请参阅图1所示,本专利技术对在线社交网络平台的不同社群热点话题的发现的具体过程为:步骤1,基于网络爬虫对目标社交网络进行数据采集;该数据信息包括用户发布的所有新鲜事文本,以及新鲜事条目下其他用户对其进行的转发、分享、评论等交互操作;并在采集过程中,解析新鲜事信息中包含的交互操作,如转发、评论、分析、赞等。基于网络爬虫技术,从目标社交网络中选取一个种子用户,从其页面开始,依次进入社交网络的其他用户,采集其数据信息,并将采集结果存入数据库中。步骤2,基于采集到的社交网络中用户对象之间的交互关系,计算每个用户对象在交互网络拓扑中的相关度;用户相关度指的是用户之间的交互程度,是本专利技术用来衡量用户之间差异性,划分不同的用户社群的基准。通过将用户之间的操作加权赋值并归一化,相互交互较多的用户相关度较高,而相互交互较少的用户相关度较低。本专利技术通过下述公式(1)计算用户之间的相关度ηij,并存入数据库中,ηij=αij本文档来自技高网...
【技术保护点】
一种在线社交网络中社群话题的发现方法,其特征在于,该具体过程为:步骤1,基于网络爬虫对目标社交网络进行数据采集;步骤2,基于采集到的社交网络中用户对象之间的交互关系,计算每个用户对象在交互网络拓扑中的相关度;步骤3,构建用户对象静态的交互网络;步骤4,利用层次聚类,根据用户对象的相关度得到紧密的用户社群结构;步骤5,对于划分出的每个社群,查找数据库获得该社群对应的文本信息,将其作为文档输入,使用SVM分类,计算出该社群的热门话题。
【技术特征摘要】
1.一种在线社交网络中社群话题的发现方法,其特征在于,该具体
过程为:
步骤1,基于网络爬虫对目标社交网络进行数据采集;
步骤2,基于采集到的社交网络中用户对象之间的交互关系,计算每
个用户对象在交互网络拓扑中的相关度;
步骤3,构建用户对象静态的交互网络;
步骤4,利用层次聚类,根据用户对象的相关度得到紧密的用户社群结
构;
步骤5,对于划分出的每个社群,查找数据库获得该社群对应的文本
信息,将其作为文档输入,使用SVM分类,计算出该社群的热门话题。
2.根据权利要求1所述的在线社交网络中社群话题的发现方法,其
特征在于,
通过下述公式(1)计算用户之间的相关度ηij,并存入数据库中,
ηij=αij+1Σk=1nαik+n·h1+βij+1Σk=1nβik+n·h2+λij+1Σk=1nλik+n·h3---(1)]]>其中,ηij表示用户i和用户j的相关度,αij表示用户i对用户j的评
论次数,βij表示用户i对用户j的转发次数,γij表示用户i对用户j的分
享次数;h1,h2,h3分别表示评论、转发、分享这三种操作的权值。
3.根据权利2所述的在线社交网络中社群话题的发现方法,其特征
在于,在上述步骤3中,对于一个含有n个用户的社群Q,设其中的用户分
别为U1、U2、...Ui...Un,对于其中任意个用户Ui,通过公式(1)的用
户相关度公式,可以计算出其和其它N-1个用户的相关度ηij;
定义向量为用户i的社群相
关度向量,则该向量表示用户i对于社群中所有用户的相关度;
计算出社群中所有...
【专利技术属性】
技术研发人员:於志文,张星,梁韵基,郭斌,倪红波,王柱,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。