一种基于多尺度地理信息的社交网络关联挖掘方法技术

技术编号:13903207 阅读:128 留言:0更新日期:2016-10-26 00:17
本发明专利技术涉及一种基于多尺度地理信息的社交网络关联挖掘方法。该方法包括:1)获取用户签到数据,对其进行预处理得到结构化数据;2)设定划分地图的不同方法以及每种方法的尺度标准,根据用户签到数据中的GPS数据计算获得其对应的多个位置ID;3)根据签到人数计算获得不同位置的权重,表征不同位置对社交关系预测的贡献;4)利用位置的权重信息进行特征提取,获得所有用户的位置交互特征;5)利用提取的特征训练分类器,得到关系预测模型;6)利用所得的关系预测模型对目标用户进行预测,获得社交网络关系预测结果。本发明专利技术通过充分利用位置签到信息来训练获得更鲁棒的预测模型,能够获得理想稳定的预测结果。

【技术实现步骤摘要】

本专利技术属于信息技术、社交网络
,具体涉及一种基于多尺度地理信息的社交网络关联挖掘方法
技术介绍
在社交网络研究领域,社交网络关联挖掘是一项重要的研究方向,而且是其他很多研究如社团发现和推荐系统等研究的基础。例如,人们倾向于购买亲朋好友推荐的产品,社团也往往是由相互之间熟悉的人组成。因此,社交网络关联挖掘已经成为社交网络研究领域的热门话题,并且吸引了广泛关注。传统意义上,社交网络关联挖掘往往是利用图模型的方法进行预测,即把社交网络关联挖掘网络抽象成图模型,并利用拓扑学方法进行预测。近年来,随着基于地理位置信息社交网络的迅速发展,研究人员开始利用用户的位置信息来预测相互之间的社交网络关联。目前,利用用户的位置信息预测用户之间社交网络关联的研究,主要集中在对于位置特征的提取方面,对于位置属性以及如何充分利用位置属性设计有效关系预测模型的研究较少,主要不足在于:a.对签到信息的稀疏性的处理欠缺。目前采用的地点确认方法是利用固定的网格或者其他方法划分区域,而各个地点的签到人数和签到次数稀疏差异很大,因而使用固定尺寸划分地图形成地点,可能会导致某些地点的签到人数很多,而某些地点的签到人数又太少。这就导致在进行社交网络关联挖掘时,难以保证预测的稳定性。签到人数多的位置,人们更容易被预测为之间存在社交网络关联,签到人数少的位置,由于观测到的人们之间的互动较少因此更容易预测为相互之间没有好友关系。b.对于位置属性挖掘不充分。在对人们之间社交网络关联进行预测时,不同的位置贡献大小不同。如果是在一个用户家里检测到另一位用户的访问信息,很大程度上可以确认两人存在社交网络关联。而如果是在公园或者图书馆检测到两人同时出现,则很难仅据此推断出两人是否存在社交网络关联。c.对数据倾斜问题处理不够。目前利用位置信息预测用户关系的模型研究较少,尤其是在关系预测时,存在社交网络关联的用户较少,造成在训练预测模型时正样本比例太小,从而导致预测模型鲁棒性不强。
技术实现思路
本专利技术提出一种基于多尺度地理信息的社交网络关联挖掘方法,通过充分利用位置签到信息,来训练获得更鲁棒的预测模型,从而获得理想稳定的预测结果。本专利技术采用的技术方案如下:一种基于多尺度地理信息的社交网络关联挖掘方法,包括以下步骤:1)获取用户签到数据,对其进行预处理得到结构化数据;2)设定划分地图的不同方法以及每种方法的尺度标准,根据用户签到数据中的GPS数据计算获得其对应的多个位置ID;3)根据签到人数计算获得不同位置的权重,用以表征不同位置对社交关系预测的贡献;4)利用位置的权重信息进行特征提取,获得所有用户的位置交互特征;5)利用提取的特征训练分类器,得到关系预测模型;6)利用所得的关系预测模型对目标用户进行预测,获得社交网络关系预测结果。进一步地,步骤1)所述结构化数据包括用户的签到时间、签到地点、签到次数等基本信息,将这些数据以矩阵形式存储。进一步地,步骤4)提取的特征包括:基于加权位置信息的共同访问地点特征、基于加权位置信息的Jaccard相似度特征、基于加权位置信息的余弦相似度特征。进一步地,步骤5)从两个角度训练基准分类器:一方面,以每一个尺度的所有特征为特征集合,即每个尺度对应训练一个基准分类器;另一方面,以多个尺度的单个特征计算方法为特征集合,即每个特征计算方法对应训练一个基准分类器。然后使用训练所得的基准分类器对测试集进行分类,对应得到置信度集合,并从两个角度对置信度集合分别进行加权平均,根据置信度均值进行排序,分别采用top方法选取一定比例置信度较大的样本;如果样本在两个角度筛选出的样本集合中均出现,则设定该样本为推荐样本,将推荐样本加入到训练集中,进而得到最终的分类器,即关系预测模型。本专利技术的有益效果如下:1)本专利技术提出利用多个标准分割地图,使每一条签到信息对应多个位置ID,以此克服由于单一标准难以得到稳定预测结果的问题;2)本专利技术根据每个位置对预测用户关系的影响大小分配权重,从而更合理充分的应用位置和签到信息;3)本专利技术提出一种推荐的位置信息挖掘方法,训练获得更鲁棒的预测模型;采用本专利技术进行社交网络关联挖掘,预测结果包括精度、召回率、F值和准确率均获得理想效果,具有很好的鲁棒性和泛化性能,可以得到稳定的预测效果。附图说明图1是本专利技术的社交网络关联挖掘方法的基本步骤流程图。图2是本专利技术的社交网络关联挖掘方法的具体步骤流程图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本专利技术做进一步说明。本专利技术由数据预处理、位置ID定义、位置权重计算、特征提取、预测模型训练五个模块(步骤)组成,经过五个模块的处理,即能够利用用户的签到信息完成用户的社交网络关联挖掘。下面对五个模块的功能和原理进行介绍。模块一数据预处理在LBSN网站获取到的用户签到数据往往是非结构化数据,难以进行数据分析,因此首先将这些数据处理成结构化数据。经过处理,用户的签到时间、签到地点(GPS格式)、签到次数等基本信息以矩阵形式存储。模块二位置ID定义设定划分地图的n种方法以及每种方法的尺度标准,根据签到信息的GPS数据,计算获得其对应的n个位置ID。划分地图的方法包括但不限于:利用经纬线交错形成的网格对地图进行划分。尺度标准是指每两条经线或者每两条纬线之间的经纬度距离,可根据实际应用需求,人为指定,例如采用0.1度作为尺度标准,即每两条经线之间和每两条纬线之间的距离均为0.1度。模块三位置权重计算位置权重由签到人数计算获得。在对用户之间的社交网络关联进行预测时,一个地点的访问人数越多,该地点对关系预测的贡献越小,例如在公园、图书馆等公共场所的相遇,很难据此证明两个用户之间存在社交网络关联。反之一个地点的访问人数越少,对关系预测的贡献就越大。然而特殊情况是,当一个地点仅有一个用户或者没有用户访问时,该地点的权重设定为0。这是因为这类地点对于用户之间的交互信息没有任何表征,因此也便不能对用户的关系预测提供参考信息。根据描述,设定位置权重的计算公式如下: D k 0 , i f Σ i = 1 m d ( i , l k 本文档来自技高网
...

【技术保护点】
一种基于多尺度地理信息的社交网络关联挖掘方法,其特征在于,包括以下步骤:1)获取用户签到数据,对其进行预处理得到结构化数据;2)设定划分地图的不同方法以及每种方法的尺度标准,根据用户签到数据中的GPS数据计算获得其对应的多个位置ID;3)根据签到人数计算获得不同位置的权重,用以表征不同位置对社交关系预测的贡献;4)利用位置的权重信息进行特征提取,获得所有用户的位置交互特征;5)利用提取的特征训练分类器,得到关系预测模型;6)利用所得的关系预测模型对目标用户进行预测,获得社交网络关系预测结果。

【技术特征摘要】
1.一种基于多尺度地理信息的社交网络关联挖掘方法,其特征在于,包括以下步骤:1)获取用户签到数据,对其进行预处理得到结构化数据;2)设定划分地图的不同方法以及每种方法的尺度标准,根据用户签到数据中的GPS数据计算获得其对应的多个位置ID;3)根据签到人数计算获得不同位置的权重,用以表征不同位置对社交关系预测的贡献;4)利用位置的权重信息进行特征提取,获得所有用户的位置交互特征;5)利用提取的特征训练分类器,得到关系预测模型;6)利用所得的关系预测模型对目标用户进行预测,获得社交网络关系预测结果。2.如权利要求1所述的方法,其特征在于:步骤1)所述结构化数据包括用户的签到时间、签到地点、签到次数,将这些数据以矩阵形式存储。3.如权利要求1所述的方法,其特征在于:步骤3)按照如下公式计算位置权重: D k = 0 , i f Σ i = 1 m d ( i , l k ) ≤ 1 1 l n Σ i = 1 m d ( i , l k ) Σ x = 1 t Σ i = 1 ...

【专利技术属性】
技术研发人员:张凯张晓宇云晓春王树鹏
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1