一种基于时空轨迹的用户属性与社会网络检测系统技术方案

技术编号:15220008 阅读:107 留言:0更新日期:2017-04-26 19:38
本发明专利技术提供一种基于时空轨迹的用户属性与社会网络检测系统,通过对用户的行为模式进行分析,预测用户的真实身份属性,包括数据处理,社会网络建模,特征提取和分类预测这四个子系统;对时空轨迹数据进行分析;根据时空轨迹数据,提出原创的基于点互信息的方法建立用户的社会网络模型;提出原创的非负张量分解(NTF)算法自动提取出用户的隐含特征;利用用户的隐含特征使用多种分类器对用户属性进行预测;本发明专利技术可用于用户属性真实性检测;也可用于用户社会网络检测;还可以根据预测出的属性和社会网络,进行信息的精准推送、好友推荐等。

A user attribute and social network detection system based on spatio temporal trajectory

The invention provides a user attribute and social network detection system based on spatio-temporal trajectory, based on the analysis of user behavior patterns, the true identity of the user attribute prediction, including data processing, social network modeling, feature extraction and classification of the four subsystems; trajectory data analysis; according to the trajectory data, put forward the original method of mutual information based on social network model of the user; the original non negative tensor factorization (NTF) algorithm to automatically extract implicit features of the user; using the user's implicit features used multiple classifiers to predict user attributes; the invention can be used for the authenticity of the user attribute detection; also can be used for users of social networks detection; can also according to the prediction of the property and social network, to push accurate information and referral.

【技术实现步骤摘要】

本专利技术属于数据挖掘
,特别涉及一种基于时空轨迹的用户属性与社会网络检测系统。
技术介绍
随着互联网技术的应用与发展,互联网用户越来越多。互联网具有虚拟性,用户在互联网上的资料并不一定是其真实属性,为了提高互联网的安全性,需要确保用户身份的真实性。此外,了解用户的社会关系在维护公共安全、反恐等问题中也有重要的应用。移动通信技术的发展和智能移动设备(如智能手机、平板电脑)的快速普及,使移动设备与用户之间的联系越来越密切,而许多移动设备和APP能够记录用户的行动。于是利用用户行为对用户属性和社会网络做出推断这一问题吸引了很多研究人员的关注。这里我们主要关注移动设备记录下的用户地理位置信息。例如,许多用户喜欢在微信、微博等社交平台上发布自己的消息;使用移动设备上的购物或团购APP;使用地图和导航功能;为了能够随时使用这些功能,大多数用户会长时间开启GPS、WIFI或4G通讯。开发上述APP的第三方供应商以及网络运营商能够获取到用户的使用记录,再通过一些方法分析出这些记录产生的时间和地点。例如,如果一个用户用手机发布了一条微博,APP可以通过4G基站信息和手机内置的GPS功能获取当前的地理位置;网络运营商可以通过多个基站对用户的地理位置进行定位。将一个用户的每一条时间地点记录组成一个序列,就得到了一个用户的时空轨迹。时空轨迹反映了用户的行动模式。目前已经有一些方法通过分析用户的时空轨迹来推断用户属性,但是这些方法都是基于地理位置的语义信息来做的。例如,一个微博用户在几个不同地点发布了微博消息,为了判断这名用户的属性(如性别、职业),传统方法需要知道微博发布地点的信息(如商场、公司、饭店或游乐园)。显然,地点的语义信息并不是总能明确获取的,例如一栋高层建筑的不同楼层可能有不同的功能。这对传统方法的效果有很大的影响。此外,由于每个用户在同一个地点出现的目的都是不同的,只凭时空轨迹来推断用户属性必然存在瓶颈,需要加入新的特征来突破。社会网络是由用户的好友关系建立起来的网络图,图中每个节点代表一个用户,每条边代表一对好友关系。利用时空轨迹推测社会网络的方法通常有两种:其一是根据时空轨迹的相似度来推测用户间具有社交关系的可能性;另一种认为:两个人同时在某个地点出现的次数越多(称为“共现行为”),他们就越有可能具有社交关系。现有的利用时空轨迹推测社会网络的方法往往也是基于地理位置的语义信息来完成的,除了前述限制外,这些方法也不能很好的处理偶然的“共现行为”的影响。此外,有研究统计发现,社会网络中的好友具有“同质性”,即一对好友具有一项或几项相同属性的概率很高,于是利用社会网络来预测用户属性的研究也成为一个热点。结合时空轨迹数据和社会网络信息能够明显提高用户属性推测的准确度。但由于隐私问题,社会网络信息在实际应用中是难以获取的。
技术实现思路
为了克服上述现有技术的缺点,本专利技术的目的在于提供一种基于时空轨迹的用户属性与社会网络检测系统,与传统方法相比,本专利技术的一项优势在于,输入的时空轨迹不需要具有详细语义信息的地理位置数据,因此适用于多种不同类型的数据集。本专利技术的另一项优势在于,在建立用户的社会网络模型时,能够有效地识别偶然的共现行为;本专利技术的又一项优势在于,直接通过时空轨迹数据来推测用户的社会网络,并将社会网络作为一个补充信息来提高用户属性推测的准确度,克服了数据获取这一难题。为了实现上述目的,本专利技术采用的技术方案是:基于时空轨迹的用户属性与社会网络检测系统,包括:数据处理子系统,实现输入数据的预处理,包括将所有用户的时空轨迹处理成容易进行后续操作的三阶张量形式。具体地,数据处理子系统将所有用户的时空轨迹处理成容易进行后续操作的三阶张量形式,所需的原始的时空轨迹记录包括用户标识、地理位置标识和时间标识,数据处理子系统建立一个元素全为零的三阶张量,其中行数=用户标识数,列数=地理位置标识数,管数=时间段标识数,即三阶张量的每一行代表一个用户,每一列代表一个地点,每一管代表一个时间段。社会网络建模子系统,通过分析用户的时空轨迹数据,建立用户的社会网络模型,并以邻接矩阵的形式存储。具体地,所述社会网络建模子系统使用点互信息(PMI,PointwiseMutualInformation)来对用户的共现行为进行分析,从而识别出偶然的共现行为和由于社交关系而出现的共现行为,根据共现行为的次数和可信度对用户间的熟悉度进行排序,以此建立用户的社会网络模型。邻接矩阵的行数和列数都等于用户数,每个元素代表所在行、列的用户是否有社交关系,用户ui和用户uj的关系反映在矩阵的第i行j列中。特征提取子系统,降低用户时空轨迹的维度,从用户的时空轨迹数据中提取出有价值的特征,使提取出的特征适用于现有的分类算法。具体地,本专利技术提出了一种非负张量分解(NTF)算法来提取有价值的特征,对时空轨迹张量进行分解,用社会网络信息进行约束,得到三个二阶矩阵,分别代表了每个用户、每个地理位置和每个时间段的隐含特征。其中本专利技术最关心用户隐含特征矩阵,它能反映每个用户的特征,用于分类器的训练和预测,同时特征的维度可以根据需要自行设定,满足高效、准确的要求。本专利技术又包括;分类预测子系统,利用用户的隐含特征训练多种分类器,使用已知属性的用户隐含特征训练多种分类器对用户,用目标用户的隐含特征进行预测。具体地,可使用多种分类器对用户属性进行预测,最后综合判断用户属性。本专利技术目前使用了SVM,Logistic回归和线性回归三种分类器,这三种分类器的优点是实现简单,运行效率高,分类准确率高。与现有技术相比,本专利技术的有益效果是:1、突破了现有的基于时空轨迹的用户属性预测技术依赖地理位置信息的限制。本专利技术所需的时空轨迹信息不需要任何地理位置特征,可以用简单的标识(如地点1等)替代,这就大大提高了本专利技术的适用性,同时由于加入了社会网络的信息,预测精度相对现有技术有明显提高。2、通过时空轨迹来推测用户的社会网络信息,直接避免了数据获取的难题。本专利技术不需依赖额外的数据来源,可以自行提取用户的社会网络,这样就完全避免了实际应用中最棘手的数据获取难题。3、结合社会网络信息,预测能力得到明显提高。本专利技术将社会网络数据和时空轨迹数据结合在一起,相较于独立使用时空轨迹的预测技术,预测精度有了明显提高。4、能够处理大数据的分类预测问题。在时空轨迹数据量极大时,由于特征可能高于训练样本数量,现有技术往往会遇到过拟合问题,严重影响预测能力。本专利技术提出了一种非负张量分解算法,对时空轨迹进行了降维处理,能够自行设定特征数量,彻底克服了这个问题。附图说明图1为本专利技术系统整体结构图。图2为本专利技术数据处理子系统流程图。图3为本专利技术社会网络建模子系统流程图。图4为本专利技术特征提取子系统流程图。图5为本专利技术分类预测子系统流程图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面结合附图和实施例详细说明本专利技术的实施方式。如图1所示,本系统由四个子系统组成,分别是数据处理子系统,社会网络建模子系统,特征提取子系统和分类预测子系统。系统的输入数据为用户的时空轨迹数据,包括三部分:用户标识,地理位置标识和时间标识。即每一行表示:某个用户在某时间去过某地点。值得说明的是,输入数据中有一部分用户的属性是未本文档来自技高网
...

【技术保护点】
基于时空轨迹的用户属性与社会网络检测系统,其特征在于,包括:数据处理子系统,实现输入数据的预处理,包括将所有用户的时空轨迹处理成容易进行后续操作的三阶张量形式;社会网络建模子系统,通过分析用户的时空轨迹数据,建立用户的社会网络模型,并以邻接矩阵的形式存储;特征提取子系统,降低用户时空轨迹的维度,从用户的时空轨迹数据中提取出有价值的特征,使提取出的特征适用于现有的分类算法。分类预测子系统,利用用户的隐含特征训练多种分类器,使用已知属性的用户隐含特征训练多种分类器对用户,用目标用户的隐含特征进行预测。

【技术特征摘要】
1.基于时空轨迹的用户属性与社会网络检测系统,其特征在于,包括:数据处理子系统,实现输入数据的预处理,包括将所有用户的时空轨迹处理成容易进行后续操作的三阶张量形式;社会网络建模子系统,通过分析用户的时空轨迹数据,建立用户的社会网络模型,并以邻接矩阵的形式存储;特征提取子系统,降低用户时空轨迹的维度,从用户的时空轨迹数据中提取出有价值的特征,使提取出的特征适用于现有的分类算法。分类预测子系统,利用用户的隐含特征训练多种分类器,使用已知属性的用户隐含特征训练多种分类器对用户,用目标用户的隐含特征进行预测。2.根据权利要求1所述基于时空轨迹的用户属性与社会网络检测系统,其特征在于,所述数据处理子系统将所有用户的时空轨迹处理成容易进行后续操作的三阶张量形式,所需的原始的时空轨迹记录包括用户标识、地理位置标识和时间标识,数据处理子系统建立一个元素全为零的三阶张量,其中行数=用户标识数,列数=地理位置标识数,管数=时间段标识数,即三阶张量的每一行代表一个用户,每一列代表一个地点,每一管代表一个时间段。3.根据权利要求1所述基于时空轨迹的用户属性与社会网络检测系统,其特征在于,所述社会网络建模子系统使用点互信息(PMI,PointwiseMutualInformation)来对用户的共现行为进行分析,从而识别出偶然的共现行为和由于社交关系而出现的共现行为,根据共现行为的次数和可信度对用户间的熟悉度进行排序,以此建立用户的社会网络模型。4.根据权利要求3所述基于时空轨迹的用户属性与社会网络检测系统,其特征在于,所述使用点互信息(PMI,PointwiseMutualInformation)的目的是反映用户ui和用户uj在地点v的共现行为是偶然事件或是社交行为的可能性,PMI越大,用户ui和用户uj具有社交关系的概率越高,用户ui和用户uj在地点v的PMI值计算公式如下:pmiv(ui,uj)=logpv(ui,uj)pv(ui)pv(uj)]]>其中,pv(ui)为在地点v发生的一个出现事件属于用户ui的概率,pv(uj)为在地点v发生的一个出现事件属于用户uj的概率,fv(ui)为用户ui在地点v出现的次数,fv(uj)为用户uj在地点v出现的次数,U是所有用户,pv(ui,uj)为在地点v发生的一个共现事件属于用户ui和用户uj的概率,fv(ui,uj)为用户ui和用户uj在地点v出现共现行为的次数。5.根据权利要求4所述...

【专利技术属性】
技术研发人员:王平辉孙飞扬王迪管晓宏陶敬张岩曹鹏飞贾鹏胡小雨曹宇兰林
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1