The invention provides a user attribute and social network detection system based on spatio-temporal trajectory, based on the analysis of user behavior patterns, the true identity of the user attribute prediction, including data processing, social network modeling, feature extraction and classification of the four subsystems; trajectory data analysis; according to the trajectory data, put forward the original method of mutual information based on social network model of the user; the original non negative tensor factorization (NTF) algorithm to automatically extract implicit features of the user; using the user's implicit features used multiple classifiers to predict user attributes; the invention can be used for the authenticity of the user attribute detection; also can be used for users of social networks detection; can also according to the prediction of the property and social network, to push accurate information and referral.
【技术实现步骤摘要】
本专利技术属于数据挖掘
,特别涉及一种基于时空轨迹的用户属性与社会网络检测系统。
技术介绍
随着互联网技术的应用与发展,互联网用户越来越多。互联网具有虚拟性,用户在互联网上的资料并不一定是其真实属性,为了提高互联网的安全性,需要确保用户身份的真实性。此外,了解用户的社会关系在维护公共安全、反恐等问题中也有重要的应用。移动通信技术的发展和智能移动设备(如智能手机、平板电脑)的快速普及,使移动设备与用户之间的联系越来越密切,而许多移动设备和APP能够记录用户的行动。于是利用用户行为对用户属性和社会网络做出推断这一问题吸引了很多研究人员的关注。这里我们主要关注移动设备记录下的用户地理位置信息。例如,许多用户喜欢在微信、微博等社交平台上发布自己的消息;使用移动设备上的购物或团购APP;使用地图和导航功能;为了能够随时使用这些功能,大多数用户会长时间开启GPS、WIFI或4G通讯。开发上述APP的第三方供应商以及网络运营商能够获取到用户的使用记录,再通过一些方法分析出这些记录产生的时间和地点。例如,如果一个用户用手机发布了一条微博,APP可以通过4G基站信息和手机内置的GPS功能获取当前的地理位置;网络运营商可以通过多个基站对用户的地理位置进行定位。将一个用户的每一条时间地点记录组成一个序列,就得到了一个用户的时空轨迹。时空轨迹反映了用户的行动模式。目前已经有一些方法通过分析用户的时空轨迹来推断用户属性,但是这些方法都是基于地理位置的语义信息来做的。例如,一个微博用户在几个不同地点发布了微博消息,为了判断这名用户的属性(如性别、职业),传统方法需要知道微博发 ...
【技术保护点】
基于时空轨迹的用户属性与社会网络检测系统,其特征在于,包括:数据处理子系统,实现输入数据的预处理,包括将所有用户的时空轨迹处理成容易进行后续操作的三阶张量形式;社会网络建模子系统,通过分析用户的时空轨迹数据,建立用户的社会网络模型,并以邻接矩阵的形式存储;特征提取子系统,降低用户时空轨迹的维度,从用户的时空轨迹数据中提取出有价值的特征,使提取出的特征适用于现有的分类算法。分类预测子系统,利用用户的隐含特征训练多种分类器,使用已知属性的用户隐含特征训练多种分类器对用户,用目标用户的隐含特征进行预测。
【技术特征摘要】
1.基于时空轨迹的用户属性与社会网络检测系统,其特征在于,包括:数据处理子系统,实现输入数据的预处理,包括将所有用户的时空轨迹处理成容易进行后续操作的三阶张量形式;社会网络建模子系统,通过分析用户的时空轨迹数据,建立用户的社会网络模型,并以邻接矩阵的形式存储;特征提取子系统,降低用户时空轨迹的维度,从用户的时空轨迹数据中提取出有价值的特征,使提取出的特征适用于现有的分类算法。分类预测子系统,利用用户的隐含特征训练多种分类器,使用已知属性的用户隐含特征训练多种分类器对用户,用目标用户的隐含特征进行预测。2.根据权利要求1所述基于时空轨迹的用户属性与社会网络检测系统,其特征在于,所述数据处理子系统将所有用户的时空轨迹处理成容易进行后续操作的三阶张量形式,所需的原始的时空轨迹记录包括用户标识、地理位置标识和时间标识,数据处理子系统建立一个元素全为零的三阶张量,其中行数=用户标识数,列数=地理位置标识数,管数=时间段标识数,即三阶张量的每一行代表一个用户,每一列代表一个地点,每一管代表一个时间段。3.根据权利要求1所述基于时空轨迹的用户属性与社会网络检测系统,其特征在于,所述社会网络建模子系统使用点互信息(PMI,PointwiseMutualInformation)来对用户的共现行为进行分析,从而识别出偶然的共现行为和由于社交关系而出现的共现行为,根据共现行为的次数和可信度对用户间的熟悉度进行排序,以此建立用户的社会网络模型。4.根据权利要求3所述基于时空轨迹的用户属性与社会网络检测系统,其特征在于,所述使用点互信息(PMI,PointwiseMutualInformation)的目的是反映用户ui和用户uj在地点v的共现行为是偶然事件或是社交行为的可能性,PMI越大,用户ui和用户uj具有社交关系的概率越高,用户ui和用户uj在地点v的PMI值计算公式如下:pmiv(ui,uj)=logpv(ui,uj)pv(ui)pv(uj)]]>其中,pv(ui)为在地点v发生的一个出现事件属于用户ui的概率,pv(uj)为在地点v发生的一个出现事件属于用户uj的概率,fv(ui)为用户ui在地点v出现的次数,fv(uj)为用户uj在地点v出现的次数,U是所有用户,pv(ui,uj)为在地点v发生的一个共现事件属于用户ui和用户uj的概率,fv(ui,uj)为用户ui和用户uj在地点v出现共现行为的次数。5.根据权利要求4所述...
【专利技术属性】
技术研发人员:王平辉,孙飞扬,王迪,管晓宏,陶敬,张岩,曹鹏飞,贾鹏,胡小雨,曹宇,兰林,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。