The invention discloses a method of multi-source data including group activity trajectory data collection method and system, based on the background: to obtain the original mobile terminal signaling data and the original social software and attendance data preprocessing, generated in accordance with specific format to be processed in signaling data and data to be processed; the background activity from the point trajectory data to be processed signaling data the construction of learning; and group activities of prior information; acquiring point track data, get the location data; the background based on point track data and group activities of prior information, location data, the activity of locus semantic information markers based on Bayesian model, generating spatio-temporal trajectory chain. The invention adopts a Bayesian model for individual activity inference, and considering the temporal trajectory of a moment ago in the activity type influence on moment by activity type, realize the massive group activities of accurate and quick and efficient extraction and collection.
【技术实现步骤摘要】
本专利技术涉及数据处理
,尤其涉及基于多源时空轨迹数据的群体活动数据收集方法及系统。
技术介绍
传统的活动搜集方法依赖于活动日志或活动调查,样本量少,搜集时间长,耗时耗力。时空轨迹数据的爆发为大规模群体活动的采集提供了新手段。时空数据分析相关研究主要关注现实空间中的个体活动识别,尤其是出行活动,缺乏对活动基本属性信息的提取。需要发展融合多源时空轨迹数据的群体活动提取方法,为基于海量活动的城市科学研究奠定数据基础。时空轨迹数据(如手机信令数据、车辆GPS数据、社交签到数据等)虽然包含丰富的时间信息和位置信息,但是语义信息相对缺乏,且时空分辨率各不相同,无法直接提供群体活动信息。因此,现有技术还有待于改进和发展。
技术实现思路
鉴于现有技术的不足,本专利技术目的在于提供一种基于多源时空轨迹数据的群体活动数据收集方法及系统。本专利技术的技术方案如下:一种基于多源时空轨迹数据的群体活动数据收集方法,其中,方法包括:A、后台获取原始移动终端信令数据和原始社交软件签到数据,分别对原始移动终端信令数据和原始社交软件签到数据进行预处理,生成的对应符合特定格式的待处理信令数据和待处理签到数据;B、后台通过预先设定时间和空间的规则,从待处理信令数据中提取活动点,得到的活动点轨迹数据;根据待处理签到数据中的签到类别信息,构建并学习群体活动规律的先验信息;获取活动点轨迹数据,获取活动地点数据;C、后台根据活动点轨迹数据、群体活动规律的先验信息、活动地点数据,采用基于贝叶斯模型进行活动点轨迹语义信息标记,生成活动时空轨迹链。所述的基于多源时空轨迹数据的群体活动数据收集方法,其中 ...
【技术保护点】
一种基于多源时空轨迹数据的群体活动数据收集方法,其特征在于,所述方法包括:A、后台获取原始移动终端信令数据和原始社交软件签到数据,分别对原始移动终端信令数据和原始社交软件签到数据进行预处理,生成的对应符合特定格式的待处理信令数据和待处理签到数据;B、后台通过预先设定时间和空间的规则,从待处理信令数据中提取活动点,得到的活动点轨迹数据;根据待处理签到数据中的签到类别信息,构建并学习群体活动规律的先验信息;获取活动点轨迹数据,获取活动地点数据;C、后台根据活动点轨迹数据、群体活动规律的先验信息、活动地点数据,采用基于贝叶斯模型进行活动点轨迹语义信息标记,生成活动时空轨迹链。
【技术特征摘要】
1.一种基于多源时空轨迹数据的群体活动数据收集方法,其特征在于,所述方法包括:A、后台获取原始移动终端信令数据和原始社交软件签到数据,分别对原始移动终端信令数据和原始社交软件签到数据进行预处理,生成的对应符合特定格式的待处理信令数据和待处理签到数据;B、后台通过预先设定时间和空间的规则,从待处理信令数据中提取活动点,得到的活动点轨迹数据;根据待处理签到数据中的签到类别信息,构建并学习群体活动规律的先验信息;获取活动点轨迹数据,获取活动地点数据;C、后台根据活动点轨迹数据、群体活动规律的先验信息、活动地点数据,采用基于贝叶斯模型进行活动点轨迹语义信息标记,生成活动时空轨迹链。2.根据权利要求1所述的基于多源时空轨迹数据的群体活动数据收集方法,其特征在于,所述A具体包括:A1、后台获取原始移动终端信令数据,对原始移动终端信令数据进行质量清洗,去除重复数据,去除属性缺失的数据,去除时间和空间不在预定范围内的数据,去除用户点数量小于或大于一定阈值的用户数据,生成预处理信令数据;A2、后台获取原始社交软件签到数据,对原始社交软件签到数据进行质量清洗,去除重复数据,去除属性缺失的数据,去除时间和空间不在研究范围内的数据,去除用户签到数量在一定范围的用户数据,去除只在一个地点签到的用户数据,生成预处理签到数据;A3、将预处理信令数据与预处理签到数据的空间分辨率根据预定规则格网的尺度的分辨率进行转换,生成对应的待处理信令数据和待处理签到数据。3.根据权利要求1所述的基于多源时空轨迹数据的群体活动数据收集方法,其特征在于,所述B中通过预先设定时间和空间的规则,从待处理信令数据中提取活动点,得到的活动点轨迹数据具体包括:B11、后台获取待处理信令数据,将人和时间按照特定的时间规则进行排序,得到的人的时序轨迹;B12、根据人的时序轨迹,计算人进入和离开特定位置的时间,依次将人进入的各个位置设置为活动点,并将人进入的第一个位置设为活动点轨迹中的第一个活动点;B13、计算时序轨迹中每一点与已有的活动点的空间距离与时间差值,若空间距离小于设定阈值,且时间差值小于设定阈值,则将所述点加入活动点,否则,将所述点设为新的活动点,直到时序轨迹中所有点全部计算完毕,得到候选活动点轨迹;B14、获取候选活动点轨迹中的候选活动点,当检测到候选活动点的进入时间和离开时间的差值小于第二设定阈值,则将对应候选活动点从候选活动点轨迹中移除后,生成活动点轨迹数据。4.根据权利要求3所述的基于多源时空轨迹数据的群体活动数据收集方法,其特征在于,所述B中根据待处理签到数据中的签到类别信息,构建并学习群体活动规律的先验信息具体包括:B21、根据社交签到平台的签到类别以及用户在一天内不同时间段的签到数据总量,计算得到不同群体活动在一天内的强度概率分布;B22、根据用户的签到数据,计算不同群体活动在不同时间下的活动转移概率分布;B23、根据用户的签到数据,计算不同的区域进行不同群体活动的概率分布。5.根据权利要求4所述的基于多源时空轨迹数据的群体活动数据收集方法,其特征在于,所述B中获取活动点轨迹数据,获取活动地点数据具体包括:B31、预先设定人的活动地点的时间识别窗口,分别记为第一活动窗口、第二活动窗口;B32、获取人的活动点轨迹数据,将活动点持续时间分别与第一活动窗口和第二活动窗口进行匹配,若活动点的持续时间落在某一活动窗口内,并占总活动窗口时间长度的50%以上,则该活动点对应所述活动窗口对应的活动地点作为候选活动位置;B33、获取匹配时间最长的的候选活动位置作为用户的活动地点数据。6.根据权利要求5所述的基于多源时空轨迹数据的群体活动数据收集方法,其特征在于,所述C具体包括:C1、根据贝叶斯模型,以及给定的位置、时间以及前一个时刻的活动类型后,生成下一时刻进行某一类型活动的概率公式;C2、根据活动点轨迹数据中的各个活动点,计算从事不同活动的概率大小,获取最大概率的活动标记为所述活动点的最大概率活动类型;C3、将活动点轨迹数据中的所有活动点标记...
【专利技术属性】
技术研发人员:涂伟,曹劲舟,李清泉,乐阳,曹瑞,王振声,
申请(专利权)人:深圳大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。