【技术实现步骤摘要】
一种基于先验概率的无监督轨迹访问地点标注方法
[0001]本专利技术涉及时空数据分析和地理信息分析领域,具体涉及一种GNSS轨迹访问地点的语义标注方法。通过手机、GNSS等移动终端产生海量时空轨迹后,基于本专利技术可自动对轨迹进行语义标注,分析用户访问了哪些地方。
技术介绍
[0002]随着手机、GNSS等移动终端的广泛使用和全球定位技术的发展,人类在日常生活中产生了海量带有语义信息的时空轨迹数据,然而单纯的时空轨迹难以解释出行中蕴含的意图、习惯。如何从时空轨迹大数据中分析和理解用户的出行信息,是时空数据分析、公共安全、个性化服务推荐和预测等领域关注的重点。
[0003]根据运动状态的不同,轨迹可以分为不同片段,包括停留和移动片段。其中,停留是指在邻域范围的驻留,通常与用户的活动和出行目的有关。轨迹的语义标注是推断用户在停留片段最可能去的地点,提取用户出行的语义。
[0004]目前已有的轨迹标注方法通常利用监督分类的方法基于真实标注轨迹进行训练从而对访问地点进行推断。但获取大规模的标注数据十分困难,且不同区域不同人群的出行规律具有差异,更换区域后需重新训练,因此急需寻求一种无需标注数据的轨迹自动标注方法。现有的不依赖标注数据的方法仅通过对轨迹访问每个地点的空间概率进行建模,忽略了停留的时间信息,包括停留持续时长和停留开始时刻,而时间信息对于推断真实的访问地点具有重要意义。综上所述,目前缺少一个能够有效组合时间信息和空间信息的无监督语义标注模型。
技术实现思路
[0005]针对上述问题, ...
【技术保护点】
【技术特征摘要】
1.一种无监督轨迹访问地点标注方法,包括以下步骤:1)去除轨迹中的噪声和漂移:计算轨迹中各点的速度和夹角,去除速度大于速度阈值的点和夹角小于角度阈值的点,其中所述夹角是指各点与其前后两点连线所形成的夹角;2)寻找轨迹中的停留:定义每个轨迹点的邻域包含距离该点空间距离小于距离阈值的最长连续子序列,轨迹序列的密度使用序列的时间长度表示;将邻域密度超过设定时间阈值的点作为DBSCAN算法中的核心对象,反之标记为噪声点,利用DBSCAN算法寻找轨迹中所有的停留;3)搜索候选地点:计算每个停留的中心位置、停留半径、停留开始时间、停留时长,并利用现有的地理信息数据搜索每个停留周围的候选地点;4)计算候选地点的时空概率:停留的属性包括停留中心(x,y),停留时长dur,停留开始时刻t,依据贝叶斯准则建立概率公式如下:公式(1)中O
i
表示停留的一个候选地点,P(O
i
|(x,y),t,dur)表示停留中心为(x,y),停留时长为dur,停留开始时刻为t的条件下,访问地点O
i
的概率;P((x,y),t,dur,O
i
)表示停留与候选地点O
i
的联合概率;P((x,y),t,dur)表示表示停留出现的概率,对于同一个停留为常数;利用贝叶斯公式,对P((x,y),t,dur,O
i
)计算如下:将公式(2)带入公式(1)可得:假设(x,y)和t关于O
i
是条件独立事件,(x,y)和dur关于O
i
是条件独立事件,则:其叶对同一个停留的不同候选地点相同,计算访问时刻概率P(t|O
i
,dur)、停留时长概率P(dur|O
i
)和空间概率P(O
i
|(x,y)),得到候选地点的时空概率P(t|O
i
,dur)
·
P(dur|O
i
)
·
P(O
i
|(x,y));5)根据时空概率对所有的停留的访问地点进行标注,每个停留的访问地点为该停留候选地点中时空概率最高的地点。2.如权利要求1所述的标注方法,其特征在于,步骤1)中所述速度阈值设为180km/h,角度阈值设为30
°
,将速度大于180km/h的轨迹点和夹角小于30
°
的轨迹点去除。
3.如权利要求1所述的标注方法,其特征在于,步骤2)中所述距离阈值设为100米,时间阈值设为10分钟。4.如权利要求1所述的标注方法,其特征在于,步骤3)中通过计算停留中所有时空点的平均位置得到停留的中心点,停留半径为该停留中所有时空点到中心点的最大距离;停留区域指以停留中心为圆心,停留半径为半径的圆覆盖的范围;停留开始时间是指停留中时空点的最小时间;停留时长是指停留中的时空点的最大时间和最小时间之差;地理信息数据包括兴趣点和兴趣面,停留的候选地点指与停留中心距离小于设定的搜索半径的地理对象,对于兴趣点来说是指地理对象到停留中心距离小于搜索半径,对于兴趣面来说是指地理对象与停留区域相交。5.如权利要求4所述的标注方法,其特征在于,在步骤4)中通过下述方法计算空间概率P(O
i
|(x,y)):对于候选地点O
i
为兴趣面的情况,候选地点与停留区域的拓扑关系包括包含、相交、相离三种,停留区域记为S
SP
,O
i
的地理范围记为则O
i
的相对空间概率表示为:其中,P
relative
(O
i
|(x,y))表示候选地点O
i
的相对空间概率,contain表示包含,intersect表示相交但不包含,disjoint表示相离,表示和S
SP
的相交部分的面积,Area
SP
表示停留区域的面积,表示到SP圆心的最小距离,Searchradius表示在搜索候选地点时的半径,r
SP
为停留半径;对于候选地点O
i
为兴趣点的情况,O
i
的相对空间概率计算公式如下:其中表示O
i
到停留中心的距离,σ为高斯分布参数;计算完所有候选地点的相对空间概率后,通过归一化计算各候选地点的空间概率,计算公式如下:其中,∑
i
P
relative
(O
i
|(x,y))表示停留的所有候选地点的相对空间概率之和。6.如权利要求4所述的标注方法,其特征在于,在步骤4)中计算停留时长概率P(dur|O
i
)的方法是:将停留时长划分为不同的区间[dur1,dur2...dur
m
...],若停留SP
i<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。