当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于先验概率的无监督轨迹访问地点标注方法技术

技术编号:30285002 阅读:24 留言:0更新日期:2021-10-09 21:56
本发明专利技术公开了一种基于先验概率的无监督轨迹访问地点的标注方法。该方法在不依赖标注数据的情况下,建立了综合利用时间信息与空间信息的无监督时空概率模型,对轨迹访问地点进行语义标注。该方法将时空概率分解为访问时刻概率、停留时长概率和空间概率,利用TF

【技术实现步骤摘要】
一种基于先验概率的无监督轨迹访问地点标注方法


[0001]本专利技术涉及时空数据分析和地理信息分析领域,具体涉及一种GNSS轨迹访问地点的语义标注方法。通过手机、GNSS等移动终端产生海量时空轨迹后,基于本专利技术可自动对轨迹进行语义标注,分析用户访问了哪些地方。

技术介绍

[0002]随着手机、GNSS等移动终端的广泛使用和全球定位技术的发展,人类在日常生活中产生了海量带有语义信息的时空轨迹数据,然而单纯的时空轨迹难以解释出行中蕴含的意图、习惯。如何从时空轨迹大数据中分析和理解用户的出行信息,是时空数据分析、公共安全、个性化服务推荐和预测等领域关注的重点。
[0003]根据运动状态的不同,轨迹可以分为不同片段,包括停留和移动片段。其中,停留是指在邻域范围的驻留,通常与用户的活动和出行目的有关。轨迹的语义标注是推断用户在停留片段最可能去的地点,提取用户出行的语义。
[0004]目前已有的轨迹标注方法通常利用监督分类的方法基于真实标注轨迹进行训练从而对访问地点进行推断。但获取大规模的标注数据十分困难,且不同区域不同人群的出行规律具有差异,更换区域后需重新训练,因此急需寻求一种无需标注数据的轨迹自动标注方法。现有的不依赖标注数据的方法仅通过对轨迹访问每个地点的空间概率进行建模,忽略了停留的时间信息,包括停留持续时长和停留开始时刻,而时间信息对于推断真实的访问地点具有重要意义。综上所述,目前缺少一个能够有效组合时间信息和空间信息的无监督语义标注模型。

技术实现思路

[0005]针对上述问题,本专利技术旨在不依赖标注数据的情况下,建立一种综合利用时间信息和空间信息的概率模型对时空轨迹数据的访问地点进行标注,从而提出一种基于时空轨迹数据的语义标注方法,能够突破对真实标注数据依赖的限制,从轨迹数据中学习不同类型地点的访问时间和停留持续时长的先验概率,再综合利用地理对象的拓扑特性和分布计算空间概率,通过建立完善的概率模型来计算访问不同地点的概率,能够系统化地对轨迹进行语义标注,实际应用中具有使用便利性和完备性的先进优势。
[0006]本专利技术提出的基于先验概率的无监督轨迹访问地点标注方法,包括以下步骤:
[0007]步骤1:轨迹噪声和漂移去除。通过计算轨迹中各点的速度和夹角,其中夹角是指各点与其前后两点连线所形成的夹角,去除速度大于速度阈值的点和夹角小于角度阈值而形成尖角的点,从而去除轨迹中的噪声和漂移。
[0008]在本专利技术的一个实施例中,速度阈值设为180km/h,夹角的角度阈值设为30
°
,将速度大于180km/h的轨迹点和夹角小于30
°
的轨迹点去除。
[0009]步骤2:寻找轨迹中的停留。通过密度聚类算法寻找在时空维度中具有明显聚集的高密度簇。传统的密度聚类算法寻找空间上相邻的点,而轨迹具有时间特性,空间相邻而时
间不相邻的轨迹点没有实际含义。因此需重新定义密度聚类算法中的邻域和密度的概念并利用DBSCAN算法寻找停留。
[0010]具体来说,定义每个轨迹点的邻域包含距离该点空间距离小于距离阈值的最长连续子序列。轨迹序列的密度不使用最小点的个数表示,而是使用序列的时间长度表示。将邻域密度超过设定时间阈值的点作为DBSCAN算法中的核心对象,反之标记为噪声点,利用DBSCAN算法寻找轨迹中所有的停留。
[0011]在本专利技术的一个实施例中,所述距离阈值设为100米,时间阈值设为10分钟。
[0012]步骤3:搜索候选地点。计算每个停留的中心位置,停留半径,停留开始时间,停留时长,并利用现有的地理信息数据搜索每个停留周围的候选地点。
[0013]具体来说,停留的中心是通过计算停留中所有时空点的平均位置得到,停留半径为该停留中所有时空点到中心的最大距离。停留区域指以停留中心为圆心,停留半径为半径的圆覆盖的范围。停留开始时间是指该停留中时空点的最小时间。停留时长是指停留中的时空点的最大时间和最小时间之差。地理信息数据包括兴趣点(POI)和兴趣面(ROI),其中ROI能够反映停留区域与地理对象的拓扑特性,POI能够反映区域内各类型地点的比例。本专利技术综合利用这两种数据源获取更为完善的地理对象数据库和空间信息。停留的候选地点指与停留中心距离小于设定的搜索半径的地理对象,对于兴趣点来说是指地理对象到停留中心距离小于搜索半径,对于兴趣面来说是指地理对象与停留区域相交。
[0014]在本专利技术的一个实施例中,搜索半径设置为200米。
[0015]步骤4:计算停留周围的候选地点的时空概率。停留的属性包括停留中心(x,y),停留时长dur,停留开始时刻t,依据贝叶斯准则可建立概率公式如下:
[0016][0017]其中,O
i
表示停留的一个候选地点,P(O
i
|(x,y),t,dur)表示停留中心为(x,y),停留时长为dur,停留开始时刻为t的条件下,访问地点O
i
的概率;P((x,y),t,dur,O
i
)表示停留与候选地点O
i
的联合概率;P((x,y),t,dur)表示停留出现的概率,对于同一个停留为常数。
[0018]利用贝叶斯公式,对P((x,y),t,dur,O
i
)计算如下:
[0019][0020]将公式(2)带入公式(1)可得:
[0021][0022]假设(x,y)和t关于O
i
是条件独立事件,(x,y)和dur关于O
i
是条件独立事件,则:
[0023][0024]其中对同一个停留的不同候选地点相同,因此只需要考虑P(t|O
i
,dur)
·
P(dur|O
i
)
·
P(O
i
|(x,y))三项,将三项分别称为访问时刻概率、停留时长概率和空间概率。对三项依次进行计算,方法如下:
[0025]步骤4.1:计算空间概率P(O
i
|(x,y))。
[0026]空间概率的计算是在依据距离和拓扑关系计算每个候选地点的相对空间概率后,进行归一化得到。本专利技术同时考虑兴趣点和兴趣面两种数据源。
[0027]在本专利技术的一个实施例中,兴趣点使用POI数据,兴趣面使用OSM数据。
[0028]其中,兴趣面的空间概率的计算是依据拓扑特性,候选地理对象与停留区域的拓扑关系包括包含、相交、相离三种。停留区域是指以停留中心为圆心,停留半径为半径的圆,将停留SP的停留区域记为S
SP
,面对象O
i
的地理范围记为则地理对象O
i
的相对空间概率可表示为:
[0029][0030]其中,P
relative
(O
i
|(x,y))表示候选地点O
i
的相对空间概率,contain表示包含,intersect表示相交但不包含,di本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种无监督轨迹访问地点标注方法,包括以下步骤:1)去除轨迹中的噪声和漂移:计算轨迹中各点的速度和夹角,去除速度大于速度阈值的点和夹角小于角度阈值的点,其中所述夹角是指各点与其前后两点连线所形成的夹角;2)寻找轨迹中的停留:定义每个轨迹点的邻域包含距离该点空间距离小于距离阈值的最长连续子序列,轨迹序列的密度使用序列的时间长度表示;将邻域密度超过设定时间阈值的点作为DBSCAN算法中的核心对象,反之标记为噪声点,利用DBSCAN算法寻找轨迹中所有的停留;3)搜索候选地点:计算每个停留的中心位置、停留半径、停留开始时间、停留时长,并利用现有的地理信息数据搜索每个停留周围的候选地点;4)计算候选地点的时空概率:停留的属性包括停留中心(x,y),停留时长dur,停留开始时刻t,依据贝叶斯准则建立概率公式如下:公式(1)中O
i
表示停留的一个候选地点,P(O
i
|(x,y),t,dur)表示停留中心为(x,y),停留时长为dur,停留开始时刻为t的条件下,访问地点O
i
的概率;P((x,y),t,dur,O
i
)表示停留与候选地点O
i
的联合概率;P((x,y),t,dur)表示表示停留出现的概率,对于同一个停留为常数;利用贝叶斯公式,对P((x,y),t,dur,O
i
)计算如下:将公式(2)带入公式(1)可得:假设(x,y)和t关于O
i
是条件独立事件,(x,y)和dur关于O
i
是条件独立事件,则:其叶对同一个停留的不同候选地点相同,计算访问时刻概率P(t|O
i
,dur)、停留时长概率P(dur|O
i
)和空间概率P(O
i
|(x,y)),得到候选地点的时空概率P(t|O
i
,dur)
·
P(dur|O
i
)
·
P(O
i
|(x,y));5)根据时空概率对所有的停留的访问地点进行标注,每个停留的访问地点为该停留候选地点中时空概率最高的地点。2.如权利要求1所述的标注方法,其特征在于,步骤1)中所述速度阈值设为180km/h,角度阈值设为30
°
,将速度大于180km/h的轨迹点和夹角小于30
°
的轨迹点去除。
3.如权利要求1所述的标注方法,其特征在于,步骤2)中所述距离阈值设为100米,时间阈值设为10分钟。4.如权利要求1所述的标注方法,其特征在于,步骤3)中通过计算停留中所有时空点的平均位置得到停留的中心点,停留半径为该停留中所有时空点到中心点的最大距离;停留区域指以停留中心为圆心,停留半径为半径的圆覆盖的范围;停留开始时间是指停留中时空点的最小时间;停留时长是指停留中的时空点的最大时间和最小时间之差;地理信息数据包括兴趣点和兴趣面,停留的候选地点指与停留中心距离小于设定的搜索半径的地理对象,对于兴趣点来说是指地理对象到停留中心距离小于搜索半径,对于兴趣面来说是指地理对象与停留区域相交。5.如权利要求4所述的标注方法,其特征在于,在步骤4)中通过下述方法计算空间概率P(O
i
|(x,y)):对于候选地点O
i
为兴趣面的情况,候选地点与停留区域的拓扑关系包括包含、相交、相离三种,停留区域记为S
SP
,O
i
的地理范围记为则O
i
的相对空间概率表示为:其中,P
relative
(O
i
|(x,y))表示候选地点O
i
的相对空间概率,contain表示包含,intersect表示相交但不包含,disjoint表示相离,表示和S
SP
的相交部分的面积,Area
SP
表示停留区域的面积,表示到SP圆心的最小距离,Searchradius表示在搜索候选地点时的半径,r
SP
为停留半径;对于候选地点O
i
为兴趣点的情况,O
i
的相对空间概率计算公式如下:其中表示O
i
到停留中心的距离,σ为高斯分布参数;计算完所有候选地点的相对空间概率后,通过归一化计算各候选地点的空间概率,计算公式如下:其中,∑
i
P
relative
(O
i
|(x,y))表示停留的所有候选地点的相对空间概率之和。6.如权利要求4所述的标注方法,其特征在于,在步骤4)中计算停留时长概率P(dur|O
i
)的方法是:将停留时长划分为不同的区间[dur1,dur2...dur
m
...],若停留SP
i<...

【专利技术属性】
技术研发人员:张显峰程俊毅孙权黄杰
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1