【技术实现步骤摘要】
用户属性信息的获取方法和装置
本申请涉及计算机
,具体涉及终端
,尤其涉及用户属性信息的获取方法和装置。
技术介绍
随着移动互联网技术的发展和位置服务应用的普及,产生了大量的用户轨迹数据。由于用户轨迹数据与用户的属性信息具有密切的关系,不同用户之间的移动特征具有较高的独立性,具有社交关系的用户之间的运动特征又具有一定的关联性,因此轨迹数据可以用来分析用户的个人属性信息和社交属性信息。目前已提出了多种基于轨迹数据分析用户属性信息的方法。可以分析轨迹数据之间的相似性,从而确定轨迹数据对应的用户间的社交关系属性。这些方法通常对轨迹数据的质量有较高的要求,对于稀疏或不规则的轨迹数据分析结果的准确性较差。在大规模的轨迹数据分析中,由于轨迹数据的数据密度、采用频率、时间分布相差较大,且轨迹数据基于不同电子设备或不同用户标识获取,目前的轨迹特征提取方法无法针对大规模的轨迹数据提取出有效的、鲁棒性强的特征进行相似性分析,故而无法对用户属性信息进行准确的估计。
技术实现思路
有鉴于此,期望能够提供一种适用于大规模轨迹数据分析的用户属性信息的获取方法,进一步地,还期望能够提供一种获取大量用户属性信息的轨迹数据分析方法。为了解决上述一个或多个问题,本申请提供了用户属性信息的获取方法和装置。一方面,本申请提供了一种用户属性信息的获取方法,包括:获取轨迹数据,所述轨迹数据包括多个轨迹点的时间信息和位置信息;对所述轨迹数据进行预处理,得到待处理轨迹数据;分析所述待处理轨迹数据间的相关性,以提取出所 ...
【技术保护点】
一种用户属性信息的获取方法,其特征在于,包括:获取轨迹数据,所述轨迹数据包括多个轨迹点的时间信息和位置信息;对所述轨迹数据进行预处理,得到待处理轨迹数据;分析所述待处理轨迹数据间的相关性,以提取出所述待处理轨迹数据的相关轨迹数据集合;计算所述待处理轨迹数据与所述相关轨迹数据集合的相似度;根据所述相似度确定所述待处理轨迹数据对应的用户属性信息。
【技术特征摘要】
1.一种用户属性信息的获取方法,其特征在于,包括:
获取轨迹数据,所述轨迹数据包括多个轨迹点的时间信息和位置信息,所述轨迹点是停留时间超过一个阈值的地理位置点;
对所述轨迹数据进行预处理,得到待处理轨迹数据;
分析所述待处理轨迹数据间的相关性,以提取出所述待处理轨迹数据的相关轨迹数据集合;
计算所述待处理轨迹数据与所述相关轨迹数据集合的相似度,所述相似度包括第一相似度;
根据所述相似度确定所述待处理轨迹数据对应的用户属性信息;
其中,所述根据所述相似度确定所述待处理轨迹数据对应的用户属性信息,包括:
根据所述第一相似度确定所述待处理轨迹数据对应的用户与所述相关轨迹数据集合中的各所述相关轨迹数据对应的用户之间的社交关系的等级;
基于所述社交关系等级确定所述待处理轨迹数据对应的用户属性信息。
2.根据权利要求1所述的方法,其特征在于,所述对所述轨迹数据进行预处理,得到待处理轨迹数据,包括:
将地图划分为网格,构建多个分层图,其中,各分层图对应的网格尺寸互不相同;
将所述轨迹数据映射到所述多个分层图中,得到所述待处理轨迹数据。
3.根据权利要求2所述的方法,其特征在于,所述对所述轨迹数据进行预处理,以得到待处理轨迹数据,还包括:
根据所述轨迹点的时间信息和位置信息计算所述轨迹数据对应的用户单位时间内的移动距离,并剔除所述移动距离超过第一距离阈值的轨迹点;
根据所述时间信息和位置信息计算每个轨迹点的停留时间,剔除停留时间低于第一时间阈值的轨迹点。
4.根据权利要求2所述的方法,其特征在于,所述分析所述待处理轨迹数据间的相关性,以提取出所述待处理轨迹数据的相关轨迹数据集合,包括:
对每一个所述待处理轨迹数据执行以下操作:
将与当前待处理轨迹共同出现的网格数量超过预设网格数量阈值的其他待处理轨迹添加至所述当前待处理轨迹数据的相关轨迹数据集合。
5.根据权利要求2所述的方法,其特征在于,所述计算所述待处理轨迹数据与所述相关轨迹数据集合的相似度,包括:
对于所述相关轨迹数据集合中的每一个相关轨迹数据,在各分层图中基于所述待处理轨迹数据与所述相关轨迹数据集合中的每一条相关轨迹数据建立相关度观测信号;
根据所述相关度观测信号计算各分层图对应的相关度激励信号;
基于所述相关度激励信号计算各分层图中所述待处理轨迹数据与所述相关轨迹数据的分层相似度;
对各分层图对应的分层相似度进行求和,得出所述待处理轨迹数据与所述相关轨迹数据的第一相似度。
6.根据权利要求5所述的方法,其特征在于,所述根据所述相关度观测信号计算各分层图对应的相关度激励信号,包括:
将所述相关度观测信号作为初始相关度激励信号,根据所述初始相关度激励信号以及距离衰减系数计算出多个所述相关度激励信号。
7.根据权利要求6所述的方法,其特征在于,所述根据所述初始相关度激励信号以及距离衰减系数计算出多个所述相关度激励信号,包括:
在所述相关度观测信号对应的地理位置周围的预设距离范围内设定多个地理位置点并按照所述地理位置点与所述相关度观测信号对应的地理位置之间的距离的升序对所述地理位置点进行排序;
第i个地理位置点对应的相关度激励信号Ji为:
其中,G1为初始相关度激励信号,Gj为第j个地理位置点对应的相关度激励信号,Lj第j个地理位置点与所述相关度观测信号对应的地理位置之间的距离,i≥1,1≤j≤i-1,r为距离衰减系数,0<r<1。
8.根据权利要求1所述的方法,其特征在于,所述相似度还包括第二相似度;
所述计算所述待处理轨迹数据与所述相关轨迹数据集合的相似度,还包括:
基于所述待处理轨迹数据与所述相关轨迹数据的轨迹点的交集数量计算所述待处理轨迹数据与所述相关轨迹数据的第二相似度;以及
所述根据所述相似度确定所述待处理轨迹数据对应的用户属性信息,还包括:
根据所述第一相似度和所述第二相似度确定所述待处理轨迹数据与所述相关轨迹数据是否对应于同一用户。
9.根据权利要求8所述的方法,其特征在于,所述根据所述第一相似度和所述第二相似度确定所述待处理轨迹数据与所述相关轨迹数据是否对应于同一用户,包括:
判断所述第一相似度是否大于第一预设阈值以及所述第二相似度是否大于第二预设阈值;
若所述第一相似度大于第一预设阈值且所述第二相似度大于第二预设阈值,确定所述待处理轨迹数据与所...
【专利技术属性】
技术研发人员:吴海山,武政伟,郝天一,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。