一种通用的POI信息关联方法技术

技术编号:15117853 阅读:153 留言:0更新日期:2017-04-09 14:59
本发明专利技术属于互联网广告技术领域,提供了一种通用的POI信息关联方法,包括:提取用户信息中的经纬度数据;对经纬度数据进行清洗;使用上网设备的历史数据补充经纬度数据,实现清洗后用户经纬度数据的扩展;采用基于投影公式的方法关联POI,使用地图平面化动态建立平面地图索引;将地图中建筑物所对应的索引与POI数据库产生的索引进行比较,当比较结果一致时,将地图中的该建筑物关联到用户的GPS坐标和POI数据库中;生成用户不同的POI信息。本发明专利技术采用对提取出来的经纬度数据进行清洗,同时进行扩展,降低了工作量,减少漏掉POI数据的可能,能够合理、快速的在海量数据中计算出每个用户的POI,并且判断出用户当前的POI属性和行为数据。

【技术实现步骤摘要】

本专利技术属于互联网广告
,特别涉及一种通用的POI信息关联方法
技术介绍
互联网广告,由于其互动性强、准确性高的优势在广告结构中的比重逐年提升,并有继续扩大的趋势。2011至2014年,互联网广告的市场规模已经超过了报纸广告规模,名列第二位,市场规模连续保持高速增长。GPS是一种具有全方位、全天候、全时段、高精度的卫星导航系统,能为用户提供低成本、高精度的三维位置、速度和精确定时等导航信息。而目前,上网设备中的应用程序都会从后台获取用户的位置信息,例如:用户日常使用的导航设备,它们帮助用户从起点横穿到目的地位置,并且在整个过程中,导航应用都会持续的获取用户的位置信息。因此在用户行驶的整个过程中,不同的POI随着一起出现,POI是PointOfInterest的缩写,表示用户在当前这个点上的兴趣。如果我们拥有一个用户一天的所有POI数据,我们就可以大概的规划出该用户这一天的行为轨迹,甚至在各个点停留的时间。POI的点十分具有伸缩性,可以是一栋房子、一个写字楼、一个邮筒、一个公交站,也可以到一个公园,一个机场等。用户在任何一个物理位置上都会产生对应的POI,都会产生相关的意图,一但知晓用户在某点上有意图,就可以给用户进行推荐,存在极大的商机。当前的推荐服务种类繁多,人们能够通过网络获取各种推荐信息,推荐书籍、音乐、电影,商品等等,但是没有一种是基于特定用户的POI信息,而进行推荐的,缺乏针对性,适用性不强。POI除了可以贡献于用户在当前点上的推荐服务,还可以根据用户在历史上的POI数据,来推论和记录用户的一些特征,进而形成有针对性的推荐。例如:如果一个用户在工作时间长期出现在一个工作场所,那这里就很有可能是用户的工作地点,而如果一个用户在非工作时间以及周末经常会出现一个住宅区类的POI,那这里很有可能就是用户的居住地点,通过一些POI数据进行关联计算,即可以通过用户的历史POI数据得出相应的知识。进一步地,POI的数量与现实世界的变迁紧密相关。在现实世界中,当一个新的营业处所被创建时,新的POI随着而产生了,而随着POI的大量产生、更新,用户的行为属性也会随着一起更新,随之而来的问题就是,当数据量累积的越来越多,对用户POI判断和计算的难度会逐渐增加。另外,更多的数据也会带来更多的杂音,如何合理、快速的在海量数据中计算出每个用户的POI,是互联网广告
所要解决的问题。因此,互联网广告
急需一种通用的POI信息关联方法,采用POI系统对提取出来的经纬度数据进行清洗,降低工作量,能够合理、快速的在海量数据中计算出每个用户的POI,并且判断出用户当前的POI属性数据和行为数据。
技术实现思路
本专利技术提供了一种通用的POI信息关联方法,技术方案如下:一种通用的POI信息关联方法,包括如下步骤:第一步,提取用户信息中的经纬度数据;第二步,对第一步中提取出来的经纬度数据进行清洗;第三步,使用上网设备的历史数据为第一步中未提取出经纬度数据的URL,补充经纬度数据,实现清洗后用户经纬度数据的扩展;第四步,采用基于投影公式的方法关联POI,使用地图平面化动态建立平面地图索引;第五步,将第四步中地图中建筑物所对应的索引与POI数据库产生的索引进行比较,当比较结果一致时,将地图中的该建筑物关联到用户的GPS坐标和POI数据库中;第六步,生成用户不同的POI信息,包括用户属性数据和行为数据。优选的,在上述一种通用的POI信息关联方法中,第一步中提取用户信息中的经纬度数据的具体步骤为:首先,在任务启动的时候,加载已知的提取规则文件,形成key-value分布式存储系统的键值对,加载到内存中;进一步地,在数据处理阶段,根据加载的既定规则扫描原始流量数据,从原始流量数据中提取出与用户相关的位置信息,例如:在原始流量数据中,与用户位置相关的信息一般都存储在流量数据的URL中,URL是UniformResourceLocator的缩写,表示统一资源定位符,根据URL中的服务器名称,找寻内存中对应的提取规则,使用找到的正则表达式,从URL中进行经纬度数据的提取;进一步地,提取之后,每个用户都会形成一张根据POI系统既定的规则以及正则表达式提取出的用户经纬度坐标数据表。优选的,在上述一种通用的POI信息关联方法中,第二步中使用多个资源文件和统计挖掘2种方式分别对第一步提取出来的经纬度数据进行清洗。优选的,在上述一种通用的POI信息关联方法中,第二步中使用多个资源文件和统计挖掘2种方式分别对第一步提取出来的经纬度数据进行清洗的具体步骤为:当采用多个资源文件对提取的经纬度数据进行清洗时,由于资源表有2个,首先是坐标点的黑名单信息,通过频次分析发现在数据中存在大量的重复经纬度数据,并且重复的经纬度数据关联到不同的用户,由于经纬度数据都精确到了小数点后的四至五位以上,数据本身的重合度很小,但却都存在于提取的数据中,经过分析得出该重复经纬度数据是各个城市的城市中心点,出现这些点的原因是当一个移动端的应用软件不能够获取当前用户的位置信息时,会将当前用户所在的城市中心点作为当前用户的经纬度信息,故此类数据是错误的;因此,将此类经纬度数据列进黑名单,完成对从流量中提取出经纬度数据的初步过滤;同时用户属于的省份区域是固定的,如果用户的经纬度数据不属于该省份内,则将该经纬度数据列入黑名单;当采用统计挖掘算法对提取的经纬度数据进行清洗时,首先打开上网设备应用,会出现定位不准确的现象,此类定位不准确的数据也混入到了流量数据中;对于上网设备产生的流量数据,此类定位不准确的数据是可以被清除掉的,因为上网设备是不变的,用户通过上网设备而发出的位置信息也应该是不变或者变动范围很小的;当数据累计到一个量级时,使用距离公式,能够计算出各个定位点之间的距离,当出现一个点与其他点的距离都大于其他点相互之间的距离时,这个点就被列为异常点,因此,删除此类经纬度数据,对从流量中提取出的经纬度数据做进一步地过滤。优选的,在上述一种通用的POI信息关联方法中,第三步中使用上网设备的历史数据为第一步中未提取出经纬度数据的URL,补充经纬度数据,实现清洗后用户经纬度数据的扩展的具体步骤为:当用户每次使用上网设备上网时,都会在对应的上网设备上发出URL,当提取出该上网设备的经纬度时,会对该上网设备的经纬度数据进行保存;当某一天需要提取该上网设备的经纬度时,即使从本次上网的URL中不能提取出经纬本文档来自技高网
...

【技术保护点】
一种通用的POI信息关联方法,其特征在于,包括如下步骤:第一步,提取用户信息中的经纬度数据;第二步,对所述第一步中提取出来的经纬度数据进行清洗;第三步,使用上网设备的历史数据为所述第一步中未提取出经纬度数据的URL,补充经纬度数据,实现清洗后用户经纬度数据的扩展;第四步,采用基于投影公式的方法关联POI,使用地图平面化动态建立平面地图索引;第五步,将所述第四步中地图中建筑物所对应的索引与POI数据库产生的索引进行比较,当比较结果一致时,将地图中的该建筑物关联到用户的GPS坐标和POI数据库中;第六步,生成用户不同的POI信息,包括用户属性数据和行为数据。

【技术特征摘要】
1.一种通用的POI信息关联方法,其特征在于,包括如下步骤:
第一步,提取用户信息中的经纬度数据;
第二步,对所述第一步中提取出来的经纬度数据进行清洗;
第三步,使用上网设备的历史数据为所述第一步中未提取出经纬度数据的URL,补充经纬度数据,实现清洗后用户经纬度数据的扩展;
第四步,采用基于投影公式的方法关联POI,使用地图平面化动态建立平面地图索引;
第五步,将所述第四步中地图中建筑物所对应的索引与POI数据库产生的索引进行比较,当比较结果一致时,将地图中的该建筑物关联到用户的GPS坐标和POI数据库中;
第六步,生成用户不同的POI信息,包括用户属性数据和行为数据。
2.根据权利要求1所述的一种通用的POI信息关联方法,其特征在于,所述第一步中提取用户信息中的经纬度数据的具体步骤为:
首先,在任务启动的时候,加载已知的提取规则文件,形成key-value分布式存储系统的键值对,加载到内存中;
进一步地,在数据处理阶段,根据加载的既定规则扫描原始流量数据,从原始流量数据中提取出与用户相关的位置信息,在原始流量数据中,与用户位置相关的信息都存储在流量数据的URL中,URL是UniformResourceLocator的缩写,表示统一资源定位符,根据URL中的服务器名称,找寻内存中对应的提取规则,使用找到的正则表达式,从URL中进行经纬度数据的提取;
进一步地,提取之后,每个用户都会形成一张根据POI系统既定的规则以及正则表达式提取出的用户经纬度坐标数据表。
3.根据权利要求1所述的一种通用的POI信息关联方法,其特征在于,所述第二步中使用多个资源文件和统计挖掘2种方式分别对第一步提取出来的经纬度数据进行清洗。
4.根据权利要求3所述的一种通用的POI信息关联方法,其特征在于,所述第二步中使用多个资源文件和统计挖掘2种方式分别对第一步提取出来的经纬度数据进行清洗的具体步骤为:
当采用多个资源文件对提取的经纬度数据进行清洗时,首先是对坐标点的黑名单信息,通过频次分析发现在数据中存在大量的重复经纬度数据,并且重复的经纬度数据关联不同的用户,由于经纬度数据都精确到了小数点后的四至五位以上,数据本身的重合度很小,经过分析得出该重复经纬度数据是各个城市的城市中心点,出现这些点的原因是当一个移动端的应用软件不能够获取当前用户的位置信息时,会将当前用户所在的城市中心点作为当前用户的经纬度信息,故此类数据是错误的;因此,将此类经纬度数据列进黑名单,完成对从流量中提取出经纬度数据的初步过滤;同时用户属于的省份区域是固定的,如果用户的经纬度数据不属于该省份内,则将该经纬度数据列入黑名单;
当采用统计挖掘算法对提取的经纬度数据进行清洗时,首先打开上网设备应用,会出现定位不准确的现象,此类定位不准确的数据也混入到了流量数据中;因为上网设备是不变的,用户通过上网设备而发出的位置信息也应该是不变或者变动范围很小的;当数据累计到一个量级时,使用距离公式,能够计算出各个定位点之间的距离,当出现一个点与其他点的距离都大于其他点相互之间的距离时,这个点就被列为异常点,因此,删除此类经纬度数据,对从流量中提取出的经纬度数据做进一步地过滤。
5.根据权利要求2所述的一种通用的POI信息关联方法,其特征在于,所述第三步中使用上网设备的历史数据为第一步中未提取出经纬度数据的URL,补充经纬度数据,实现清洗后用户经纬度数据的扩展的具体步骤为:
当用户每次使用上网设备上网时,都会在对应的上网设备上发出URL,当提取出该上...

【专利技术属性】
技术研发人员:汤奇峰小米万挺挺
申请(专利权)人:晶赞广告上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1