【技术实现步骤摘要】
本专利技术属于互联网广告
,特别涉及一种通用的POI信息关联方法。
技术介绍
互联网广告,由于其互动性强、准确性高的优势在广告结构中的比重逐年提升,并有继续扩大的趋势。2011至2014年,互联网广告的市场规模已经超过了报纸广告规模,名列第二位,市场规模连续保持高速增长。GPS是一种具有全方位、全天候、全时段、高精度的卫星导航系统,能为用户提供低成本、高精度的三维位置、速度和精确定时等导航信息。而目前,上网设备中的应用程序都会从后台获取用户的位置信息,例如:用户日常使用的导航设备,它们帮助用户从起点横穿到目的地位置,并且在整个过程中,导航应用都会持续的获取用户的位置信息。因此在用户行驶的整个过程中,不同的POI随着一起出现,POI是PointOfInterest的缩写,表示用户在当前这个点上的兴趣。如果我们拥有一个用户一天的所有POI数据,我们就可以大概的规划出该用户这一天的行为轨迹,甚至在各个点停留的时间。POI的点十分具有伸缩性,可以是一栋房子、一个写字楼、一个邮筒、一个公交站,也可以到一个公园,一个机场等。用户在任何一个物理位置上都会产生对应的POI,都会产生相关的意图,一但知晓用户在某点上有意图,就可以给用户进行推荐,存在极大的商机。当前的推荐服务种类繁多,人们能够通过网络获取各种推荐信息,推荐书籍、音乐、电影,商品等等,但是没有一种是基于特定用户的POI信息,而进行推荐的,缺乏针对 ...
【技术保护点】
一种通用的POI信息关联方法,其特征在于,包括如下步骤:第一步,提取用户信息中的经纬度数据;第二步,对所述第一步中提取出来的经纬度数据进行清洗;第三步,使用上网设备的历史数据为所述第一步中未提取出经纬度数据的URL,补充经纬度数据,实现清洗后用户经纬度数据的扩展;第四步,采用基于投影公式的方法关联POI,使用地图平面化动态建立平面地图索引;第五步,将所述第四步中地图中建筑物所对应的索引与POI数据库产生的索引进行比较,当比较结果一致时,将地图中的该建筑物关联到用户的GPS坐标和POI数据库中;第六步,生成用户不同的POI信息,包括用户属性数据和行为数据。
【技术特征摘要】
1.一种通用的POI信息关联方法,其特征在于,包括如下步骤:
第一步,提取用户信息中的经纬度数据;
第二步,对所述第一步中提取出来的经纬度数据进行清洗;
第三步,使用上网设备的历史数据为所述第一步中未提取出经纬度数据的URL,补充经纬度数据,实现清洗后用户经纬度数据的扩展;
第四步,采用基于投影公式的方法关联POI,使用地图平面化动态建立平面地图索引;
第五步,将所述第四步中地图中建筑物所对应的索引与POI数据库产生的索引进行比较,当比较结果一致时,将地图中的该建筑物关联到用户的GPS坐标和POI数据库中;
第六步,生成用户不同的POI信息,包括用户属性数据和行为数据。
2.根据权利要求1所述的一种通用的POI信息关联方法,其特征在于,所述第一步中提取用户信息中的经纬度数据的具体步骤为:
首先,在任务启动的时候,加载已知的提取规则文件,形成key-value分布式存储系统的键值对,加载到内存中;
进一步地,在数据处理阶段,根据加载的既定规则扫描原始流量数据,从原始流量数据中提取出与用户相关的位置信息,在原始流量数据中,与用户位置相关的信息都存储在流量数据的URL中,URL是UniformResourceLocator的缩写,表示统一资源定位符,根据URL中的服务器名称,找寻内存中对应的提取规则,使用找到的正则表达式,从URL中进行经纬度数据的提取;
进一步地,提取之后,每个用户都会形成一张根据POI系统既定的规则以及正则表达式提取出的用户经纬度坐标数据表。
3.根据权利要求1所述的一种通用的POI信息关联方法,其特征在于,所述第二步中使用多个资源文件和统计挖掘2种方式分别对第一步提取出来的经纬度数据进行清洗。
4.根据权利要求3所述的一种通用的POI信息关联方法,其特征在于,所述第二步中使用多个资源文件和统计挖掘2种方式分别对第一步提取出来的经纬度数据进行清洗的具体步骤为:
当采用多个资源文件对提取的经纬度数据进行清洗时,首先是对坐标点的黑名单信息,通过频次分析发现在数据中存在大量的重复经纬度数据,并且重复的经纬度数据关联不同的用户,由于经纬度数据都精确到了小数点后的四至五位以上,数据本身的重合度很小,经过分析得出该重复经纬度数据是各个城市的城市中心点,出现这些点的原因是当一个移动端的应用软件不能够获取当前用户的位置信息时,会将当前用户所在的城市中心点作为当前用户的经纬度信息,故此类数据是错误的;因此,将此类经纬度数据列进黑名单,完成对从流量中提取出经纬度数据的初步过滤;同时用户属于的省份区域是固定的,如果用户的经纬度数据不属于该省份内,则将该经纬度数据列入黑名单;
当采用统计挖掘算法对提取的经纬度数据进行清洗时,首先打开上网设备应用,会出现定位不准确的现象,此类定位不准确的数据也混入到了流量数据中;因为上网设备是不变的,用户通过上网设备而发出的位置信息也应该是不变或者变动范围很小的;当数据累计到一个量级时,使用距离公式,能够计算出各个定位点之间的距离,当出现一个点与其他点的距离都大于其他点相互之间的距离时,这个点就被列为异常点,因此,删除此类经纬度数据,对从流量中提取出的经纬度数据做进一步地过滤。
5.根据权利要求2所述的一种通用的POI信息关联方法,其特征在于,所述第三步中使用上网设备的历史数据为第一步中未提取出经纬度数据的URL,补充经纬度数据,实现清洗后用户经纬度数据的扩展的具体步骤为:
当用户每次使用上网设备上网时,都会在对应的上网设备上发出URL,当提取出该上...
【专利技术属性】
技术研发人员:汤奇峰,小米,万挺挺,
申请(专利权)人:晶赞广告上海有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。