本发明专利技术公开了一种基于互联网的用户数据采集方法,包括如下步骤:a)在合作媒体页面加挂广告服务提供商的脚本代码,并在服务器端预先存储常用的网页地址;b)用户访问合作媒体页面时激活该脚本代码;c)该脚本代码从服务器端下载常用的网页地址列表;d)该脚本代码比对用户本地网页地址列表和下载下来的常用网页地址列表,获得该用户访问过的网址列表;e)该脚本代码将该用户访问过的网址列表传回给服务器端。本发明专利技术提供的基于互联网的用户数据采集方法,通过比对用户本地电脑或终端的浏览器历史网站地址列表和服务器端网站地址列表获得用户最新访问网站列表的信息,从而解决之前cookie删除以及没有加挂脚本代码的网页访问行为没法得到追踪的问题。
【技术实现步骤摘要】
基于互联网的用户数据采集方法
本专利技术涉及一种网络用户数据采集方法,尤其涉及一种基于互联网的用户数据采集方法。
技术介绍
互联网广告随着时间和技术的发展,已经进入精准广告时代,精准定向是基于互联网技术采集到的用户和投放网站内容等相关信息,通过精准算法匹配出来的广告投放的技术策略。简单来说,让互联网的用户在不同网站看到他感兴趣的广告。实现精准广告技术前提首先获得用户数据,通过数据模型比较分析出用户的行为属性,从统计学角度来说,用户数据越多,对用户属性的分析准确性越高。为了获得海量数据中,提高广告覆盖面,最理想的情况是通过跟众多互联网门户,媒体,社区等的合作,收集足够的用户数据;但实际的情况是互联网广告服务提供商,未必能跟所有的媒体和网站达成合作,因此收集用户的全面的互联网访问行为成为广告服务提供商的重大阻碍。Cookie是互联网媒体跟踪记录用户访问信息的重要技术手段,用户访问网站的时候,网站就可以在用户客户端留下一些数据,从而根据这些记录数据,对于用户登录,访问次数等进行比对。请参见图1,现有的基于cookie的用户数据采集及用户行为跟踪过程如下:步骤S101:网络广告服务商提供一段脚本代码,加挂在合作媒体网站;步骤S102:用户访问合作媒体加挂该脚本代码的网页时,脚本代码会在用户客户端种下一个cookie,用于识别和记录用户和用户行为;步骤S103:脚本代码检查用户客户端cookie信息;步骤S104:脚本代码更新用户客户端cookie信息;步骤S105:脚本代码同时将基于cookie的用户行为发送给服务器端。现有的基于互联网的用户数据采集用cookie来识别用户,获得统一标识符,基于cookie为标识的用户行为进行分析,从而实现用户兴趣行为的分析和投放。但是Cookie技术具有明显的技术缺陷:a)用户访问没有加挂自有脚本代码的网页行为不会被检查得到b)出于对用户访问隐私的保护,客户端Cookie是收到严格的权限保护的,即单个网站种下的cookie只能被该网站访问;c)Cookie是可被第三方软件限定或清除的,目前360安全卫士,QQ电脑管家等第三方软件都提供这样的功能,用户本地的Cookie会被强制或定时清除,从而失去对用户定向的数据来源。因此,比较理想的情况是用户访问的不同网站,都能拿到用户的访问数据,则为用户行为分析提供充足的数据。但是如何获得目标用户最新的网站访问列表的技术问题一直互联网领域的通用技术难题。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于互联网的用户数据采集方法,能够获取用户最新的访问网页列表,解决之前基于cookie进行追踪的缺陷;以及没有加挂网络广告服务商脚本代码页面没法追踪的问题。本专利技术为解决上述技术问题而采用的技术方案是提供一种基于互联网的用户数据采集方法,包括如下步骤:a)在合作媒体页面加挂广告服务提供商的脚本代码,并在服务器端预先存储常用的网页地址;b)用户访问合作媒体页面时激活该脚本代码;c)该脚本代码从服务器端下载常用的网页地址列表;d)该脚本代码比对用户本地网页地址列表和下载下来的常用网页地址列表,获得该用户访问过的网址列表;e)该脚本代码将该用户访问过的网址列表传回给服务器端。上述的基于互联网的用户数据采集方法,其中,步骤d)通过iframe下的链接标签比对,通过该条记录在浏览器中默认颜色的改变,来获得用户访问过的网址列表。上述的基于互联网的用户数据采集方法,其中,所述服务器端常用网页地址列表分成若干组,每次用户请求访问合作媒体页面时,该脚本代码只从服务器端取出一组网页地址列表和用户本地网页地址列表进行比对;下一次请求时更换到下一组网页地址列表,直到全部网页地址列表都比对完毕。上述的基于互联网的用户数据采集方法,其中,所述服务器端常用网页地址列表分成50-100组,每组网页地址列表包括50-1000个网址。本专利技术对比现有技术有如下的有益效果:本专利技术提供的基于互联网的用户数据采集方法,通过比对用户本地电脑或终端的浏览器历史网站地址列表和服务器端网站地址列表获得用户最新访问网站列表的信息,从而解决之前cookie删除以及没有加挂脚本代码的网页访问行为没法得到追踪的问题。进而判断出用户的行为特征,并基于用户行为特征,实现广告精准投放。附图说明图1为现有基于互联网的用户数据采集流程图;图2为本专利技术基于互联网的用户数据采集流程图。具体实施方式下面结合附图和实施例对本专利技术作进一步的描述。图2为本专利技术基于互联网的用户数据采集流程图。请参见图2,本专利技术提供的基于互联网的用户数据采集方法包括如下步骤:步骤S201:合作媒体(Media)在合作页面加挂广告服务提供商(ADNetwork)的脚本代码(JS代码),并在服务器端预先存储互联网用户最常用的网站地址,或者高价值的网站地址;步骤S202:用户访问合作媒体页面时激活该脚本代码;步骤S203:该脚本代码从服务端下载常见网站地址列表;步骤S204:该脚本代码比对用户浏览器历史访问网站地址列表和从服务器端下载的常用网站地址列表,获得该用户访问过的网址列表;如通过HTML<iframe>标签下的A标签比对,通过该条记录在浏览器中默认颜色的改变,可获得用户访问网站信息;步骤S205:该脚本代码将该用户访问过的网址列表传回给服务端。上述的用户数据采集方法,其中脚本代码可使用JAVAScript;URL(Uniform/UniversalResourceLocator)是用户使用浏览器访问网站网址地址的简称,也被称为网页地址,是因特网上标准的资源的地址(Address);浏览器可以选用InternetExplorer、Firefox2+、Opera、Chrome、Safari等。超文本标记语言,即HTML(HypertextMarkupLanguage),是用于描述网页文档的一种标记语言,IFRAME元素也就是文档中的文档,或者像浮动的框架(FRAME)。frames集合提供了对IFRAME内容的访问,如HTML<iframe>标签可以访问网页的各种属性。为了尽可能获得完整的用户数据,常用网站的网页地址列表可能多达5000多个,每次需要检查客户端访问特征的时候,脚本代码会调用服务器该列表,跟客户端的浏览记录进行比对。为了不影响用户浏览网页,可进一步对服务器端存储的网页地址列表进行分组,比对URL列表采用如下优化措施:a)每次用户请求,JS只从服务器端的网页地址列表中下载一组URL列表进行比对,选优分成50-100组,每组网页地址列表包括50-1000个网址;b)下一次请求更换到下一组列表,直到全部列表都比对完毕,则停止比对。下面接着详细介绍本专利技术用户访问网站的详细流程:1.用户访问加挂脚本代码网页,假设为ent.sina.com/blog/xxxx1.htm,其中加挂了red.js脚本;2.客户端挂载脚本代码的分析代码启动,加载页面含有red.js;3.脚本代码请求服务器,获取网站地址列表,在本地浏览器环境下进行逐一比对;i)脚本代码请求s2.ra.icast.cn,服务器返回一组静态列表(500个URL为一组),网站地址列表格式为“[{ID:123;URLS{‘URL’,’URL’,..}}]”;i本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于互联网的用户数据采集方法,其特征在于,所述方法包括如下步骤:a)在合作媒体页面加挂广告服务提供商的脚本代码,并在服务器端预先存储常用的网页地址;b)用户访问合作媒体页面时激活该脚本代码;c)该脚本代码从服务器端下载常用的网页地址列表;d)该脚本代码比对用户本地网页地址列表和下载下来的常用网页地址列表,获得该用户访问过的网址列表;e)该脚本代码将该用户访问过的网址列表传回给服务器端;所述步骤d)通过iframe下的链接标签比对,通过客户端的浏览记录在浏览器中默认...
【专利技术属性】
技术研发人员:郑斌,韩啸,
申请(专利权)人:互动通天图信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。