在线内容采集制造技术

技术编号:10090344 阅读:263 留言:0更新日期:2014-05-28 13:22
一种在线内容采集系统,包括:扫描服务器,用于扫描网站以获取潜在创意统一资源定位符(URL)。扫描和获取包括解析用于网站的网页,从解析的网页中标识与用于获取潜在创意URL的预定标准匹配的潜在创意URL,以及获取与预定标准匹配的潜在创意URL。数据储存器可以用来储存创意URL。在线内容采集服务器通过如下方式分析获取的潜在创意URL:通过将获取的潜在创意URL与在数据储存器中储存的创意URL进行比较来确定获取的潜在创意URL以前是否已经见过,以及如果获取的潜在创意URL以前已经见过,则确定获取的潜在创意URL是否指向创意。

【技术实现步骤摘要】
在线内容采集
技术介绍
在线广告通常包括在因特网上刊登的广告。在线广告可以包括营销信息,并且用户可能能够点击广告,这通常将用户带到用于将产品或者服务在广告中加以营销的另一网页。在线广告可以被表示为例如包括图像、点选、FLASH对象等的创意(creative)。可以用横幅广告的形式提供在线广告,横幅广告是在网页中嵌入的广告并且经常包括文本、图像、视频、声音或那些元素的任何组合。可以从被称为广告供应商的广告服务或广告网络购买在特定网站上的创意的投放。例如,搜索引擎通常提供广告服务,由此刊登广告的人付费来将其创意刊登在搜索引擎网站或其他附属的网站上。除搜索引擎之外,许多网站提供相似的服务以用于为公司或其他实体刊登创意。在许多实例中,创意需要刊登持续某时间段并且需要在网站上的某些位置刊登,或者可能需要响应于满足某些条件来刊登。许多实体参与复杂的在线广告活动,其中他们为了创意空间与竞争对手竞争,并且他们跨许多网站投放许多创意。高效地追踪网站以确定该网站是否正在刊登它们的创意,以及创意是否包括适当内容并且被提供在适当网页中并被提供在网页上的适当位置中是困难的。附图说明本公开的特征通过示例的方式而图示并且不限于下图,其中相同的数字代表相同的元素,其中:图1图示了根据本公开的示例的、用于在线内容采集系统的数据流程图;图2图示了根据本公开的示例的、用于在线内容采集系统的系统图;图3图示了根据本公开的示例的、用于由在线内容采集系统进行的创意统一资源定位符(URL)和点选处理的方法的流程图;图4图示了根据本公开的示例的、用于创意下载和储存在数据库或在线内容采集服务器中的方法的流程图;图5图示了根据本公开的示例的、用于点选下载和储存在数据库或在线内容采集服务器中的方法的流程图;以及图6图示了根据本公开的示例的、可以用于所述方法和系统的计算机系统。具体实施方式出于简洁和说明性的目的,通过主要参照示例来描述本公开。在以下描述中,陈述了许多具体细节以便提供对本公开的透彻理解。然而显而易见的是,本公开可以在不限于这些具体细节的情况下实行。在其他实例中,没有对一些方法和结构进行详细描述以避免不必要地使本公开混淆。本公开从始至终,术语“一”和“一个”意在表示至少一个特定元素。如本文所使用的,术语“包括”的意思是包括但不限于,术语“包括”的意思是包括但不限于。术语“基于”的意思是至少部分基于。根据一个示例,本文公开了一种在线内容采集系统,用以检测、处理并且储存创意以及关联的创意URL和点选。创意可以定义为在线内容并可以包括图像、点选、FLASH对象、视频等的任意类型。例如,创意可以是例如包括图像、点选、FLASH对象等的在线广告,其可以被用以在网站上提供信息。例如,用于计算机的在线广告包括计算机图像、至卖方网站的点选和/或与计算机相关的FLASH对象等,其可以被用以在一般网站(例如新闻网站)上提供信息。创意中的信息通常是推广可供销售的产品或服务的营销信息。用于创意的点选URL可以由用户点击,这可以将用户带到产品网站或推广该产品或服务的另一网站。创意URL可以定义为与用于创意的图像、点选、FLASH对象等关联的特定URL。潜在创意URL可以定义为可以是或者不是创意URL的URL。创意、URL和点选可以被用于后续分析,例如用于生成报告。根据一个示例,在线内容采集系统可以包括扫描服务器,用于扫描网站以获取潜在创意统一资源定位符(URL)。扫描和获取包括解析用于网站的网页,从所解析的网页中标识与用于获取潜在创意URL的预定标准匹配的潜在创意URL,以及获取与预定标准匹配的潜在创意URL。数据储存器可以被用以储存创意URL。在线内容采集服务器分析获取的潜在创意URL,其通过将获取的潜在创意URL与在数据储存器中储存的创意URL进行比较来确定获取的潜在创意URL以前是否已经见过,以及如果获取的潜在创意URL以前已经见过,则确定获取的潜在创意URL是否指向创意。根据一个示例,一种用于在线内容采集的方法包括扫描网站以获取潜在创意URL,获取与用于获取潜在创意URL的预定标准匹配的潜在创意URL,通过将获取的潜在创意URL与先前验证的创意URL进行比较来确定获取的潜在创意URL以前是否已经见过,以及如果获取的潜在创意URL以前已经见过,则确定获取的潜在创意URL是否指向创意。根据一个示例,一种包括计算机代码的非瞬态计算机可读介质,所述计算机代码当由计算机系统执行时进行包括如下内容的指令:扫描网站以获取潜在创意URL,获取与用于获取潜在创意URL的预定标准匹配的潜在创意URL,通过将获取的潜在创意URL与先前验证的创意URL进行比较来确定获取的潜在创意URL以前是否已经见过,如果获取的潜在创意URL以前已经见过,则确定获取的潜在创意URL是否指向创意,以及如果获取的潜在创意URL以前没有见过,则下载获取的潜在创意URL指向的创意。对于以上所描述的在线内容采集系统,预定标准包括使用正则表达式来匹配潜在创意URL。由在线内容采集服务器进行的分析还包括在确定获取的潜在创意URL以前是否已经见过之前去除查询参数。该分析还包括如果获取的潜在创意URL以前没有见过,则下载获取的潜在创意URL指向的创意。对于以上所描述的在线内容采集系统,如果获取的潜在创意URL指向创意,则该分析还包括确定在线内容采集服务器是否识别出与该创意关联的点选URL。如果在线内容采集服务器没有识别出与创意相关联的点选URL,则该分析还包括确定与创意关联的网页内容是否包括点选URL。如果与创意关联的网页内容包括点选URL,则该分析还包括在网页浏览器环境中下载该点选URL,以及确定该点选URL是否为重定向URL。如果点选URL是重定向URL,则该分析还包括确定重定向URL以前是否已经见过,如果重定向URL以前已经见过则将点选URL指示为无效,以及如果重定向URL以前没有见过则下载随后的重定向URL以确定随后的重定向URL是否为另一重定向URL。如果点选URL不为重定向URL,则该分析还包括确定点选URL是否为HTML重定向,如果点选URL不为HTML重定向则将点选URL储存在数据储存器中,以及如果点选URL为HTML重定向则确定HTML重定向以前是否已经见过。对于以上所描述的在线内容采集系统,如果获取的潜在创意URL不指向创意,则该分析还包括确定具有查询参数的获取的潜在创意URL以前是否已经见过。对于以上所描述的在线内容采集系统,该分析还包括如果获取的潜在创意URL以前没有见过则确定获取的潜在创意URL是否为重定向URL。该分析还包括如果获取的潜在创意URL为重定向URL则确定重定向URL以前是否已经见过,如果重定向URL以前已经见过则将与获取的潜在创意URL关联的创意指示为无效,以及如果重定向URL以前没有见过则下载随后的重定向URL以确定随后的重定向URL是否为另一重定向URL。该分析还包括如果获取的潜在创意URL不是重定向URL则确定与获取的潜在创意URL关联的创意是否为FLASH对象或图像,如果与获取的潜在创意URL关联的创意是FLASH对象或图像则确定该FLASH对象或图像的宽度和高度是否超过预定阈值,以及如果与获取的潜在创意URL关联的创意不是FLASH对象或图像则将与获取的潜本文档来自技高网...
在线内容采集

【技术保护点】
一种在线内容采集系统,包括:扫描服务器,用于扫描网站以获取潜在创意统一资源定位符(URL),其中所述扫描和所述获取包括:解析用于所述网站的网页,从所解析的网页中标识与用于获取潜在创意URL的预定标准匹配的潜在创意URL,以及获取与所述预定标准匹配的所述潜在创意URL;数据储存器,用于储存创意URL;以及在线内容采集服务器,用于分析所获取的潜在创意URL,其中所述分析包括:通过将所获取的潜在创意URL与在所述数据储存器中储存的所述创意URL进行比较来确定所获取的潜在创意URL以前是否已经见过,以及如果所获取的潜在创意URL以前已经见过,则确定所获取的潜在创意URL是否指向创意。

【技术特征摘要】
2012.08.30 US 13/599,3101.一种在线内容采集系统,包括:扫描服务器,用于扫描网站以获取潜在创意统一资源定位符(URL),其中所述扫描和所述获取包括:解析用于所述网站的网页,从所解析的网页中标识与用于获取潜在创意URL的预定标准匹配的潜在创意URL,以及获取与所述预定标准匹配的所述潜在创意URL;数据储存器,用于储存创意URL;以及在线内容采集服务器,用于分析所获取的潜在创意URL,其中所述分析包括:通过以下各项来确定所获取的潜在创意URL以前是否已经见过:将所获取的潜在创意URL与在所述数据储存器中储存的所述创意URL进行比较,在确定所获取的潜在创意URL以前是否已经见过之前,去除查询参数,以及如果所获取的潜在创意URL以前没有见过,则下载所获取的潜在创意URL指向的创意,如果所获取的潜在创意URL以前已经见过,则确定所获取的潜在创意URL是否指向创意,如果所获取的潜在创意URL不指向创意,则确定具有查询参数的所获取的潜在创意URL以前是否已经见过,如果所获取的潜在创意URL指向创意,则确定所述在线内容采集服务器是否识别出与所述创意关联的点选URL,以及如果所述在线内容采集服务器没有识别出与所述创意关联的所述点选URL,则确定与所述创意关联的网页内容是否包括点选URL,其中如果与所述创意关联的所述网页内容包括点选URL,则:在网页浏览器环境中下载所述点选URL;以及确定所述点选URL是否为重定向URL。2.根据权利要求1所述的在线内容采集系统,其中所述预定标准包括使用正则表达式来匹配所述潜在创意URL。3.根据权利要求1所述的在线内容采集系统,其中所述分析还包括:如果所获取的潜在创意URL以前没有见过,则确定所获取的潜在创意URL是否为重定向URL。4.根据权利要求3所述的在线内容采集系统,其中所述分析还包括:如果所获取的潜在创意URL为重定向URL,则确定所述重定向URL以前是否已经见过;如果所述重定向URL以前已经见过,则将与所获取的潜在创意URL关联的所述创意指示为无效;以及如果所述重定向URL以前没有见过,则下载随后的重定向URL以确定所述随后的重定向URL是否为另一重定向URL。5.根据权利要求3所述的在线内容采集系统,其中所述分析还包括:如果所获取的潜在创意URL不为重定向URL,则确定与所获取的潜在创意URL关联的创意是否为FLASH对象或图像;如果与所获取的潜在创意URL关联的所述创意为FLASH对象或图像,则确定所述FLASH对象或所述图像的宽度和高度是否超过预定阈值;以及如果与所获取的潜在创意URL关联的所述创意不为FLASH对象或图像,则将与所获取的潜在创意URL关联的所述创意指示为无效。6.根据权利要求5所述的在线内容采集系统,其中所述预定阈值是5像素。7.根据权利要求5所述的在线内容采集系统,其中所述分析还包括:如果所述FLASH对象或所述图像的所述宽度和所述高度超过所述预定阈值,则将与所获取的潜在创意URL关联的所述创意指示为有效;以及将所获取的潜在创意URL储存在所述数据储存器中以用于与进一步获取的潜在创意URL进行比较。8.根据权利要求1所述的在线内容采集系统,其中所述分析还包括:如果所述点选URL为重定向URL,则确定所述重定向URL以前是否已经见过;如果所述重定向URL以前已经见过,则将所述点选URL指示为无效;以及如果所述重定向URL以前没有见过,则下载随后的重定向URL以确定所述随后的重定向URL是否为另一重定向URL。9.根据权利要求8所述的在线内容采集系统,其中所述分析还包括:如果所述点...

【专利技术属性】
技术研发人员:M·菲格J·霍尔曼
申请(专利权)人:埃森哲环球服务有限公司
类型:发明
国别省市:爱尔兰;IE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1