当前位置: 首页 > 专利查询>张士益专利>正文

一种用于半封闭数据环境下的数据搜索的方法和装置制造方法及图纸

技术编号:8959474 阅读:105 留言:0更新日期:2013-07-25 19:01
本发明专利技术涉及一种用于半封闭数据环境下的数据搜索的方法和装置,包括:构建一个客户端浏览器,通过该浏览器,使用预设登录信息登录访问所述半封闭数据环境的网络访问地址;所述客户端浏览器在登录成功后对所述半封闭数据环境中的预设网页地址进行访问,并获取从所述半封闭数据环境的服务器返回的对应网页的数据文件;根据预设的与所述网页相对应的数据位置信息,从所述数据文件中将相应位置的数据提取出来。本发明专利技术可以无需建立特殊接口即可实现对半封闭数据环境的自动搜索,将其中所需要的数据准确的提取出来,从而提高了数据搜索效率、扩大了数据搜索范围,同时也提高了数据搜索结果的准确性。

【技术实现步骤摘要】

本专利技术涉及数据搜索领域,尤其涉及一种用于半封闭数据环境下的数据搜索的方法和装置
技术介绍
搜索引擎是根据一定的策略,运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索的相关信息展示给用户。在现有技术中,搜索引擎的工作过程是利用“蜘蛛”系统(或爬虫技术),自动访问互联网中的网页,读取该网页中的文字内容,并找到该网页中的包含的其他链接地址,并沿着该链接地址访问爬行到其他网页,“蜘蛛”系统在互联网中不断重复这种爬行过程,并把所爬行过的所有网页数据收集回来。现有的“蜘蛛”系统首先会从初始网址库中选取一个网站地址,一般是那些大型门户网站,从这些初始网址出发,蜘蛛会访问并下载对应的网页内容存储到数据库中,并将其中的文字提取出来进行分词后存入索引库中,同时,蜘蛛系统再提取出该网页内容中存在的其他网址链接,然后重复上述过程。由于一个网站中的各个网页之间存在着上下层级的链接关系,而且也可能存在着其他网站的地址链接,因此,利用蜘蛛系统,不仅可以很快将一个网站的全部网页都访问一遍,而且还可以利用那些其他网站地址链接爬行到新的网站,并获取新网站的网页内容。但是,从上述描述可知,现有的搜索引擎利用的“蜘蛛”系统所收集的网页数据均为公开性的网页数据,对于处于半封闭数据环境下的数据并不能进行收集。例如,对于一些会员制的论坛网站、微博网站、个人网银系统等半封闭数据环境,特别是需要授权或验证机制的数据环境,是无法接受类似于“蜘蛛”系统这样的外部访问的,实际上,这些网站的地址链接也很少有机会出现在公开性的网页上,即使有,在被蜘蛛系统获取并访问后,由于没有访问权限,其返回的结果也是无法打开网页,无法进行后续的爬行来获取数据。然而,在这些半封闭数据环境下的数据并不是完全的隐私数据,但现有的搜索引擎由于技术上的原因并不能自动的为普通公众用户获取到这些数据。即便是有访问权限的用户,也无法自动的准确的获得感兴趣的数据。实际上,现有的搜索引擎如果要获取这些半封闭数据环境下的数据,必须通过单独与这些数据环境建立特定的数据开放接口才可以进行访问获取。这是非常不经济的,而且如果对方不同意建立开放接口,那么现有的搜索引擎就无法有效的获取到这些数据。
技术实现思路
针对上述问题,本专利技术的主要目的在于提供一种用于半封闭数据环境下的数据搜索的方法和装置,以解决现有技术存在的搜索引擎不能搜索半封闭数据环境中的有用数据的问题。为了解决上述技术问题,本专利技术的目的是通过以下技术方案实现的:本专利技术提供了一种用于半封闭数据环境下的数据搜索方法,包括以下步骤:构建一个客户端浏览器,通过该浏览器,使用预设登录信息登录访问所述半封闭数据环境的网络访问地址;所述客户端浏览器在登录成功后对所述半封闭数据环境中的预设网页地址进行访问,并获取从所述半封闭数据环境的服务器返回的对应网页的数据文件;根据预设的与所述网页相对应的数据位置信息,从所述数据文件中将相应位置的数据提取出来。其中,所述根据预设的与所述网页相对应的数据位置信息,从所述数据文件中将相应位置的数据提取出来的步骤,包括:对通过所述客户端浏览器访问获得的网页数据文件进行分析,根据预设的与在所述网页中要获取的数据相对应的文件标签信息,在所述数据文件中定位相匹配的标签的位置;根据所述标签位置,从所述数据文件中将与该标签位置相对应的数据提取出来。其中,所述将与该标签位置相对应的数据提取出来的步骤,包括:运行与该标签位置相对应的脚本数据,并将运行结果数据提取出来。其中,本专利技术所述方法进一步包括:构建一数据库,记录所述半封闭数据环境的网络访问地址、可登录该数据环境的预设登录信息、在该数据环境中需要访问的网页地址,以及与在所述网页中要获取的数据相对应的文件标签信息。其中,所述客户端浏览器在登录成功后,进一步包括:获取由所述半封闭数据环境的服务器分配的会话令牌,并携带该会话令牌对所述半封闭数据环境中的预设网页地址进行访问。本专利技术还提供了一种用于半封闭数据环境下的数据搜索装置,包括:登录模块,用于构建一个客户端浏览器,通过该浏览器,使用预设登录信息登录访问所述半封闭数据环境的服务器;访问模块,用于所述客户端浏览器在登录成功后对所述半封闭数据环境中的预设网页地址进行访问,并获取从所述服务器返回的对应网页的数据文件;提取模块,用于根据预设的与所述网页相对应的数据位置信息,从所述数据文件中将相应位置的数据提取出来。其中,所述提取模块包括:定位单元对通过所述客户端浏览器访问获得的网页数据文件进行分析,根据预设的与在所述网页中要获取的数据相对应的文件标签信息,在所述数据文件中定位相匹配的标签的位置;提取单元根据所述标签位置,从所述数据文件中将与该标签位置相对应的数据提取出来。其中,所述提取单元,用于运行与该标签位置相对应的脚本数据,并将运行结果数据提取出来。其中,所述装置进一步包括一数据库,用于记录所述半封闭数据环境的网络访问地址、可登录该数据环境的预设登录信息、在该数据环境中需要访问的网页地址,以及与在所述网页中要获取的数据相对应的文件标签信息。其中,所述访问模块,用于获取由所述半封闭数据环境的服务器分配的会话令牌,并携带该会话令牌对所述半封闭数据环境中的预设网页地址进行访问。应用本专利技术的实施例,可以无需建立特殊接口即可实现对半封闭数据环境的自动搜索,将其中所需要的数据准确的提取出来,从而提高了数据搜索效率、扩大了数据搜索范围,同时也提高了数据搜索结果的准确性。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是本专利技术实施例的用于半封闭数据环境下的数据搜索方法的流程图;图2是本专利技术实施例的用于半封闭数据环境下的数据搜索装置的模块图。具体实施例方式本专利技术的主要思想在于,构建一个客户端浏览器,通过该浏览器,使用预设登录信息登录访问所述半封闭数据环境的网络访问地址;所述客户端浏览器在登录成功后对所述半封闭数据环境中的预设网页地址进行访问,并获取从所述半封闭数据环境的服务器返回的对应网页的数据文件;根据预设的与所述网页相对应的数据位置信息,从所述数据文件中将相应位置的数据提取出来。为使本专利技术的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本专利技术作进一步地详细说明。根据本专利技术的实施例,提供了一种用于半封闭数据环境下的数据搜索方法。参考图1,图1是本专利技术实施例的用于半封闭数据环境下的数据搜索方法的流程图。在步骤S102处,构建一个客户端浏览器,通过该浏览器,使用预设登录信息登录访问所述半封闭数据环境的网络访问地址。本专利技术的实施例实现数据搜索的方式与现有的爬虫技术完全不同。现有的爬虫技术并不采用浏览器访问方式,而是采用命令请求方式与网站服务器交互,这对于开放数据环境下的数据搜索是可以的,但对于半封闭式的数据环境,尤其是安全性要求较高的数据环境的访问,由于有些属性参数在命令请求这种访问方式中是不可见的,因此,如果仍然采用命令请求方式就无法进行访问。本专利技术实施例通过构建一个客户端浏览器,采用浏览器访问方式,则可以获取现有爬虫技术所无法获得的属性参数,例如会话令牌(Session ID)参数等本文档来自技高网
...

【技术保护点】
一种用于半封闭数据环境下的数据搜索方法,其特征在于,包括:构建一个客户端浏览器,通过该浏览器,使用预设登录信息登录访问所述半封闭数据环境的网络访问地址;所述客户端浏览器在登录成功后对所述半封闭数据环境中的预设网页地址进行访问,并获取从所述半封闭数据环境的服务器返回的对应网页的数据文件;根据预设的与所述网页相对应的数据位置信息,从所述数据文件中将相应位置的数据提取出来。

【技术特征摘要】
1.一种用于半封闭数据环境下的数据搜索方法,其特征在于,包括: 构建一个客户端浏览器,通过该浏览器,使用预设登录信息登录访问所述半封闭数据环境的网络访问地址; 所述客户端浏览器在登录成功后对所述半封闭数据环境中的预设网页地址进行访问,并获取从所述半封闭数据环境的服务器返回的对应网页的数据文件; 根据预设的与所述网页相对应的数据位置信息,从所述数据文件中将相应位置的数据提取出来。2.如权利要求1所述的方法,其特征在于,所述根据预设的与所述网页相对应的数据位置信息,从所述数据文件中将相应位置的数据提取出来的步骤,包括: 对通过所述客户端浏览器访问获得的网页数据文件进行分析,根据预设的与在所述网页中要获取的数据相对应的文件标签信息,在所述数据文件中定位相匹配的标签的位置; 根据所述标签位置,将与该标签位置相对应的数据提取出来。3.如权利要求2所述的方法,其特征在于,所述将与该标签位置相对应的数据提取出来的步骤,包括:运行与该标签位置相对应的脚本数据,并将运行结果数据提取出来。4.如权利要求2所述的方法,其特征在于,进一步包括:构建一数据库,记录所述半封闭数据环境的网络访问地址、可登录该数据环境的预设登录信息、在该数据环境中需要访问的网页地址,以及与在所述网页中要获取的数据相对应的文件标签信息。5.如权利要求1所述的方法,其特征在于,所述客户端浏览器在登录成功后,进一步包括:获取由所述半封闭数据环境的服务器分配的会话令牌,并携带该会话令牌对所述半封闭...

【专利技术属性】
技术研发人员:张士益
申请(专利权)人:张士益
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1