一种基于元搜索的网络信息采集器简单实现方法技术

技术编号:10170371 阅读:200 留言:0更新日期:2014-07-02 12:02
本发明专利技术提供一种基于元搜索的网络信息采集器简单实现方法,集成多个搜索引擎,对搜索关键词并行进行搜索采集,然后对采集信息进行有效的组织,及时发现最新信息,提供给用户用作分析的基础数据源,该方法适用的体系结构包括:生成采集起始URL模块,模拟浏览器行为模块,搜索结果列表页下载并结构化信息提取模块,网页去重,网页正文抽模块。能及时发现最新信息,提供给用户用作分析的基础数据源。

【技术实现步骤摘要】
【专利摘要】本专利技术提供,集成多个搜索引擎,对搜索关键词并行进行搜索采集,然后对采集信息进行有效的组织,及时发现最新信息,提供给用户用作分析的基础数据源,该方法适用的体系结构包括:生成采集起始URL模块,模拟浏览器行为模块,搜索结果列表页下载并结构化信息提取模块,网页去重,网页正文抽模块。能及时发现最新信息,提供给用户用作分析的基础数据源。【专利说明】
本专利技术是,通常适于用企业或者政府单位在网络上搜索相关的新闻信息,通过对数据的分析得到决策性的结果。
技术介绍
现在的网络信息采集系统大多采用直接对网站进行采集的方式,实现不仅复杂,而且由于网站模块的不同,ulr的频繁变化,需要不断的对采集的采集网站的url进行监控维护;而且采集的范围也有限,对采集系统的负载要求也较高,降低了采集效率。元搜索引擎就是对多个搜索引擎的整合、调用、控制和优化利用,简单的说,就是通过一站式的搜索,将输入的关键词在多个搜索引擎的查询结果统一返回,用户只需要通过一次搜索就可以看到多个搜索引擎的搜索结果,较好的解决了单个搜索引擎覆盖范围窄的问题。目前,基于元搜索的采集实现都非常的复杂,实际使用时实现非常的复杂,没有一个简单的统一的方法。
技术实现思路
本专利技术就是实现,能够根据此方法快速高效的实现一个元搜索采集器。集成多个搜索引擎,对搜索关键词并行进行搜索采集,然后对采集信息进行有效的组织,及时发现最新信息,提供给用户用作分析的基础数据源,该方法适用的体系结构包括:生成采集起始URL模块,模拟浏览器行为模块,搜索结果列表页下载并结构化信息提取模块,网页去重,网页正文抽模块。生成采集起始URL模块对每个搜索引擎的搜索采集任务都设置为是一个爬虫任务,每个爬虫任务对应一个配置文件,配置文件中配置:搜索URL的中文字符编码格式,搜索页的其实页码,每页返回的搜索结果的数据,翻页时页码的增长的步长,该搜索引擎返回结果的总数,结果列表页的编码格式,URL语法格式,抽取结果列表页抽取规则。根据每个搜索引擎的不同的URL语法格式,将中文关键词进行对应的编码,在填充入其中的参数值,就构造出了每个搜索引擎对应的采集起始URL。模拟浏览器行为模块实现网页采集反屏蔽,通过如下方法:对采集任务间隔进行控制,固定间隔加上随机间隔;构造代理头池和IP池,每次爬取网页时,随机切换一个userAgent 和 IP0网页去重采用REDIS内存数据库来存储已下载的URL,通过REDIS的set数据结构构造一个URL非重复队列,排除URL重复,如URL重复则不对网页再次进行下载。网页正文抽模块,可设置不同的规则对不同的网站的网页进行正文抽取,并且过滤掉垃圾信息。该模块还可以将抽取到的网页中的链接继续进行采集,实现多层的采集。本专利技术可实现一种简单的基于元搜索的通用采集器,集成多个搜索引擎,对搜索关键词并行进行搜索采集,然后对采集信息进行有效的组织,及时发现最新信息,提供给用户用作分析的基础数据。【专利附图】【附图说明】附图1为本专利技术中的实现流程示意图。【具体实施方式】参照附图1,一种基于元搜索的网络信息采集器实现方法流程如下:(I)首先,通过生成采集起始URL模块(I)读取配置文件中的关键词、搜索属性,生成URL。关键词配置文件可采用txt、excel、xml格式,举例如下:【权利要求】1.,其特征在于集成多个搜索引擎,对搜索关键词并行进行搜索采集,然后对采集信息进行有效的组织,及时发现最新信息,提供给用户用作分析的基础数据源,该方法适用的体系结构包括:生成采集起始URL模块,模拟浏览器行为模块,搜索结果列表页下载并结构化信息提取模块,网页去重,网页正文抽模块; 生成采集起始URL模块生成搜索引擎搜索URL ; 模拟浏览器行为模块将访问网站行为伪装成浏览器的行为,实现采集的反屏蔽; 搜索结果列表页下载并结构化信息提取模块将搜索并下载到的结果进行结构信息(标题、来源、发布时间、摘要、URL)提取; 网页去重将提取到的搜索结果的URL进行去重,避免相同网站进行重复下载; 网页正文抽模块下载并提取搜索结果的正文,将正文以及模块结构化的信息存储到数据库中。2.根据权利要求1所述的方法,其特征在于所述生成采集起始URL模块,可支持若干的主流搜索引擎,对同样的关键词进行并行搜索。3.根据权利要求1所述的方法,其特征在于所述的模拟浏览器行为模块,可通过不同的手段实现模拟浏览器行为,包括:对采集任务间隔进行控制,固定间隔加上随机间隔;够着代池和IP池,随机切换USerAgent和IP。4.根据权利要求1所述的方法,其特征在于所述的网页去重,可通过内存数据库实现url的去重,并可计算某个网页的重复次数,为计算网页重要程度提供数据。5.根据权利要求1所述的方法,其特征在于所述的网页正文抽模块,可设置不同的规则对不同的网站的网页进行正文抽取,并且过滤掉垃圾信息;该模块还可以将抽取到的网页中的链接继续进行采集,实现多层的采集。6.根据权利要求1所述的方法,其特征在于所述的网页正文抽模块,可设置不同的规则对不同的网站的网页进行正文抽取,并且过滤掉垃圾信息;该模块还可以将抽取到的网页中的链接继续进行采集,实现 多层的采集。【文档编号】G06F17/30GK103902667SQ201410092387【公开日】2014年7月2日 申请日期:2014年3月14日 优先权日:2014年3月14日 【专利技术者】刘粉粉 申请人:浪潮电子信息产业股份有限公司本文档来自技高网...

【技术保护点】
一种基于元搜索的网络信息采集器简单实现方法,其特征在于集成多个搜索引擎,对搜索关键词并行进行搜索采集,然后对采集信息进行有效的组织,及时发现最新信息,提供给用户用作分析的基础数据源,该方法适用的体系结构包括:生成采集起始URL模块,模拟浏览器行为模块,搜索结果列表页下载并结构化信息提取模块,网页去重,网页正文抽模块;生成采集起始URL模块生成搜索引擎搜索URL;模拟浏览器行为模块将访问网站行为伪装成浏览器的行为,实现采集的反屏蔽;搜索结果列表页下载并结构化信息提取模块将搜索并下载到的结果进行结构信息(标题、来源、发布时间、摘要、URL)提取;网页去重将提取到的搜索结果的URL进行去重,避免相同网站进行重复下载;网页正文抽模块下载并提取搜索结果的正文,将正文以及模块结构化的信息存储到数据库中。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘粉粉
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1