一种基于元搜索的网络信息采集器简单实现方法技术

技术编号：10170371 阅读：211 留言：0更新日期：2014-07-02 12:02

本发明专利技术提供一种基于元搜索的网络信息采集器简单实现方法，集成多个搜索引擎，对搜索关键词并行进行搜索采集，然后对采集信息进行有效的组织，及时发现最新信息，提供给用户用作分析的基础数据源，该方法适用的体系结构包括：生成采集起始URL模块，模拟浏览器行为模块，搜索结果列表页下载并结构化信息提取模块，网页去重，网页正文抽模块。能及时发现最新信息，提供给用户用作分析的基础数据源。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术提供，集成多个搜索引擎，对搜索关键词并行进行搜索采集，然后对采集信息进行有效的组织，及时发现最新信息，提供给用户用作分析的基础数据源，该方法适用的体系结构包括：生成采集起始URL模块，模拟浏览器行为模块，搜索结果列表页下载并结构化信息提取模块，网页去重，网页正文抽模块。能及时发现最新信息，提供给用户用作分析的基础数据源。【专利说明】
本专利技术是，通常适于用企业或者政府单位在网络上搜索相关的新闻信息，通过对数据的分析得到决策性的结果。
技术介绍
现在的网络信息采集系统大多采用直接对网站进行采集的方式，实现不仅复杂，而且由于网站模块的不同，ulr的频繁变化，需要不断的对采集的采集网站的url进行监控维护；而且采集的范围也有限，对采集系统的负载要求也较高，降低了采集效率。元搜索引擎就是对多个搜索引擎的整合、调用、控制和优化利用，简单的说，就是通过一站式的搜索，将输入的关键词在多个搜索引擎的查询结果统一返回，用户只需要通过一次搜索就可以看到多个搜索引擎的搜索结果，较好的解决了单个搜索引擎覆盖范围窄的问题。目前，基于元搜索的采集实现都非常的复杂，实际使用时实现非常的复杂，没有一个简单的统一的方法。
技术实现思路
本专利技术就是实现，能够根据此方法快速高效的实现一个元搜索采集器。集成多个搜索引擎，对搜索关键词并行进行搜索采集，然后对采集信息进行有效的组织，及时发现最新信息，提供给用户用作分析的基础数据源，该方法适用的体系结构包括:生成采集起始URL模块，模拟浏览器行为模块，搜索结果列表页下载并结构化信息提取模块，网页去重，网页正文抽...

【技术保护点】
一种基于元搜索的网络信息采集器简单实现方法，其特征在于集成多个搜索引擎，对搜索关键词并行进行搜索采集，然后对采集信息进行有效的组织，及时发现最新信息，提供给用户用作分析的基础数据源，该方法适用的体系结构包括：生成采集起始URL模块，模拟浏览器行为模块，搜索结果列表页下载并结构化信息提取模块，网页去重，网页正文抽模块；生成采集起始URL模块生成搜索引擎搜索URL；模拟浏览器行为模块将访问网站行为伪装成浏览器的行为，实现采集的反屏蔽；搜索结果列表页下载并结构化信息提取模块将搜索并下载到的结果进行结构信息（标题、来源、发布时间、摘要、URL）提取；网页去重将提取到的搜索结果的URL进行去重，避免相同网站进行重复下载；网页正文抽模块下载并提取搜索结果的正文，将正文以及模块结构化的信息存储到数据库中。

【技术特征摘要】

【专利技术属性】
技术研发人员：刘粉粉，
申请(专利权)人：浪潮电子信息产业股份有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人