网上新闻信息定期自动抓取方法技术

技术编号：8323555 阅读：479 留言：0更新日期：2013-02-14 01:22

一种网上新闻信息定期自动抓取方法，先根据待获取的新闻目录网页中的数据结构特征和源代码语法规则建立新闻目录匹配模型，并根据待获取的新闻文本网页中的数据结构特征和源代码语法规则建立新闻文本匹配模型，在基于MS?SQL?Server?Agent任务调度管理器，创建任务组，该任务组为定期调动并依次执行获取新闻目录网页模块、抓取及保存新闻地址信息模块、更新新闻目录列表模块和获取新闻文本网页模块，本发明专利技术能定期启动网上新闻信息抓取，并可避免重复获取新闻信息，节省空间，提高效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网上特定信息自动抓取，特别涉及一种定期自动抓取网上新闻信息的方法。
技术介绍
随着科技的飞速发展，人类社会生活各个领域信息交流越来越离不开网络技术，人们可以通过互联网获取特定信息，并经过整理，形成为特定人群阅读服务。比如网上新闻类信息(就是同类的新闻信息)，网站首先提供一个含有我们感兴趣新闻目录的网页(也称新闻目录网页，如图I所示)，然后逐个打开新闻目录条，进一步获取新闻文本网页(如图2所示)，对于有用的新闻文本信息下载保存，方便其他任务使用，如将下载的信息发布在本单位网站，或者进一步整理后提供给有关部11。目前已经有很多关于获取网上信息技术方案，但对于新闻类信息获取，还没有能定期自动启动抓取网上特定信息，并自动判定更新。
技术实现思路
为了弥补以上步足，本专利技术提供一种，能定期启动网上新闻信息抓取，并可避免重复获取新闻信息，节省空间，提高效率。本专利技术的技术方案是这样实现的一种，包括以下步骤第一步，根据待获取的新闻目录网页中的数据结构特征和源代码语法规则建立新闻目录匹配模型；第二步，根据待获取的新闻文本网页中的数据结构特征和源代码语法规则建立新闻文本匹配模型；第三步，基于MS SQL Server Agent任务调度管理器，创建任务组，该任务组为定期调动并依次执行如下模块a)获取新闻目录网页模块，就是根据该新闻目录网页的URL地址获取该网页文件的新闻目录源代码；b)抓取及保存新闻地址信息模块，就是根据该新闻目录匹配模型，抓取该新闻目录源代码中的新闻标题和新闻链接地址，保存于新闻目录信息列表，并置该新闻目录信息列表中相应的更新标识为打开状...

【技术保护点】
一种网上新闻信息定期自动抓取方法，其特征在于，包括以下步骤：第一步，根据待获取的新闻目录网页中的数据结构特征和源代码语法规则建立新闻目录匹配模型；第二步，根据待获取的新闻文本网页中的数据结构特征和源代码语法规则建立新闻文本匹配模型；第三步，基于MS？SQL？Server？Agent任务调度管理器，创建任务组，该任务组为定期调动并依次执行如下模块：a)获取新闻目录网页模块，就是根据该新闻目录网页的URL地址获取该网页文件的新闻目录源代码；b)抓取及保存新闻地址信息模块，就是根据该新闻目录匹配模型，抓取该新闻目录源代码中的新闻标题和新闻链接地址，保存于新闻目录信息列表，并置该新闻目录信息列表中相应的更新标识为打开状态；c)更新新闻目录列表模块，就是屏蔽该新闻目录信息列表中具有重复新闻标题且更新标识为打开的新闻目录信息记录；d)获取新闻文本网页模块，就是依次根据该新闻目录信息列表中更新标识打开的新闻链接地址，获取相应新闻网页文件中的新闻文本源代码，并根据该新闻文本匹配模型，抓取该新闻文本源代码中相应的新闻文本信息，并将该新闻文本信息以该相应新闻标题为文本文件名，保存于新闻文本目录，同时将该新...

【技术特征摘要】
1.一种网上新闻信息定期自动抓取方法，其特征在于，包括以下步骤第一步，根据待获取的新闻目录网页中的数据结构特征和源代码语法规则建立新闻目录匹配模型；第二步，根据待获取的新闻文本网页中的数据结构特征和源代码语法规则建立新闻文本匹配模型；第三步，基于MS SQL Server Agent任务调度管理器，创建任务组，该任务组为定期调动并依次执行如下模块 a)获取新闻目录网页模块，就是根据该新闻目录网页的URL地址获取该网页文件的新闻目录源代码； b)抓取及保存新闻地址信息模块，就是根据该新闻目录匹配模型，抓取该新闻目录源代码中的新闻标题和新闻链接地址，保存于新闻目录信息列表，并置该新闻目录信息列表中相应的更新标识为打开状态； c)更新新闻目录列表模块，就是屏蔽该新闻目录信息列表中具有重复新闻标题且更新标识为打开的新闻目录信息记录； d)获取新闻文...

【专利技术属性】
技术研发人员：卢屹韦，
申请(专利权)人：卢屹韦，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人