一种基于政府门户和新媒体的信息采集抽取方法及系统技术方案

技术编号:34608197 阅读:10 留言:0更新日期:2022-08-20 09:13
本发明专利技术公开了一种基于政府门户和新媒体信息采集抽取方法及系统,基于政府门户的信息采集和新媒体的数据采集,基于政府门户的信息采集首先对执行任务的相关属性信息进行定义,具体包括任务名称、网站/新媒体档案名称、扫描入口地址、网站域名、任务类别、最大提取页面数、采集线程数、采集方式、采集JS模版名、是否增量扫描、扫描优先级、页面url过滤、采集等待时长、是否采集附件、是否直接提取数据、提取信息标题和信息发布来源的属性定义。本发明专利技术通过“多点多网多终端”的数据提取方式,同时采网络爬虫+动态JS模版提取数据进行格式化、清洗、存储的方法,既能解决政府门户网站、新媒体信息提取不完整问题,又能大大节省存储空间的方法。法。法。

【技术实现步骤摘要】
一种基于政府门户和新媒体的信息采集抽取方法及系统


[0001]本专利技术涉及数据处理
,具体为一种基于政府门户和新媒体信息采集抽取方法及系统。

技术介绍

[0002]随着各地政府部门对政府网站、政务新媒体建设的重视,政府网站、政务新媒体已成为各级人民政府及其部门发布政府信息、提供在线服务、与公众互动交流的重要平台和窗口,在提高行政效能、提升政府公信力等方面发挥了重要作用。但有一些地方和部门政府网站存在诸多问题,比如错别字、敏感词、错误链接等,通过媒体报道进一步发酵,引发社会普遍关注,对政府形象造成严重影响。
[0003]对于政府门户网站及新媒体发布后信息的错别字、敏感词、错误链接等检测。通常情况下,是搭建单台或多台扫描服务器,使用网络爬虫+动态JS模版技术进行数据提取,然后再采用人工或专用软件对发布信息文字进行检查。当信息中包含错别字、敏感词、错误链接时,系统将根据具体片段进行提示,最后经人工核对加以确认。
[0004]通常在对政府门户网站及新媒体发布后信息提取时,因为政府部门网站服务多是部署在政务内网,如果频繁提取数据,由于政府部门网络安全策略原因,会对数据提取加以限制,导致数据提取会不完整,不能达到业务要求。同时,对于网站和新媒体所提取的数据,很多时候有文字、样式文件、图片、附件、视频等多种格式,数据中含有大量冗余数据,这样要求数据存储要有比较大的空间,随时网站及新媒体数据越来越多,存储服务器空间扩展也非常之快,从而导致用户投入的硬件成本非常巨大。

技术实现思路

[0005]本专利技术的目的在于提供一种基于政府门户和新媒体信息采集抽取方法及系统,
[0006]本专利技术是这样实现的:
[0007]一种基于政府门户和新媒体信息采集抽取方法及系统,包括分别设置在各个地点的多个数据采集集群点,多个所述的数据采集集群点分别通过不同的网络运营商接入互联网,与多个所述的数据采集集群点连接的服务器,以及与所述服务器连接的PC端和多个智能终端。
[0008]进一步,基于政府门户和新媒体信息采集抽取方法,政府门户的信息的数据源包括政府门户网站、政府微信公众号、政务APP、政务微博或其他新媒体。
[0009]基于政府门户的信息采集首先:
[0010]S1:对执行任务的相关属性信息进行定义,具体包括任务名称、网站/新媒体档案名称、扫描入口地址、网站域名、任务类别、最大提取页面数、采集线程数、采集方式、采集JS模版名、是否增量扫描、扫描优先级、页面url过滤、采集等待时长、是否采集附件、是否直接提取数据、提取信息标题和信息发布来源的属性中的一种或几种;
[0011]S2:通过采集管理器进行任务执行,具体通过消息队列调用多个Client方式进行;
[0012]通过采集管理器向消息队列发送采集申请;消息队列接收到采集申请后,通过服务器发送采集请求给采集客户端;采集客户端进行数据采集;采集客户端将结果返回给消息队列;采集管理器向消息队列获取采集结果数据。
[0013]进一步,在对于采集客户端的爬虫程序,使用静态爬取+嵌入动态JS脚本方式,进行不同站点、媒体数据的提取。嵌入动态JS脚本采用爬虫程序,在页面访问时,同时执行嵌入动态脚本,进行页面HTML元素事件调用,然后再提取页面数据。具体按以下步骤执行:
[0014]S
5.1
:通过动态JS脚本采用爬虫程序访问扫描地址,根据HTTP协议规范访问扫描地址,即入口地址;
[0015]S
5.2
:处理跳转及重定向,处理URL跳转或重定向,具体包括Http Tag跳转或javascript跳转;
[0016]S
5.3
:进行网页有效性检查,具体是处理网页有效性,包括是否改版或漂移的检查,以及页面深度判别处理,在扫描前,会对页面提取的层级数进行定义;
[0017]S
5.4
:判断是否动态数据提取判别,是指页面数据提取机制判别,是否使用动态嵌入JS脚本进行数据提取与否;如果是,将执行动态嵌入的JS脚本,网页资源数据下载及其完整性检查;如果否,将直接进行页面静态数据提取;
[0018]S
5.5
:网页有效性页面排重处理,是指对提取页面信息时,进行主干网页有效性即是否漂移检查和页面重复冗余判别,重复页面将不再提取;对于后续数据提取,将根据入口地址的结构启动设定好的最大线程数内的线程对被引用的网页、元素、外链进行逐一的多线程并发处理采集;
[0019]S
5.6
:进行页面格式修正及格式转,是指对HTML文件格式修正,对非对称TAG的补齐,非法TAG的替换或删除,W3C规范性检查;以及对HTML

XML文件格式转换,将HTML文件格式转化为XML文件格式,方便后续数据的提取;
[0020]S
5.7
:页面数据提取,是根据网页解析表达式匹配目标网页中相应的元素集合,将这些元素集合从其他元素的包围中分解出来;根据内容抽取表达式,在相应元素集合中抽取元素,同时对网页元素过滤、网页元素循环处理、Form表单处理、网页间数据交换等抽取方式;网站、新媒体信息的清洗和格式化抽取处理,按文章冗余信息的清理,对文章的标题、发文单位、发文时间、正文、所在栏目、原文链接、信息附件等格式化处理;
[0021]S
5.8
:页面数据存储是将网站、新媒体信息的分布式存储、快照存档,具体为对采集到页面中的标题、发文单位、发文时间、正文、所在栏目、原文链接、信息附件等对文章的关键词进行自动提炼分析、建立索引,然后利用互联网搜索引擎技术实现有针对性、行业性、精准性的数据检索,并进行筛选标准进行数据归类,形成数据库,在数据库中的结果数据通过消息队列,进行数据传输,和其它业务系统建立连接或交互,将此部分做为对外部系统的对接部分。
[0022]进一步,新媒体的数据采集按以下步骤执行,
[0023]S
7.1
:首先通过新媒体账号模拟新媒体的登录、访问行为,以少量账号链接为种子,找出新媒体所发的信息链接;
[0024]S
7.2
:利用信息之间的关注与被关注关系获取新媒体账号信息,获得更多账号链接和账号所发表的信息链接;
[0025]S
7.3
:进一步对新媒体账号进行查重后,生成新的种子。
[0026]S
7.4
:不断进行S
7.1
‑‑
S
7.3
,全面的获取到完整的新媒体信息。
[0027]进一步,一种计算机可读存储介质,其上存储有计算机程序,所述程序被主控制器执行时实现如上述中的任一项所述的方法。
[0028]与现有技术相比,本专利技术的有益效果是:
[0029]1、本专利技术在处理器政府网站、新媒体信息提取和访问安全策略处理方面,使用多地点、多网络、多终端方式,采用网络爬虫+动态JS模版模拟人工访问方式进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于政府门户和新媒体的信息采集抽取系统,其特征在于,包括分别设置在各个地点的多个数据采集集群点,多个所述的数据采集集群点分别通过不同的网络运营商接入互联网,与多个所述的数据采集集群点连接的服务器,以及与所述服务器连接的PC端和多个智能终端。2.一种基于政府门户和新媒体的信息采集抽取方法,其特征在于,所述方法包括:对目标任务的属性信息进行定义,所述属性信息包括:任务名称、网站/新媒体档案名称、扫描入口地址、网站域名、任务类别、最大提取页面数、采集线程数、采集方式、采集JS模版名、是否增量扫描、扫描优先级、页面URL过滤、采集等待时长、是否采集附件、是否直接提取数据、提取信息标题和信息发布来源的属性中的一种或几种;通过消息队列调用多个采集客户端方式采集管理器执行所述目标任务,包括:通过采集管理器向消息队列发送采集申请;消息队列接收到采集申请后,通过服务器发送采集请求给采集客户端;采集客户端进行数据采集;采集客户端将结果返回给消息队列;采集管理器向消息队列获取采集结果数据。3.根据权利要求2所述的基于政府门户和新媒体的信息采集抽取方法,其特征在于,所述采集客户端进行数据采集的步骤包括:通过采集客户端爬虫程序使用静态爬取+嵌入动态JS脚本方式,提取不同站点的媒体数据。4.根据权利要求3所述的基于政府门户和新媒体的信息采集抽取方法,其特征在于,所述通过采集客户端爬虫程序使用静态爬取+嵌入动态JS脚本方式,提取不同站点的媒体数据的步骤包括:嵌入动态JS脚本采用爬虫程序,在页面访问时,同时执行Javascript脚本,进行页面HTML元素事件调用,进而提取页面数据。5.根据权利要求4所述的基于政府门户和新媒体的信息采集抽取方法,其特征在于,所述嵌入动态JS脚本采用爬虫程序,在页面访问时,同时执行Javascript脚本,进行页面HTML元素事件调用,进而提取页面数据的步骤包括:S1:通过动态JS脚本采用爬虫程序访问扫描地址,根据HTTP协议规范访问扫描地址;S2:处理URL跳转或重定向,包括Http Tag跳转或Javascript跳转;S3:进行网页有效性检查,包括是否改版或漂移的检查,以及页面深度判别处理,在扫描前,对页面提取的层级数进行定义;S4:判断是否使用动态嵌入JS脚本进行数据提取;如果是,执行动态嵌入的JS脚本、网页资源数据下载及其完整性检查;如果否,直接进行页面静态数据提取;S5:网页有效性页面排重处理,包括主干网页有效性即是否漂移检查和页面重复冗余判别,重复页面将不再提取;对于...

【专利技术属性】
技术研发人员:朱自力
申请(专利权)人:北京网景盛世技术开发中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1