一种基于政府门户和新媒体的信息采集抽取方法及系统技术方案

技术编号：34608197 阅读：10 留言：0更新日期：2022-08-20 09:13

本发明专利技术公开了一种基于政府门户和新媒体信息采集抽取方法及系统，基于政府门户的信息采集和新媒体的数据采集，基于政府门户的信息采集首先对执行任务的相关属性信息进行定义，具体包括任务名称、网站/新媒体档案名称、扫描入口地址、网站域名、任务类别、最大提取页面数、采集线程数、采集方式、采集JS模版名、是否增量扫描、扫描优先级、页面url过滤、采集等待时长、是否采集附件、是否直接提取数据、提取信息标题和信息发布来源的属性定义。本发明专利技术通过“多点多网多终端”的数据提取方式，同时采网络爬虫+动态JS模版提取数据进行格式化、清洗、存储的方法，既能解决政府门户网站、新媒体信息提取不完整问题，又能大大节省存储空间的方法。法。法。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于政府门户和新媒体的信息采集抽取方法及系统

[0001]本专利技术涉及数据处理
，具体为一种基于政府门户和新媒体信息采集抽取方法及系统。

技术介绍

[0002]随着各地政府部门对政府网站、政务新媒体建设的重视，政府网站、政务新媒体已成为各级人民政府及其部门发布政府信息、提供在线服务、与公众互动交流的重要平台和窗口，在提高行政效能、提升政府公信力等方面发挥了重要作用。但有一些地方和部门政府网站存在诸多问题，比如错别字、敏感词、错误链接等，通过媒体报道进一步发酵，引发社会普遍关注，对政府形象造成严重影响。
[0003]对于政府门户网站及新媒体发布后信息的错别字、敏感词、错误链接等检测。通常情况下，是搭建单台或多台扫描服务器，使用网络爬虫+动态JS模版技术进行数据提取，然后再采用人工或专用软件对发布信息文字进行检查。当信息中包含错别字、敏感词、错误链接时，系统将根据具体片段进行提示，最后经人工核对加以确认。
[0004]通常在对政府门户网站及新媒体发布后信息提取时，因为政府部门网站服务多是部署在政务内网，如果频繁提取数据，由于政府部门网络安全策略原因，会对数据提取加以限制，导致数据提取会不完整，不能达到业务要求。同时，对于网站和新媒体所提取的数据，很多时候有文字、样式文件、图片、附件、视频等多种格式，数据中含有大量冗余数据，这样要求数据存储要有比较大的空间，随时网站及新媒体数据越来越多，存储服务器空间扩展也非常之快，从而导致用户投入的硬件成本非常巨大。

技术实现思路

[0005]...

【技术保护点】

【技术特征摘要】
1.一种基于政府门户和新媒体的信息采集抽取系统，其特征在于，包括分别设置在各个地点的多个数据采集集群点，多个所述的数据采集集群点分别通过不同的网络运营商接入互联网，与多个所述的数据采集集群点连接的服务器，以及与所述服务器连接的PC端和多个智能终端。2.一种基于政府门户和新媒体的信息采集抽取方法，其特征在于，所述方法包括：对目标任务的属性信息进行定义，所述属性信息包括：任务名称、网站/新媒体档案名称、扫描入口地址、网站域名、任务类别、最大提取页面数、采集线程数、采集方式、采集JS模版名、是否增量扫描、扫描优先级、页面URL过滤、采集等待时长、是否采集附件、是否直接提取数据、提取信息标题和信息发布来源的属性中的一种或几种；通过消息队列调用多个采集客户端方式采集管理器执行所述目标任务，包括：通过采集管理器向消息队列发送采集申请；消息队列接收到采集申请后，通过服务器发送采集请求给采集客户端；采集客户端进行数据采集；采集客户端将结果返回给消息队列；采集管理器向消息队列获取采集结果数据。3.根据权利要求2所述的基于政府门户和新媒体的信息采集抽取方法，其特征在于，所述采集客户端进行数据采集的步骤包括：通过采集客户端爬虫程序使用静态爬取+嵌入动态JS脚本方式，提取不同站点的媒体数据。4.根据权利要求3所述的基于政府门户和新媒体的信息采集抽取方法，其特征在于，所述通过采集客户端爬虫程序使用静态爬取+嵌入动态JS脚本方式，提取不同站点的媒体数据的步骤包括：嵌入动态JS脚本采用爬虫程序，在页面访问时，同时执行Javascript脚本，进行页面HTML元素事件调用，进而提取页面数据。5.根据权利要求4所述的基于政府门户和新媒体的信息采集抽取方法，其特征在于，所述嵌入动态JS脚本采用爬虫程序，在页面访问时，同时执行Javascript脚本，进行页面HTML元素事件调用，进而提取页面数据的步骤包括：S1：通过动态JS脚本采用爬虫程序访问扫描地址，根据HTTP协议规范访问扫描地址；S2:处理URL跳转或重定向，包括Http Tag跳转或Javascript跳转；S3:进行网页有效性检查，包括是否改版或漂移的检查，以及页面深度判别处理，在扫描前，对页面提取的层级数进行定义；S4:判断是否使用动态嵌入JS脚本进行数据提取；如果是，执行动态嵌入的JS脚本、网页资源数据下载及其完整性检查；如果否，直接进行页面静态数据提取；S5:网页有效性页面排重处理，包括主干网页有效性即是否漂移检查和页面重复冗余判别，重复页面将不再提取；对于...

【专利技术属性】
技术研发人员：朱自力，
申请(专利权)人：北京网景盛世技术开发中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人