数据收集筛选用服务器及政策数据收集系统技术方案

技术编号:29614479 阅读:22 留言:0更新日期:2021-08-10 18:28
本发明专利技术属于数据筛选技术领域,具体涉及一种数据收集筛选用服务器及政策数据收集系统,其中数据收集筛选用服务器包括:数据库构建模块,构建政策数据收集数据库;基本数据收集模块,根据政策数据收集数据库收集基本数据;筛选模块,根据政策数据筛选模型在基本数据中筛选核心数据;政策数据模块,根据核心数据构建政策数据,实现了将网络上各政策数据的收集和整理,便于用户一次访问可以同时了解各种政策,节约了时间成本。

【技术实现步骤摘要】
数据收集筛选用服务器及政策数据收集系统
本专利技术属于数据筛选
,具体涉及一种数据收集筛选用服务器及政策数据收集系统。
技术介绍
随着网络技术的发展,传统的由纸质文件报刊等发布政策的途径现在更改为政策会在网络上第一时间进行发布,但是发布政策的网站较为多样,当需要了解多个政策的时候需要访问多个网站,费时费力。因此,基于上述技术问题需要设计一种新的数据收集筛选用服务器及政策数据收集系统。
技术实现思路
本专利技术的目的是提供一种数据收集筛选用服务器及政策数据收集系统。为了解决上述技术问题,本专利技术提供了一种数据收集筛选用服务器,包括:数据库构建模块,构建政策数据收集数据库;基本数据收集模块,根据政策数据收集数据库收集基本数据;筛选模块,根据政策数据筛选模型在基本数据中筛选核心数据;政策数据模块,根据核心数据构建政策数据。进一步,所述数据库构建模块适于构建政策数据收集数据库,即收集发布有政策信息的网站的网址,将各网址存储在数据库中,构成政策数据收集数据库。进一步,所述基本数据收集模块适于根据政策数据收集数据库收集基本数据,即采用网络爬虫的爬取方法在政策数据收集数据库中所有的网址中获取各网站的所有原始数据,并对原始数据进行筛选获取基本数据。进一步,所述筛选模块适于根据政策数据筛选模型在基本数据中筛选核心数据,即将基本数据划分为段落集合,根据政策种类的关键词识别段落集合中每个段落的关键词,并在关键词中识别核心词,即将段落划分为n个词形成词集合C,并识别词集合C中的关键词;针对词集合C中关键词Ci,计算该关键词Ci与词集合C中其余任一词的共现次数;获取关键词Ci的语境共现熵值:其中,H(Ci)为根据政策种类的关键词识别段落集合中每个段落的关键词Ci的语境共现熵值;为其它词Cj和词Ci的共现次数;获取所有关键词的语境共现熵值后,将所有关键词的语境共现熵值进行比较,语境共现熵值最大的关键词为核心词;根据政策种类的关键词判断核心词对应的政策种类,该核心词所属的段落内容对应该政策种类,进而判断每一个段落所属的政策种类。进一步,所述政策数据模块适于根据核心数据构建政策数据,即根据段落所属的政策种类将每一个段落划分至对应的政策种类,以构建政策数据。另一方面,本专利技术还提供一种政策数据收集系统,包括:服务器,所述服务器适于收集筛选政策数据;上位机,所述上位机适于接收并显示所述服务器收集筛选的政策数据。本专利技术的有益效果是,本专利技术通过数据库构建模块,构建政策数据收集数据库;基本数据收集模块,根据政策数据收集数据库收集基本数据;筛选模块,根据政策数据筛选模型在基本数据中筛选核心数据;政策数据模块,根据核心数据构建政策数据,实现了将网络上各政策数据的收集和整理,便于用户一次访问可以同时了解各种政策,节约了时间成本。本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术所涉及的数据收集筛选用服务器的原理框图;图2是本专利技术所涉及的政策数据收集系统的原理框图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例1图1是本专利技术所涉及的数据收集筛选用服务器的原理框图。如图1所示,本实施例1提供了一种数据收集筛选用服务器,包括:数据库构建模块,构建政策数据收集数据库;基本数据收集模块,根据政策数据收集数据库收集基本数据;筛选模块,根据政策数据筛选模型在基本数据中筛选核心数据;政策数据模块,根据核心数据构建政策数据,实现了将网络上各政策数据的收集和整理,便于用户一次访问可以同时了解各种政策,节约了时间成本。在本实施例中,所述数据库构建模块适于构建政策数据收集数据库,即收集发布有政策信息的网站的网址,将各网址存储在数据库中,构成政策数据收集数据库。在本实施例中,所述基本数据收集模块适于根据政策数据收集数据库收集基本数据,即采用网络爬虫的爬取方法在政策数据收集数据库中所有的网址中获取各网站的所有原始数据,并对原始数据进行筛选获取基本数据;可以采用不同的爬取技术以应对不同网站的反爬虫策略,例如Requests、Selenium等;采用Beautifulsoup、Selenium等技术对网站上原始数据基尼选哪个筛选,去除原始数据中HTML标签、CSS样式等,获取基本数据,该基本数据即为各网站上发布的含有政策的数据。在本实施例中,所述筛选模块适于根据政策数据筛选模型在基本数据中筛选核心数据,即将基本数据划分为段落集合,根据政策种类的关键词识别段落集合中每个段落的关键词,并在关键词中识别核心词,即将段落划分为n个词形成词集合C,并识别词集合C中的关键词;针对词集合C中关键词Ci,计算该关键词Ci与词集合C中其余任一词的共现次数;获取关键词Ci的语境共现熵值:其中,H(Ci)为根据政策种类的关键词识别段落集合中每个段落的关键词Ci的语境共现熵值;为其它词Cj和词Ci的共现次数;获取所有关键词的语境共现熵值后,将所有关键词的语境共现熵值进行比较,语境共现熵值最大的关键词为核心词;若段落中只出现了一种关键词则该关键词即为核心词;若段落中语境共现熵值最大的关键词为多个则该段落具有多个核心词,在判断段落对应的政策种类时,将该段落同时划分为多个政策种类;根据政策种类的关键词判断核心词对应的政策种类,该核心词所属的段落内容对应该政策种类,进而判断每一个段落所属的政策种类。在本实施例中,所述政策数据模块适于根据核心数据构建政策数据,即根据段落所属的政策种类将每一个段落划分至对应的政策种类,以构建政策数据;每一个政策种类的目录下有从其他网站收集具有该政策种类对应的关键词的段落内容,便于用户一次访问可以同时了解各种政策,节约了时间成本。在本实施例中,政策种类的划分及政策种类关键词的提取可以根据所需采集的政策方向进行设置;例如,需要收集关于养老政策的数据时,可以划分和养老有关的政策种类及相关关键词,以精准的收集养老方面的政策本文档来自技高网...

【技术保护点】
1.一种数据收集筛选用服务器,其特征在于,包括:/n数据库构建模块,构建政策数据收集数据库;/n基本数据收集模块,根据政策数据收集数据库收集基本数据;/n筛选模块,根据政策数据筛选模型在基本数据中筛选核心数据;/n政策数据模块,根据核心数据构建政策数据。/n

【技术特征摘要】
1.一种数据收集筛选用服务器,其特征在于,包括:
数据库构建模块,构建政策数据收集数据库;
基本数据收集模块,根据政策数据收集数据库收集基本数据;
筛选模块,根据政策数据筛选模型在基本数据中筛选核心数据;
政策数据模块,根据核心数据构建政策数据。


2.如权利要求1所述的数据收集筛选用服务器,其特征在于,
所述数据库构建模块适于构建政策数据收集数据库,即
收集发布有政策信息的网站的网址,将各网址存储在数据库中,构成政策数据收集数据库。


3.如权利要求2所述的数据收集筛选用服务器,其特征在于,
所述基本数据收集模块适于根据政策数据收集数据库收集基本数据,即
采用网络爬虫的爬取·在政策数据收集数据库中所有的网址中获取各网站的所有原始数据,并对原始数据进行筛选获取基本数据。


4.如权利要求3所述的数据收集筛选用服务器,其特征在于,
所述筛选模块适于根据政策数据筛选模型在基本数据中筛选核心数据,即将基本数据划分为段落集合,根据政策种类的关键词识别段落集合中每个段落的关键词,并在...

【专利技术属性】
技术研发人员:卢剑伟于世著
申请(专利权)人:常州慈养林信息技术有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1