一种电网网站智能网络信息公开巡查方法及系统技术方案

技术编号:39315688 阅读:14 留言:0更新日期:2023-11-12 15:59
本发明专利技术公开了一种电网网站智能网络信息公开巡查方法包括:采集网页数据;将网页数据进行标记并本地存储;针对各项检查的规则,创建参数配置信息;依据参数配置信息,逐项进行检查校验,并记录结果;对结果记录进行二次汇总处理,并形成报告文件。本发明专利技术小巧轻便,支持有外网的PC随拷随用,免于安装部署等;针对检查项目支持参数配置,适应后续的业务检查调整;代替原先的人工检查,本工具可快速出具检查结果,工作效率得到有效的提升。工作效率得到有效的提升。工作效率得到有效的提升。

【技术实现步骤摘要】
一种电网网站智能网络信息公开巡查方法及系统


[0001]本专利技术涉及互联网
,具体为一种电网网站智能网络信息公开巡查方法。

技术介绍

[0002]如今,人类社会已经进入了大数据时代,数据已经成为必不可少的部分,可见数据的获取非常重要,如何从海量的信息中,找出我们需要的数据也变的非常麻烦。
[0003]各大电网的网站上的公开信息越来越繁杂,采用传统的人工来负责检查各供电局上报的各类信息公开内容是否满足广西电网要求,工作量较大且效率不高。
[0004]而采用现有的网络爬虫技术,无法满足电网服务器的安全需求,因此,现在需要一款既能帮助人工筛选信息,又能满足电网服务器的安全需求的软件方法。

技术实现思路

[0005]本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。
[0006]鉴于上述存在的问题,提出了本专利技术。
[0007]因此,本专利技术解决的技术问题是:各大电网的网站上的公开信息繁杂,采用传统的人工来负责检查各供电局上报的各类信息公开内容无法满足电网要求,工作量较大且效率不高,而采用现有的网络爬虫技术,无法满足电网服务器的安全需求。
[0008]为解决上述技术问题,本专利技术提供如下技术方案:一种电网网站电网网站智能网络信息公开巡查方法,包括:
[0009]将网页数据进行标记并本地存储;
[0010]采集各项数据;
[0011]针对各项数据检查的规则,创建参数配置信息;
[0012]依据参数配置信息,逐项进行检查校验,并记录结果;
[0013]对结果记录进行二次汇总处理,并形成报告文件。
[0014]作为本专利技术所述的电网网站智能网络信息公开巡查方法的一种优选方案,其中:所述将网页数据进行标记并本地存储,包括:利用网络爬虫技术,先把网页上的文字内容、附件内容进行标记本地存储。
[0015]作为本专利技术所述的电网网站智能网络信息公开巡查方法的一种优选方案,其中:所述采集各项数据包括:企业情况、供电质量及两率情况、用户受电工程信息、停限电信息、信息公开指南、信息公开年报。
[0016]作为本专利技术所述的电网网站智能网络信息公开巡查方法的一种优选方案,其中:所述针对各项数据检查的规则包括:
[0017]采用TF

IDF权重计算方法、K

Means聚类算法以及卷积神经网络算法来进行数据规则筛选;
[0018]当检查项目为企业情况时,对命名规则、办公地址、营业场所、联系防止和供电类电力业务许可证及编号进行数据检查;
[0019]当检查项目为信息公开指南时,对命名规则、信息分类、公开形式、受理机构、办公地址、办公时间、联系电话、传真号码、电子邮箱、申请方式、申请处理、办理期限、收费标准、监督保障、公开目录、公开申请表进行数据检查;
[0020]当检查项目为信息公开年报时,对命名规则、企业供电工作情况、信息公开工作情况、申请公开信息、向国家能源局报送信息、信息公开管理相关举措、企业供电信息公开工作待改进情况、下一步工作计划、时限要求进行数据检查;
[0021]当检查项目为供电质量及两率情况时,对命名规则、供电可靠率、电压合格率进行数据检查;
[0022]当检查项目为用户受电工程信息时,对命名规则和客户名称进行数据检查;
[0023]用户受电工程信息的客户名称需检查页面内是否有上传附件;
[0024]当检查项目为停限电信息时,对命名规则、开始时间、结束时间、停电线路、停电范围、时限要求以及是否有附件进行数据检查;
[0025]将没有附件的单位列出,其余单位的开始时间、结束时间、停电线路、停电范围需要到附件表格中检查。
[0026]作为本专利技术所述的电网网站智能网络信息公开巡查方法的一种优选方案,其中:所述检查校验包括:
[0027]按关键字的筛选结果,匹配分为三个等级,T1、T2、T3,
[0028]当数据信息完全包含全部关键字时,则匹配等级为T1级,该数据信息100%符合筛选要求,存储到信息汇总表;
[0029]当数据信息完全不包含关键字时,则匹配等级为T2级,该数据信息0%符合筛选要求,并将其剔除;
[0030]当数据信息不完全包含全部关键字时,则该数据信息将单独归为一个信息表中,还需进行二次筛选;
[0031]二次筛选中,等级分为T11,T12,
[0032]若该部分关键字或关键字组合包含具体名词,则匹配等级为T11级,该数据信息120~200%符合筛选要求,将其标记为黄色,存储到信息汇总表;
[0033]当信息汇总表中出现黄色信息时,则会根据检查要求简化掉部分关键字和关键词,缩小数据筛选范围,再次迭代新一轮的检查校验,直至数据信息100%符合筛选要求为止;
[0034]若剩余不符合筛选要求的信息数量超过符合筛选要求的信息,则视为T3级,产生报警,此时存在迭代算法故障,需联系程序员进行迭代算法的检查和维修维护;
[0035]若该部分关键字或关键字组合无法拼凑出有效名词,则匹配等级为T12级,该数据信息0%符合筛选要求,将该数据剔除;
[0036]在开始实验阶段中,当数据信息完全包含关键字且未筛选时,则匹配等级为T3级,此时存在参数配置信息错误,需联系程序员进行关键字的参数配置信息检查和维护修改;
[0037]依据各项生成的不同关键字信息,对电网网站进行数据检查,将符合要求的关键字信息生成汇总到一个excel文档中,后续结果信息按照供电局名称进行分类保存。
[0038]作为本专利技术所述的电网网站智能网络信息公开巡查方法的一种优选方案,其中:所述报告文件包括:将6类检查结果,按区域和检查分类汇总输出一个excel文档,该excel文档将作为最终报告文件。
[0039]作为本专利技术所述的电网网站智能网络信息公开巡查方法的一种优选方案,其中:所述创建参数配置信息,包括:通过采用正则表达式的数据提取方法进行关键字筛选,确定源数据和获取整体数据,按照目标数据定义正则表达式匹配规则,从整体数据中匹配符合要求的数据。
[0040]作为本专利技术所述的电网网站智能网络信息公开巡查方法的一种优选方案,其中:所述正则表达式,包括:通过python操作正则表达式,python内置了re模块,可以快捷的操作正则表达式语法完成字符串的查询匹配操作行为:
[0041]通过compile函数根据给定的正则表达式编译生成正则匹配对象,通过正则匹配对象完成字符串的查询匹配操作过程;
[0042]通过正则匹配到的值对象value,可以通过指定的函数输出匹配到的数据的信息。
[0043]作为本专利技术所述的电网网站智能网络信息公开巡查系统,其中:
[0044]信息存储模块:用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电网网站智能网络信息公开巡查方法,其特征在于,包括:将网页数据进行标记并本地存储;采集各项数据;针对各项数据检查的规则,创建参数配置信息;依据参数配置信息,逐项进行检查校验,并记录结果;对结果记录进行二次汇总处理,并形成报告文件。2.如权利要求1所述的电网网站智能网络信息公开巡查方法,其特征在于,所述将网页数据进行标记并本地存储,包括:利用网络爬虫技术,先把网页上的文字内容、附件内容进行标记本地存储,存储到数据库中。3.如权利要求1或2所述的电网网站智能网络信息公开巡查方法,其特征在于,所述采集各项数据包括:企业情况、供电质量及两率情况、用户受电工程信息、停限电信息、信息公开指南、信息公开年报。4.如权利要求3所述的电网网站智能网络信息公开巡查方法,其特征在于,所述针对各项数据检查的规则包括:采用TF

IDF权重计算方法、K

Means聚类算法以及卷积神经网络算法来进行数据规则筛选;当检查项目为企业情况时,对命名规则、办公地址、营业场所、联系防止和供电类电力业务许可证及编号进行数据检查;当检查项目为信息公开指南时,对命名规则、信息分类、公开形式、受理机构、办公地址、办公时间、联系电话、传真号码、电子邮箱、申请方式、申请处理、办理期限、收费标准、监督保障、公开目录、公开申请表进行数据检查;当检查项目为信息公开年报时,对命名规则、企业供电工作情况、信息公开工作情况、申请公开信息、向国家能源局报送信息、信息公开管理相关举措、企业供电信息公开工作待改进情况、下一步工作计划、时限要求进行数据检查;当检查项目为供电质量及两率情况时,对命名规则、供电可靠率、电压合格率进行数据检查;当检查项目为用户受电工程信息时,对命名规则和客户名称进行数据检查;用户受电工程信息的客户名称需检查页面内是否有上传附件;当检查项目为停限电信息时,对命名规则、开始时间、结束时间、停电线路、停电范围、时限要求以及是否有附件进行数据检查;将没有附件的单位列出,其余单位的开始时间、结束时间、停电线路、停电范围需要到附件表格中检查。5.如权利要求4所述的电网网站智能网络信息公开巡查方法,其特征在于,所述检查校验包括:按关键字的筛选结果,匹配分为三个等级,T1、T2、T3,当数据信息完全包含全部关键字时,则匹配等级为T1级,该数据信息100%符合筛选要求,存储到信息汇总表;当数据信息完全不包含关键字时,则匹配等级为T2级,该数据信息0%符合筛选要求,并将其剔除;
当数据信息不完全包含全部关键字时,则该数据信息将单独归为一个信息表中,还需进行二次筛选;二次筛选中,等级分为T11,T12,若该部分关键字或关键字组合包含具体名词,则匹配等级为T11级,该数据信息120~200%符合筛选要求,将其...

【专利技术属性】
技术研发人员:陈巧庞凌云李晖洪莹吕姗珊黄栩杰袁小惠黄玉珊李姗珊郑毅
申请(专利权)人:广西电网有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1