一种基于scrapy爬虫技术的变电站环境预警方法及系统技术方案

技术编号:37299935 阅读:12 留言:0更新日期:2023-04-21 22:46
本发明专利技术涉及一种基于scrapy爬虫技术的变电站环境预警方法及系统,通过scrapy爬虫技术,自动抓取变电站环境信息,同时根据层次分析法,构建变电站环境评价指标体系,根据抓取信息和指标体系编写变电站环境预警系统,实现变电站的环境自动预警。本发明专利技术可自动进行变电站环境信息的识别和抓取,通过抓取数据自动对变电站环境风险进行研判和预警,对减少变电站运行过程中的环境影响具有一定的指导。运行过程中的环境影响具有一定的指导。运行过程中的环境影响具有一定的指导。

【技术实现步骤摘要】
一种基于scrapy爬虫技术的变电站环境预警方法及系统


[0001]本专利技术属于大数据分析领域,尤其是一种基于scrapy爬虫技术的变电站环境预警方法及系统。

技术介绍

[0002]我国各级生态环境主管部门不断加大对环境违法行为的监督检查力度,严厉惩治环境违法行为,并鼓励建立以大数据为支撑的常态化、网格化生态环境监督执法和综合决策体系。生态环境大数据成为生态环境主管部门开展环境质量监管和污染防治工作的重要支撑性工具。
[0003]然而,目前没有一种方法能够对变电站环境监测实现自动预警,迫切需要开发一种变电站环境预警方法。

技术实现思路

[0004]本专利技术的目的在于克服现有技术的不足之处,提供一种基于scrapy爬虫技术的变电站环境预警方法和系统,能够实现变电站环境自动预警。
[0005]本专利技术解决技术问题所采用的技术方案是:
[0006]本专利技术的第一方面是提供了一种基于scrapy爬虫技术的变电站环境预警方法,通过scrapy爬虫技术,自动抓取变电站环境信息,同时根据层次分析法,构建变电站环境评价指标体系,根据抓取信息和指标体系编写变电站环境预警系统,实现变电站的环境自动预警。
[0007]进一步地,所述构建变电站环境评价指标体系是将变电站环境评价指标作为目标层,将环境管理、生态保护、污染防治、社会监督四个方面设定为准则层,在准则层下设定多个指标作为指标层,将目标层与准则层、准则层与指标层进行分解,设定判断值既是对下一层两个元素相对上一层的相对权重值,两个元素分别设为a
i
、a
j
,相对权重值设为a
ij
,元素的数量设为n,则判断矩阵设为A=(a
ij
)n
×
n,对a
ij
值的判定值量化标准采用1

9标度进行赋值,根据HJ24标准中对第i元素相对第j元素重要性进行赋值,分别构建准侧层和指标层判断矩阵,最后计算权向量并检验。
[0008]进一步地,计算对比矩阵一致性程度的公式为:CR=CI/RI,当CR<0.1时,认为矩阵的一致程度可以被接受,如果CR≥0.1,则认为矩阵一致程度无法接受,需要对矩阵中第i元素相对第j元素重要性进行调整,直到矩阵满足CR<0.1的标准为止,公式中CI=(λmax

n)/(n

1)。
[0009]进一步地,根据构建的结构模型,从上至下对各层级分别进行计算,得出每一层指标对应上一层的权重,经过逐层计算,则可计算出最底层的指标对于最上层的权重值,并将各层权重值分别相加则得出综合权重值,将各指标值与综合权重值相乘,累计得分结果则可以得出综合评分值,为变电站的环境评价指标最终得分值。
[0010]进一步地,通过scrapy爬虫技术自动抓取变电站环境信息后需要剔除不完整数
据、剔除数据多余属性、转换数据格式、提取用户行为数据。
[0011]进一步地,当数据存储到数据库之后需要对数据的准确性进行衡量,采用MSE来衡量预测精度,采用F值来衡量分类误差,
[0012][0013]其中,T为预测的爬取列表,Rua表示爬取数据u对偏重数据a的实际值,

Rua表示结果数据u对偏重数据a的预测值。
[0014]进一步地,在判断数据的准确性后对数据进行过滤和去重。
[0015]本专利技术的第二方面是提供了一种基于scrapy爬虫技术的变电站环境预警系统,包括:
[0016]数据获取模块,用于自动抓取变电站环境信息;
[0017]数据分析模块,用于构建变电站环境评价指标体系;
[0018]自动预警模块,根据抓取信息和指标体系编写变电站环境预警系统,实现变电站的环境自动预警。
[0019]本专利技术的优点和积极效果是:
[0020]本专利技术可自动进行变电站环境信息的识别和抓取,通过抓取数据自动对变电站环境风险进行研判和预警,对减少变电站运行过程中的环境影响具有一定的指导。
附图说明
[0021]图1为数据抓取算法流程图;
[0022]图2为层次结构模型图。
具体实施方式
[0023]下面将参考附图并结合实施例来详细说明本专利技术。需要指出的是,除非另有指明,本申请使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。
[0024]本专利技术通过scrapy爬虫技术,自动抓取变电站环境信息,同时根据层次分析法,构建变电站环境评价指标体系,根据抓取信息和指标体系编写变电站环境预警系统,实现变电站的环境自动预警。
[0025]1.Scrapy框架爬虫算法设计
[0026](1)数据抓取流程
[0027]数据抓取算法采取的流程详见图1。
[0028](2)数据抓取的详细算法
[0029]①
子模块算法介绍
[0030]对指定的信息网站的URL地址进行请求,模拟浏览器打开网页,进行信息筛选与采集,向服务器发起request请求获取网页源代码,源代码中进行信息再筛选采集并对其进行存储和处理。使用Selenium库的webdriver类运行,锁定网站的搜索框、选择框,对其进行点击操作进行信息筛选,打开目标数据所在的网页。
[0031]使用webdriver库自带的page_source方法获取目标数据信息所在的网页的源代
码,使用re库的findAll()方法获取当前页的目标数据,并对其存储到mysql数据库。翻页的操作的算法是先判断当前页是否是尾页,如果是则中止程序,否则继续放到下一页,可以根据地址的URL进行页数+1,也可以使用phantornjs的无界面浏览器模式模拟点击下一下的按钮进行翻页,依次循环直到最后一页。
[0032]在对于需要大量爬取数据的网页时,会不断对关键字进行筛选,在保证质量的前提下,尽量缩小紧缩范围,这样缩短了爬取时间并且提高了数据准确性。
[0033]算法的优化可以采用多线程,当要爬取多个网页的时候,为了提高爬虫效率,可以使用多个服务器请求线程,多个网页解析线程,有效缩短数据爬取时间。当线程在运行后会被销毁,而且会不断创建新线程,不仅浪费时间也浪费内存,因此引入线程池,它可以重复使用创建的线程,并根据线程的权重程度自行增加和销毁线程。
[0034]爬虫的去重规则使用自定义去重,根据访问的网页的特性进行去重筛选,筛选的条件是这个网页特有的,保证筛选条件的唯一性。Scrapy默认的RFPDupeFilter只可以对url进行判断,对于大部分的网页是通用的,但是缺乏灵活性,故自定义去重规则方法。
[0035]②
Spider主程序算法介绍
[0036]Spider主程序是各个子模块的父类方法,提供公有成员方法调用,子类继承之后根据自己网页特点进行重写,这样极大降低了子模块的代码重复,使得代码更加易于维护和管理。
[0037]Sp本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于scrapy爬虫技术的变电站环境预警方法,其特征在于,通过scrapy爬虫技术,自动抓取变电站环境信息,同时根据层次分析法,构建变电站环境评价指标体系,根据抓取信息和指标体系编写变电站环境预警系统,实现变电站的环境自动预警。2.根据权利要求1所述的基于scrapy爬虫技术的变电站环境预警方法,其特征在于,所述构建变电站环境评价指标体系是将变电站环境评价指标作为目标层,将环境管理、生态保护、污染防治、社会监督四个方面设定为准则层,在准则层下设定多个指标作为指标层,将目标层与准则层、准则层与指标层进行分解,设定判断值既是对下一层两个元素相对上一层的相对权重值,两个元素分别设为a
i
、a
j
,相对权重值设为a
ij
,元素的数量设为n,则判断矩阵设为A=(a
ij
)n
×
n,对a
ij
值的判定值量化标准采用1

9标度进行赋值,根据HJ24标准中对第i元素相对第j元素重要性进行赋值,分别构建准侧层和指标层判断矩阵,最后计算权向量并检验。3.根据权利要求2所述的基于scrapy爬虫技术的变电站环境预警方法,其特征在于,计算对比矩阵一致性程度的公式为:CR=CI/RI,当CR<0.1时,认为矩阵的一致程度可以被接受,如果CR≥0.1,则认为矩阵一致程度无法接受,需要对矩阵中第i元素相对第j元素重要性进行调整,直到矩阵满足CR<0.1...

【专利技术属性】
技术研发人员:郑中原姜玲张滏恒于金山周长新张佳成刘桂华孟祥琪
申请(专利权)人:国网天津市电力公司国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1