当前位置: 首页 > 专利查询>武汉大学专利>正文

利用微博关键词和位置信息模拟空气质量的方法及系统技术方案

技术编号:15639564 阅读:92 留言:0更新日期:2017-06-16 00:21
本发明专利技术公开了一种利用微博关键词和位置信息模拟空气质量的方法及系统,该方法包括以下步骤:S1、获取微博数据,并对其进行预处理;S2、建立不同大小的缓冲区,对各个缓冲区内的微博数量进行标准化,并计算标准化的微博数量与监测站点月均AQI之间的相关系数,比较不同半径缓冲区的相关系数,得到相关性最强的缓冲区大小;S3、进行格网划分,提取相对微博数量,对相对微博数量与月均AQI之间的函数关系进行拟合;S4、通过拟合函数与改进的反距离加权插值得出所有格网的模拟AQI;S5、根据所有格网的模拟AQI,对所有格网应用克里格插值,得出空气质量趋势面模型。本发明专利技术能够反映城市不同位置的空气质量分布情况,及时发现影响空气质量的关键因素。

【技术实现步骤摘要】
利用微博关键词和位置信息模拟空气质量的方法及系统
本专利技术涉及社交媒体数据应用领域,尤其涉及一种利用微博关键词和位置信息模拟空气质量的方法及系统。
技术介绍
人类社会正进入“大数据”时代,互联网和信息行业的蓬勃发展引起人们的普遍关注。大数据的兴起,为我们理解社会环境带来新的机遇,可以有效捕捉各种社会特征。维基百科对社交媒体的定义是:社交媒体是以计算机为媒介的工具,允许人们在虚拟社区或者网络上创建、分享或者交换信息、想法以及图片、视频。社交媒体被定义为“一组建立在Web2.0的思想和技术基础之上的基于互联网的应用程序,并且允许创建和交换用户生成的内容”。随着用户产生数据量的不断增长,社交媒体几乎在现代生活的各个方面快速普及。社交媒体数据的增长速度在不断加快,而计算机技术的不断进步也巩固了公众作为大数据提供者与消费者的角色。新浪微博(SinaWeibo)是我国使用较普遍的社交媒体应用之一,它是类似twitter与facebook结合的产物。新浪公司于2009年8月14日推出新浪微博。在2012年中期,已经出现接近4亿的微博用户,每日有超过1亿条的微博发出。新浪微博为用户提供了一个平台去获取信息,分享观点以及与他人沟通。它连续不断的产生涉及社交用户日常生活的海量数据,这些数据包含时间、用户情感等多种属性。用户利用带有GPS的设备,比如智能手机等发布微博,他们可以在微博中加入发布时的位置信息。随着空气质量的不断恶化,许多人比之前更关注空气质量,并借助新浪微博这个平台发表自身看法。随着空气质量的不断恶化,许多人比之前更关注空气质量,并借助新浪微博这个平台发表自身看法。中国的城市化随着经济的快速增长逐渐发展,这种短时间内的经济快速增长不仅带来了物质生活水平的提升,也造成了严重的环境污染,尤其是空气污染。空气污染严重危害人们的身体健康,导致眼刺激,肺和咽喉发炎,肺癌和婴儿的出生问题等。空气污染带来的问题将会阻碍未来的社会发展,治理空气污染成为当下急需解决的重要问题。目前我国主要依靠空气质量监测站点进行空气质量监测。它可以对空气中的常规污染因子和气象参数进行监测,通过分析得出空气质量指数,用以定量表述空气质量情况。由于监测站建设与维护的成本高昂,城市中的空气质量监测站数量很少,会出现较大区域内仅有一个空气质量监测站的现象。然而空气质量受到不同因素的影响,比如交通流量,楼房密度等等,会在城市中呈现非均匀分布,不同区域可能会出现较大起伏。这就导致细粒度位置的空气质量状况仅靠空气质量监测站无法准确获得。研究城市中不同区域细粒度空气质量的起伏状况有助于探测城市的空气污染并进行有效防治。
技术实现思路
本专利技术要解决的技术问题在于针对现有技术中空气质量监测站数量少,且建设大量监测站的成本高,难以准确监测城市空气质量的缺陷,提供一种利用微博关键词和位置信息模拟空气质量的方法及系统。本专利技术解决其技术问题所采用的技术方案是:本专利技术提供一种利用微博关键词和位置信息模拟空气质量的方法,包括以下步骤:S1、获取微博数据,包括带有空气质量关键词的微博数据和无空气质量关键词的微博数据,并对其进行预处理;S2、以某个监测站点为中心,建立不同大小的缓冲区,对各个缓冲区内带有空气质量关键词的微博数量进行标准化,并计算标准化的微博数量与监测站点月均AQI之间的相关系数,比较不同半径缓冲区的相关系数,得到相关性最强的缓冲区大小;S3、根据相关性最强的缓冲区大小对研究区域进行格网划分,提取监测站点所在格网中带有空气质量关键词的相对微博数量,对相对微博数量与月均AQI之间的函数关系进行拟合,并对拟合后的函数进行精度验证,得到验证通过后的拟合函数;S4、计算研究区域中所有格网的相对微博数量,通过拟合函数与改进的反距离加权插值得出所有格网的模拟AQI;S5、根据所有格网的模拟AQI,对所有格网应用克里格插值,得出空气质量趋势面模型,根据空气质量趋势面模型得到研究区域内任意位置的模拟空气质量。进一步地,本专利技术的步骤S3中计算相对微博数量的方法为:以监测站点所在格网为中心,以其它格网到中心的距离倒数为权重,计算影响范围内所有格网的带有空气质量关键词的微博数,将其与对应权重相乘后求和,并对结果进行标准化;以监测站点所在格网为中心,以其它格网到中心的距离倒数为权重,计算每个月影响范围内所有格网的无空气质量关键词的微博数,将其与对应权重相乘后求和,并计算每个月的平均数;根据每个月的平均数作为人口密度,结合标准化的结果,得到该格网的相对微博数。进一步地,本专利技术的步骤S1中获取微博数据的方法为:通过微博开放平台API和网页爬虫,获取带有空气质量关键词的微博数据;通过微博开放平台API,获取无空气质量关键词的微博数据。进一步地,本专利技术的步骤S1中对微博数据进行预处理的方法为:对带有空气质量关键词的微博数据,去除转发微博,去除广告应用发出的微博,保留其中带有地理位置信息的微博;并对其进行情感分类,提取出讲空气质量差的微博;对无空气质量关键词的微博数据,去除重复微博,每个用户每天每个位置仅保留一条微博记录。进一步地,本专利技术的步骤S2中对带有空气质量关键词的微博数量进行标准化的方法为:从微博数据中提取出各缓冲区内带有空气质量关键词的微博数据量,并利用相同范围内的无空气质量关键词的微博数量进行标准化。进一步地,本专利技术的步骤S3中对相对微博数量与月均AQI之间的函数关系进行拟合的方法为:在软件1stOpt中,选择拟合算法为麦夸特算法,使用监测站点对应的月均AQI与其所在格网的相对微博数量数据迭代至收敛时,得到拟合出的拟合函数,y=a+bx+cx2+dx3;其中,y表示监测站点对应的月均AQI,x表示格网的相对微博数量。进一步地,本专利技术的步骤S3中进行精度验证的方法包括:通过拟合函数时得到的各项指标进行精度验证,指标包括:拟合函数能解释因变量变化的百分数R2、标准差以及方差齐性检验F值;通过N折交叉验证法,将微博数据随机分为N组,利用其中的N-1组进行拟合,根据剩余的一组做误差分析。进一步地,本专利技术的步骤S4中得出所有格网的模拟AQI的方法为:设待插值格网周围影响范围内的空气质量指数是均匀减少的,将设置有监测站点的格网作为初始参考点;若待插值格网周围设置有不少于三个参考点,按照改进的反距离加权插值,赋予格网模拟AQI,并将该格网设置为参考点;若待插值格网周围的参考点数量小于三个,则该格网在此轮插值中不参与运算;待该轮插值结束后,若还有待插值的格网,继续新一轮的插值过程,循环迭代直到所有格网全部完成插值,得到所有格网的模拟AQI;具体插值方法见公式:其中其中AQIinterp为待插值格网AQI,di为参考点与待插值格网地理距离,k为距离倒数的次数,此处选为2;n为待插值格网影响范围内参考点总个数,AQImax为影响范围内参考点AQI最大值,AQImin为影响范围内参考点AQI最小值;S为AQImax格网所在AQImin格网的地理距离。进一步地,本专利技术的步骤S5中根据空气质量趋势面模型还包括找出影响空气质量因素,并验证模拟的空气质量的方法,具体为:对空气质量趋势面模型上的所有格网按照月均AQI大小利用自然断点法分为5类区域,5类区域空气质量逐渐变差;计算各区域的交通相关属性与空气质量的本文档来自技高网
...
利用微博关键词和位置信息模拟空气质量的方法及系统

【技术保护点】
一种利用微博关键词和位置信息模拟空气质量的方法,其特征在于,包括以下步骤:S1、获取微博数据,包括带有空气质量关键词的微博数据和无空气质量关键词的微博数据,并对其进行预处理;S2、以某个监测站点为中心,建立不同大小的缓冲区,对各个缓冲区内带有空气质量关键词的微博数量进行标准化,并计算标准化的微博数量与监测站点月均AQI之间的相关系数,比较不同半径缓冲区的相关系数,得到相关性最强的缓冲区大小;S3、根据相关性最强的缓冲区大小对研究区域进行格网划分,提取监测站点所在格网中带有空气质量关键词的相对微博数量,对相对微博数量与月均AQI之间的函数关系进行拟合,并对拟合后的函数进行精度验证,得到验证通过后的拟合函数;S4、计算研究区域中所有格网的相对微博数量,通过拟合函数与改进的反距离加权插值得出所有格网的模拟AQI;S5、根据所有格网的模拟AQI,对所有格网应用克里格插值,得出空气质量趋势面模型,根据空气质量趋势面模型得到研究区域内任意位置的模拟空气质量。

【技术特征摘要】
1.一种利用微博关键词和位置信息模拟空气质量的方法,其特征在于,包括以下步骤:S1、获取微博数据,包括带有空气质量关键词的微博数据和无空气质量关键词的微博数据,并对其进行预处理;S2、以某个监测站点为中心,建立不同大小的缓冲区,对各个缓冲区内带有空气质量关键词的微博数量进行标准化,并计算标准化的微博数量与监测站点月均AQI之间的相关系数,比较不同半径缓冲区的相关系数,得到相关性最强的缓冲区大小;S3、根据相关性最强的缓冲区大小对研究区域进行格网划分,提取监测站点所在格网中带有空气质量关键词的相对微博数量,对相对微博数量与月均AQI之间的函数关系进行拟合,并对拟合后的函数进行精度验证,得到验证通过后的拟合函数;S4、计算研究区域中所有格网的相对微博数量,通过拟合函数与改进的反距离加权插值得出所有格网的模拟AQI;S5、根据所有格网的模拟AQI,对所有格网应用克里格插值,得出空气质量趋势面模型,根据空气质量趋势面模型得到研究区域内任意位置的模拟空气质量。2.根据权利要求1所述的利用微博关键词和位置信息模拟空气质量的方法,其特征在于,步骤S3中计算相对微博数量的方法为:以监测站点所在格网为中心,以其它格网到中心的距离倒数为权重,计算影响范围内所有格网的带有空气质量关键词的微博数,将其与对应权重相乘后求和,并对结果进行标准化;以监测站点所在格网为中心,以其它格网到中心的距离倒数为权重,计算每个月影响范围内所有格网的无空气质量关键词的微博数,将其与对应权重相乘后求和,并计算每个月的平均数;根据每个月的平均数作为人口密度,结合标准化的结果,得到该格网的相对微博数。3.根据权利要求1所述的利用微博关键词和位置信息模拟空气质量的方法,其特征在于,步骤S1中获取微博数据的方法为:通过微博开放平台API和网页爬虫,获取带有空气质量关键词的微博数据;通过微博开放平台API,获取无空气质量关键词的微博数据。4.根据权利要求1所述的利用微博关键词和位置信息模拟空气质量的方法,其特征在于,步骤S1中对微博数据进行预处理的方法为:对带有空气质量关键词的微博数据,去除转发微博,去除广告应用发出的微博,保留其中带有地理位置信息的微博;并对其进行情感分类,提取出讲空气质量差的微博;对无空气质量关键词的微博数据,去除重复微博,每个用户每天每个位置仅保留一条微博记录。5.根据权利要求1所述的利用微博关键词和位置信息模拟空气质量的方法,其特征在于,步骤S2中对带有空气质量关键词的微博数量进行标准化的方法为:从微博数据中提取出各缓冲区内带有空气质量关键词的微博数据量,并利用相同范围内的无空气质量关键词的微博数量进行标准化。6.根据权利要求1所述的利用微博关键词和位置信息模拟空气质量的方法,其特征在于,步骤S3中对相对微博数量与月均AQI之间的函数关系进行拟合的方法为:在软件1stOpt中,选择拟合算法为麦夸特算法,使用监测站点对应的月均AQI与其所在格网的相对微博数量数据迭代至收敛时,得到拟合出的拟合函数,y=a+bx+cx2+dx3;其中,y表示监测站点对应的月均AQI,x表示格网的相对微博数量。7.根据权利要求1所述的利用微博关键词和位置信息模拟空气质量的方法,其特征在于,步骤S3中进行...

【专利技术属性】
技术研发人员:王艳东荆彤王腾姜伟付小康
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1