【技术实现步骤摘要】
利用微博关键词和位置信息模拟空气质量的方法及系统
本专利技术涉及社交媒体数据应用领域,尤其涉及一种利用微博关键词和位置信息模拟空气质量的方法及系统。
技术介绍
人类社会正进入“大数据”时代,互联网和信息行业的蓬勃发展引起人们的普遍关注。大数据的兴起,为我们理解社会环境带来新的机遇,可以有效捕捉各种社会特征。维基百科对社交媒体的定义是:社交媒体是以计算机为媒介的工具,允许人们在虚拟社区或者网络上创建、分享或者交换信息、想法以及图片、视频。社交媒体被定义为“一组建立在Web2.0的思想和技术基础之上的基于互联网的应用程序,并且允许创建和交换用户生成的内容”。随着用户产生数据量的不断增长,社交媒体几乎在现代生活的各个方面快速普及。社交媒体数据的增长速度在不断加快,而计算机技术的不断进步也巩固了公众作为大数据提供者与消费者的角色。新浪微博(SinaWeibo)是我国使用较普遍的社交媒体应用之一,它是类似twitter与facebook结合的产物。新浪公司于2009年8月14日推出新浪微博。在2012年中期,已经出现接近4亿的微博用户,每日有超过1亿条的微博发出。新浪微博为用户提供了一个平台去获取信息,分享观点以及与他人沟通。它连续不断的产生涉及社交用户日常生活的海量数据,这些数据包含时间、用户情感等多种属性。用户利用带有GPS的设备,比如智能手机等发布微博,他们可以在微博中加入发布时的位置信息。随着空气质量的不断恶化,许多人比之前更关注空气质量,并借助新浪微博这个平台发表自身看法。随着空气质量的不断恶化,许多人比之前更关注空气质量,并借助新浪微博这个平台发表自身看 ...
【技术保护点】
一种利用微博关键词和位置信息模拟空气质量的方法,其特征在于,包括以下步骤:S1、获取微博数据,包括带有空气质量关键词的微博数据和无空气质量关键词的微博数据,并对其进行预处理;S2、以某个监测站点为中心,建立不同大小的缓冲区,对各个缓冲区内带有空气质量关键词的微博数量进行标准化,并计算标准化的微博数量与监测站点月均AQI之间的相关系数,比较不同半径缓冲区的相关系数,得到相关性最强的缓冲区大小;S3、根据相关性最强的缓冲区大小对研究区域进行格网划分,提取监测站点所在格网中带有空气质量关键词的相对微博数量,对相对微博数量与月均AQI之间的函数关系进行拟合,并对拟合后的函数进行精度验证,得到验证通过后的拟合函数;S4、计算研究区域中所有格网的相对微博数量,通过拟合函数与改进的反距离加权插值得出所有格网的模拟AQI;S5、根据所有格网的模拟AQI,对所有格网应用克里格插值,得出空气质量趋势面模型,根据空气质量趋势面模型得到研究区域内任意位置的模拟空气质量。
【技术特征摘要】
1.一种利用微博关键词和位置信息模拟空气质量的方法,其特征在于,包括以下步骤:S1、获取微博数据,包括带有空气质量关键词的微博数据和无空气质量关键词的微博数据,并对其进行预处理;S2、以某个监测站点为中心,建立不同大小的缓冲区,对各个缓冲区内带有空气质量关键词的微博数量进行标准化,并计算标准化的微博数量与监测站点月均AQI之间的相关系数,比较不同半径缓冲区的相关系数,得到相关性最强的缓冲区大小;S3、根据相关性最强的缓冲区大小对研究区域进行格网划分,提取监测站点所在格网中带有空气质量关键词的相对微博数量,对相对微博数量与月均AQI之间的函数关系进行拟合,并对拟合后的函数进行精度验证,得到验证通过后的拟合函数;S4、计算研究区域中所有格网的相对微博数量,通过拟合函数与改进的反距离加权插值得出所有格网的模拟AQI;S5、根据所有格网的模拟AQI,对所有格网应用克里格插值,得出空气质量趋势面模型,根据空气质量趋势面模型得到研究区域内任意位置的模拟空气质量。2.根据权利要求1所述的利用微博关键词和位置信息模拟空气质量的方法,其特征在于,步骤S3中计算相对微博数量的方法为:以监测站点所在格网为中心,以其它格网到中心的距离倒数为权重,计算影响范围内所有格网的带有空气质量关键词的微博数,将其与对应权重相乘后求和,并对结果进行标准化;以监测站点所在格网为中心,以其它格网到中心的距离倒数为权重,计算每个月影响范围内所有格网的无空气质量关键词的微博数,将其与对应权重相乘后求和,并计算每个月的平均数;根据每个月的平均数作为人口密度,结合标准化的结果,得到该格网的相对微博数。3.根据权利要求1所述的利用微博关键词和位置信息模拟空气质量的方法,其特征在于,步骤S1中获取微博数据的方法为:通过微博开放平台API和网页爬虫,获取带有空气质量关键词的微博数据;通过微博开放平台API,获取无空气质量关键词的微博数据。4.根据权利要求1所述的利用微博关键词和位置信息模拟空气质量的方法,其特征在于,步骤S1中对微博数据进行预处理的方法为:对带有空气质量关键词的微博数据,去除转发微博,去除广告应用发出的微博,保留其中带有地理位置信息的微博;并对其进行情感分类,提取出讲空气质量差的微博;对无空气质量关键词的微博数据,去除重复微博,每个用户每天每个位置仅保留一条微博记录。5.根据权利要求1所述的利用微博关键词和位置信息模拟空气质量的方法,其特征在于,步骤S2中对带有空气质量关键词的微博数量进行标准化的方法为:从微博数据中提取出各缓冲区内带有空气质量关键词的微博数据量,并利用相同范围内的无空气质量关键词的微博数量进行标准化。6.根据权利要求1所述的利用微博关键词和位置信息模拟空气质量的方法,其特征在于,步骤S3中对相对微博数量与月均AQI之间的函数关系进行拟合的方法为:在软件1stOpt中,选择拟合算法为麦夸特算法,使用监测站点对应的月均AQI与其所在格网的相对微博数量数据迭代至收敛时,得到拟合出的拟合函数,y=a+bx+cx2+dx3;其中,y表示监测站点对应的月均AQI,x表示格网的相对微博数量。7.根据权利要求1所述的利用微博关键词和位置信息模拟空气质量的方法,其特征在于,步骤S3中进行...
【专利技术属性】
技术研发人员:王艳东,荆彤,王腾,姜伟,付小康,
申请(专利权)人:武汉大学,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。