System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及台风预测,更具体地,涉及一种基于改进卷积网络和社媒数据的两阶段台风灾情识别方法和系统。
技术介绍
1、台风作为一种极端天气事件,不仅会影响海上活动,而且会给沿海地区人民的生活和城市经济造成重大损失。因此,台风信息的及时收集和准确识别一直是各个沿海地区城市关注的重点。
2、台风灾情信息收集的传统方法包括实地调查和遥感卫星技术等。实地调查由工作人员现场调查记录后上报,该方法能较全面地反映灾情,但需耗费大量人力物力和时间成本。遥感卫星技术则通过遥感影像监测灾区变化,该方法能反映大范围灾情,但对与日常生活密切相关的灾情,如停电停运、停工停学等灾害影响的获取能力有限。传统方法的特点限制了灾害应急和救援工作的有效开展。
3、近年来,随着互联网的普及,诸多社交媒体平台如国内的新浪微博、微信,国外的twitter、facebook等快速发展,越来越多的人开始使用社交媒体平台发表自己的观点和活动等信息。在台风过程的不同阶段,随着台风强度、降雨和风速等地理背景变化,人们如“传感器”般快速敏锐地发布大量灾害相关信息。社交媒体文本以其收集成本低和表达内容丰富等特点成为灾情信息收集的重要部分。然而,由于社交媒体平台的开放性和自由性,虚假或猜测信息往往混杂在社交媒体文本中。已有研究大多仅依靠文本内容进行台风识别,忽视了文本对灾害相关地理背景的高度敏感性,难以分辨此类虚假或猜测信息,对应急救援工作产生负面影响。
4、文本分类是获取台风灾情信息的关键,随着机器学习的发展进步,分类模型和方法等不断涌现。例如,常见
5、文本表示模型和文本分类模型相结合有助于增强模型的文本语义理解,然而,在分类方法方面,现有的大多数方法都是基于单阶段、单标签的分类,例如,现有的专利文件中公开了一种台风预测报警方法,步骤为:1、对历史台风数据进行归一化处理;2、对归一化后的数据序列进行分析,分析降雨量、蒸发量和风力影响因素对台风形成以及路径的影响;3、建立模型训练数据集s1;4、建立台风预测模型;5、建立实时误差校正模型训练数据集s2,输入与s1相同,台风预测模型的预测误差作为输出;6、建立台风实时误差校正模型;7、对实时监测的降雨量、蒸发量和风力,利用台风预测模型对实时数据进行预测,利用台风实时误差校正模型进行校正,获得最终的预测值,并输出台风数据对海防监控进行实时调整并在台风来临之前进行报警;基于单标签的分类方法对复杂文本的语义理解存在偏差,无法全面识别灾情信息。
技术实现思路
1、本专利技术为克服上述现有技术仅依靠文本内容进行识别和单标签分类造成的台风灾情识别精度低的缺陷,提供一种基于改进卷积网络和社媒数据的两阶段台风灾情识别方法和系统,基于二阶段的分类方案进行台风识别,先进行粗分类,再进行二阶段多标签分类,且在粗分类阶段加入了台风属性信息进行辅助识别,识别更全面,同时能够有效提高台风灾情识别精度。
2、为解决上述技术问题,本专利技术的技术方案如下:
3、一种基于改进卷积网络和社媒数据的台风灾情识别方法,包括以下步骤:
4、s1:从互联网的各个社交媒体平台上采集网民评论文本,并结合所评论台风的属性构建文本数据集;对所述文本数据集进行预处理;
5、s2:利用bert预训练模型对预处理后的文本数据集进行文本特征提取,获取文本特征数据集;所述文本特征数据集包括每条文本数据对应的句向量和字矩阵;
6、对所述文本特征数据集中的所有句向量和所有字矩阵分别依次进行实体消歧和分组,获取分组后的句向量数据集和字矩阵数据集;
7、s3:构建台风灾情识别模型;所述台风灾情识别模型包括依次连接的粗分类网络和多标签分类网络;
8、所述粗分类网络用于判断输入的文本数据是否属于台风灾情的相关文本;
9、所述多标签分类网络基于改进卷积网络sit-cnn,用于进一步识别台风灾情相关文本中包含的具体灾情类别;
10、s4:将所述分组后的句向量数据集输入所述粗分类网络,将所述分组后的字矩阵数据集输入所述多标签分类网络,利用多任务学习对所述粗分类网络和多标签分类网络进行联合优化训练,获取训练好的台风灾情识别模型;
11、s5:获取待识别的文本数据并输入所述训练好的台风灾情识别模型中进行识别,获取台风灾情识别结果。
12、优选地,所述步骤s1中,台风的属性包括:台风等级、风速、气压、移动速度和地理位置信息,台风属性数据用于作为地理背景对社媒文本的可信度进行分析,有助于提高粗分类阶段台风灾情相关文本识别的准确性。
13、优选地,所述步骤s1中,对所述文本数据集进行预处理包括:
14、分词编码:通过分词器将所述文本数据集中的所有文本分为单独的字词,并利用预设的词汇表将所有字词转换成对应的编码,获取编码后的文本数据集;
15、添加标记:在所有编码后的文本开头和末尾位置分别添加开头标记和末尾标记,并将添加标记后的所有文本转换为对应的文本向量;
16、填充空白:在所有长度小于预设值的文本向量末尾填充零向量,使得各文本向量长度一致;
17、位置嵌入:为每个文本向量设置用于表示字词在该文本向量中位置顺序的嵌入信息,完成预处理。
18、优选地,所述步骤s2中,所述bert预训练模型包括若干层依次连接的transformer编码器;
19、将每个所述transformer编码器提取到的文本特征共同保存为所述文本特征数据集。
20、优选地,所述步骤s2中,实体消歧包括:
21、对于每个所述transformer编码器提取到的文本特征:
22、两两计算不同句向量之间的第一相似度,将第一相似度大于等于预设第一阈值的两个句向量进行信息融合;
23、两两计算不同字矩阵之间的第二相似度,将第二相似度大于等于预设第二阈值的两个字矩阵进行信息融合,完成实体消歧;
24、所述相似度的计算公式为:
25、
26、其中,为两个文本特征和之间的相似度;和分别为两个文本特征和对应的属性信息。
27、优选地,所述步骤s2中,所述bert预训练模型中的transformer编码器层数具体为12,分组包括:
28、按以下规则中的任意一种对12层transformer编码器本文档来自技高网...
【技术保护点】
1.一种基于改进卷积网络和社媒数据的台风灾情识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于改进卷积网络和社媒数据的台风灾情识别方法,其特征在于,所述步骤S1中,台风的属性包括:台风等级、风速、气压、移动速度和地理位置信息。
3.根据权利要求1所述的一种基于改进卷积网络和社媒数据的台风灾情识别方法,其特征在于,所述步骤S1中,对所述文本数据集进行预处理包括:
4.根据权利要求1所述的一种基于改进卷积网络和社媒数据的台风灾情识别方法,其特征在于,所述步骤S2中,所述BERT预训练模型包括若干层依次连接的Transformer编码器;
5.根据权利要求4所述的一种基于改进卷积网络和社媒数据的台风灾情识别方法,其特征在于,所述步骤S2中,实体消歧包括:
6.根据权利要求4所述的一种基于改进卷积网络和社媒数据的台风灾情识别方法,其特征在于,所述步骤S2中,所述BERT预训练模型中的Transformer编码器层数具体为12,分组包括:
7.根据权利要求1~6任意一项中所述的一种基于改进卷积网络和
8.根据权利要求7所述的一种基于改进卷积网络和社媒数据的台风灾情识别方法,其特征在于,所述步骤S3中,多标签分类网络包括依次连接的:Sit-CNN神经网络、组交换层、第二全连接层、第一拼接层、第三全连接层和Sigmoid激活层;
9.根据权利要求1或8所述的一种基于改进卷积网络和社媒数据的台风灾情识别方法,其特征在于,所述步骤S4中,对所述粗分类网络和多标签分类网络进行联合优化训练时,设置有总损失函数,具体为:
10.一种基于改进卷积网络和社媒数据的台风灾情识别系统,应用权利要求1~9任意一项中所述的一种基于改进卷积网络和社媒数据的台风灾情识别方法,其特征在于,包括:
...【技术特征摘要】
1.一种基于改进卷积网络和社媒数据的台风灾情识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于改进卷积网络和社媒数据的台风灾情识别方法,其特征在于,所述步骤s1中,台风的属性包括:台风等级、风速、气压、移动速度和地理位置信息。
3.根据权利要求1所述的一种基于改进卷积网络和社媒数据的台风灾情识别方法,其特征在于,所述步骤s1中,对所述文本数据集进行预处理包括:
4.根据权利要求1所述的一种基于改进卷积网络和社媒数据的台风灾情识别方法,其特征在于,所述步骤s2中,所述bert预训练模型包括若干层依次连接的transformer编码器;
5.根据权利要求4所述的一种基于改进卷积网络和社媒数据的台风灾情识别方法,其特征在于,所述步骤s2中,实体消歧包括:
6.根据权利要求4所述的一种基于改进卷积网络和社媒数据的台风灾情识别方法,其特征在于,所述步骤s2中,所述bert预训练模型中的transfor...
【专利技术属性】
技术研发人员:邱衍庆,郑泽爽,贺智,阮浩德,费智涛,张思敏,
申请(专利权)人:广东省城乡规划设计研究院科技集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。