System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于社会化媒体信息的强对流样本库生成方法和装置制造方法及图纸_技高网

基于社会化媒体信息的强对流样本库生成方法和装置制造方法及图纸

技术编号:42239634 阅读:14 留言:0更新日期:2024-08-02 13:52
本公开的实施例提供了基于社会化媒体信息的强对流样本库生成方法和装置,应用于机器学习技术领域。所述方法包括获取初始强对流信息;对所述初始强对流信息进行关键词提取,得到个例信息;根据所述个例信息,获取对应的雷达数据;将所述个例信息作为所述雷达数据的标签,生成强对流样本库。以此方式,可以通过对多个强对流天气数据源的搜索和分析,自动获取相关的数据集和个例库,并对其进行筛选和整理,最终生成高质量的个例库及样本标签,以供强对流天气识别模型使用。

【技术实现步骤摘要】

本公开涉及机器学习,尤其涉及基于社会化媒体信息的强对流样本库生成方法和装置


技术介绍

1、在机器学习领域,数据集和样本库是非常重要的资源,通常依靠人工,需要大量时间和人力成本进行收集和整理。而且,由于各种应用场景和数据源的多样性,数据集、样本库的质量和有效性也存在较大差异。因此,如何高效地获取高质量的数据集和样本库,是利用机器学习强对流天气识别预警领域面临的重要问题。

2、根据气象雷达等资料可以利用其探测参量对强对流天气(冰雹、强降水、大风、龙卷等)进行识别并发布预警,而是否真实发生了相关天气一般可根据地面气象自动站观测。然而由于强对流天气尺度较小,特别是冰雹、龙卷由于其发生尺度小、生消快速等特点,很难通过地面自动站捕获。而随着自媒体等社会信息发展,人们对于类似天气关注提高,会将某地下冰雹、发生龙卷等照片视频发布到网上。目前一般人工搜索方式一是不全面,二是难以自动化,三是会有很多无效信息。不能直接或快速应用于天气实况验证。

3、因此,亟需一种通过自动化的方式获取和整理网络媒体社会化强对流灾情信息,提高样本库质量的方法。


技术实现思路

1、本公开提供了一种基于社会化媒体信息的强对流样本库生成方法和装置。

2、根据本公开的第一方面,提供了一种基于社会化媒体信息的强对流样本库生成方法。该方法包括:

3、获取初始强对流信息;

4、对所述初始强对流信息进行关键词提取,得到个例信息;

5、根据所述个例信息,获取对应的雷达数据;

6、将所述个例信息作为所述雷达数据的标签,生成强对流样本库。

7、如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述初始强对流信息包括从地面自动站获取的地面自动站信息,以及通过网络检索得到的社会化信息。

8、如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述对所述初始强对流信息进行关键词提取,得到个例信息,包括:

9、将所述初始强对流信息输入预先训练的强对流关键词提取模型,输出发生时间、发生地点和强对流类别,作为个例信息;

10、其中,所述强对流关键词提取模型是通过人工标注的历史强对流信息对预设神经网络模型进行预先训练得到的。

11、如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述对所述初始强对流信息进行关键词提取,得到个例信息,还包括:

12、根据所述发生时间和/或所述发生地点,对个例信息进行清洗。

13、如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述个例信息,获取对应的雷达数据,包括:

14、根据所述发生时间,确定对应的个例时间范围;

15、将所述发生地点转化为经纬度,并确定对应的个例经纬度范围;

16、根据所述经纬度,确定对应的雷达站点,并读取个例时间范围内的雷达基数据;

17、从读取的雷达基数据中确定个例经纬度范围内的雷达参量,作为雷达数据。

18、如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述强对流样本库中强对流样本包括样本标签和样本数据;

19、所述样本标签包括个例时间范围、个例经纬度范围和强对流类别;

20、所述样本数据包括雷达数据,以及个例图片;

21、其中,所述个例图片是通过以下步骤生成的:

22、将所述个例经纬度范围内的经纬度转换为极坐标,并根据所述极坐标,以及对应的雷达数据,生成所述个例时间范围内的多张雷达数据图片,作为个例图片。

23、如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:

24、根据所述强对流样本库对强对流天气识别模型进行训练。

25、根据本公开的第二方面,提供了一种基于社会化媒体信息的强对流样本库生成装置。该装置包括:

26、信息获取模块,用于获取初始强对流信息;

27、关键词提取模块,用于对所述初始强对流信息进行关键词提取,得到个例信息;

28、雷达数据获取模块,用于根据所述个例信息,获取对应的雷达数据;

29、样本库生成模块,用于将所述个例信息作为所述雷达数据的标签,生成强对流样本库。

30、根据本公开的第三方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。

31、根据本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如根据本公开的第一方面所述的方法。

32、本公开的实施例提供的基于社会化媒体信息的强对流样本库生成方法和装置,通过自动化的方式获取和整理网络媒体社会化强对流灾情信息,节省了大量的时间和人力成本,并且能够借助雷达回波图片匹配生成高质量的样本库,提高了机器学习训练效果和准确性。

33、应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种基于社会化媒体信息的强对流样本库生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,

3.根据权利要求1所述的方法,其特征在于,

4.根据权利要求3所述的方法,其特征在于,

5.根据权利要求3所述的方法,其特征在于,

6.根据权利要求5所述的方法,其特征在于,

7.根据权利要求1所述的方法,其特征在于,所述方法还包括:

8.一种基于社会化媒体信息的强对流样本库生成装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一权利要求所述的方法。

【技术特征摘要】

1.一种基于社会化媒体信息的强对流样本库生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,

3.根据权利要求1所述的方法,其特征在于,

4.根据权利要求3所述的方法,其特征在于,

5.根据权利要求3所述的方法,其特征在于,

6.根据权利要求5所述的方法,其特征在于,

...

【专利技术属性】
技术研发人员:冷亮吴蕾焦志敏肖艳姣张林杨金红姚聃
申请(专利权)人:中国气象局气象探测中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1