Extreme Weather A large-scale climate dataset for semi-supervised detection, localization, and understanding of extreme weather events
来源
2017NIPS
关键词
摘要
当有大量标记数据可用时,完全监督的卷积神经网络(CNN)可以为分类众所周知的极端天气事件提供可接受的准确性。但是,许多不同类型的空间局部气候模式引起人们的兴趣,包括飓风,温带气旋,天气前沿和阻塞事件等。
这些模式的现有标记数据可能以各种方式不完整,例如仅覆盖某些年份或地理区域并具有假阴性。
因此,这种类型的气候数据带来了许多有趣的机器学习挑战。
本文提出了一种多通道时空CNN体系结构,用于半监督边界框预测和探索性数据分析。
本文证明了本文的方法能够利用时间信息和未标记的数据来改善极端天气事件的定位。
此外,本文探索了模型学习到的表示形式,以便更好地理解这一重要数据。
本文提供了一个极端天气数据集,以鼓励该领域的机器学习研究,并帮助促进进一步的工作,以了解和缓解气候变化的影响。
结论
图表
引言
在气候数据中查找极端天气事件的任务类似于检测视频中的物体和活动的任务-深度学习技术的流行应用。
一个重要的区别是,就气候数据而言,“视频”具有16个或更多的“渠道”信息(例如水蒸气,压力和温度),而常规视频只有3个(RGB)。
此外,气候模拟与自然图像的统计数据不同。
实现了3D(高度,宽度,时间)卷积编码器解码器,并在瓶颈处应用了新颖的单遍边界框回归损失。这是深度自动编码体系结构首次用于边界框回归。
本文的主要贡献是(1)基线Bounding Box损失公式;
(2)本文的架构是从针对极端天气事件的工程启发式技术迈向半监督学习型功能的第一步;
(3)ExtremeWeather数据集,本文将其分为三个基准测试组:一个用于模型探索的小型模型,一个用于中等模型的模型,以及一个包含整整27年气候模拟输出的模型。
数据集
数据
气候科学界使用三种全球数据集:观测数据(卫星,网格气象站);以及再分析数据(通过将不同的观测产品同化为气候模型获得)和模拟数据。
本文使用的是模拟数据,尽管此数据集包含了过去的信息,但在此数据集上进行深度学习的性能仍然可以告知这些方法在未来模拟中的有效性。
使用CAM5(Community Atmospheric Model v5)模拟,当空间分辨率为25km时,模型输出的快照图像尺寸为768*1152,16个通道(地表温度,地表压力,降水等),时间分辨率为3小时,每一天给出8张快照。
1979年到2005年的模拟,总共78840张16通道768*1152尺寸的图片。
标签
使用TECA标记的热带低压(TD)热带气旋(TC),热带气旋(ETC)和大气河流(AR)。
使用TECA 标记可能有错误,本身一些类别的定义就有争议。
划分
训练集测试集的划分
小规模数据集中的标签分布:
方法
baseline模型:
encoder-decoder架构,使用CNN编码,解码器也是CNN使用绑定权重和反卷积层,leaky RELU激活函数
采用半监督的方法,自动编码器的代码(瓶颈)层用作损失层的输入,从而预测:
- Bbox 的位置和尺寸
- Bbox的类别
- Bbox的置信度
损失函数:有监督的边框回归损失+无监督的重构损失
重构损失:输入与重构的均方差,M是图片中的总的像素数
将$7981152$的图片用$6464$的锚点框划分为$12*18$的网格,对每个预测框计算3种分数(1)预测框与锚框的大小和位置有多少不同;
(2)感兴趣的对象在预测框中的置信度(“对象”);
(3)该对象的类别概率分布。
每一个部分使用$33$的卷积核,相当于$192192$像素尺寸的感受野。
边界框回归损失:与YOLO的定义相似
N是时间步,$L_{box}$的损失:
u和v是类似SSD的box坐标转移。R是平滑L1损失
置信度损失:
交叉熵损失
结果
使用2维的卷积编码器提取的特征图:
使用2维和3维卷积,以及监督与半监督模型的实验结果。
使用t-SNE可视化监督与半监督学习到的特征
讨论
思考
- 主要贡献数据集的提供。
- TECA已经可以标记了,模型的作用呢?
- 数据集的创新点:1. 对人类更有意义 2.挑战更高 ,多维度。多通道就可以了?
- 卷积编码器?
- 模型输入16维的数据,然后再图像上标记出极端天气的边框,半监督体现在哪儿?