人工智能数据集为龙卷风检测开辟了新的路径

AI在线 · 2024-04-30 07:19 · 404浏览

北半球春天的到来触及了龙卷风季节。龙卷风扭曲的尘埃和碎片漏斗似乎是一个明确无误的景象。但这种景象可能会被气象学家的工具雷达所掩盖。很难确切知道龙卷风是什么时候形成的,甚至很难知道为什么。

一个新的数据集可以包含答案。它包含过去 10 年袭击美国的数千次龙卷风的雷达回波。产生龙卷风的风暴两侧是其他严重的风暴,其中一些具有几乎相同的条件,但从未发生过。麻省理工学院林肯实验室(MIT Lincoln Laboratory)的研究人员策划了名为TorNet的数据集,现在已经将其开源发布。他们希望在探测自然界最神秘和最暴力的现象之一方面取得突破。

“很多进展都是由容易获得的基准数据集推动的。我们希望TorNet能够为机器学习算法奠定基础,以检测和预测龙卷风,“该项目的联合首席研究员Mark Veillette说。两位研究人员都在空中交通管制系统小组工作。 

除了数据集,该团队还发布了在其上训练的模型。这些模型显示了机器学习发现捻线的能力的希望。在这项工作的基础上,可以为预报员开辟新的领域,帮助他们提供更准确的预警,从而挽救生命。 

漩涡般的不确定性

美国每年发生约1,200次龙卷风,造成数百万至数十亿美元的经济损失,平均夺走71人的生命。去年,一场异常持久的龙卷风在密西西比州一条59英里的道路上造成17人死亡,至少165人受伤。 

然而,众所周知,龙卷风很难预测,因为科学家们对它们形成的原因没有清晰的了解。“我们可以看到两场看起来相同的风暴,一场会产生龙卷风,另一场不会。我们并不完全理解它,“库尔佐说。

龙卷风的基本成分是雷暴,由快速上升的暖空气和导致旋转的风切变引起的不稳定性。气象雷达是用于监测这些条件的主要工具。但是龙卷风的位置太低而无法被探测到,即使距离雷达很近。随着具有给定倾斜角度的雷达波束离天线越来越远,它离地面越来越高,主要看到“中气旋”中携带的雨水和冰雹的反射,“中气旋”是风暴的宽阔旋转上升气流。中气旋并不总是产生龙卷风。

在这种有限的视野下,预报员必须决定是否发布龙卷风警告。他们经常在谨慎方面犯错。因此,龙卷风预警的误报率超过70%。“这可能导致哭泣的男孩综合症,”Kurdzo说。  

近年来,研究人员转向机器学习来更好地检测和预测龙卷风。然而,原始数据集和模型并不总是可供更广泛的社区访问,从而扼杀了进展。TorNet正在填补这一空白。

该数据集包含超过 200,000 张雷达图像,其中 13,587 张描绘了龙卷风。其余的图像是非龙卷风的,取自两类风暴之一:随机选择的严重风暴或误报风暴(那些导致预报员发出警告但没有产生龙卷风的风暴)。

风暴或龙卷风的每个样本由两组六张雷达图像组成。这两组对应不同的雷达扫描角度。这六张图像描绘了不同的雷达数据产品,例如反射率(显示降水强度)或径向速度(指示风是向雷达移动还是远离雷达)。

管理数据集的一个挑战是首先发现龙卷风。在天气雷达数据中,龙卷风是极其罕见的事件。然后,该团队必须平衡这些龙卷风样本与困难的非龙卷风样本。如果数据集太简单,比如通过比较龙卷风和暴风雪,那么根据数据训练的算法可能会将风暴过度归类为龙卷风。

Veillette说:“真正的基准数据集的美妙之处在于,我们都在处理相同的数据,具有相同的难度,并且可以比较结果。“它还使数据科学家更容易获得气象学,反之亦然。对于这两个人来说,解决一个共同的问题变得更加容易。

两位研究人员都代表了交叉合作可能带来的进步。Veillette是一位数学家和算法开发人员,长期以来一直对龙卷风着迷。Kurdzo 是一名受过培训的气象学家和信号处理专家。在研究生院,他用定制的移动雷达追逐龙卷风,收集数据以新的方式进行分析。

“这个数据集还意味着研究生不必花一两年时间构建数据集。他们可以直接进入他们的研究,“Kurdzo说。

该项目由林肯实验室的气候变化倡议资助,旨在利用实验室的各种技术优势来帮助解决威胁人类健康和全球安全的气候问题。

通过深度学习追逐答案

利用该数据集,研究人员开发了基线人工智能(AI)模型。他们特别渴望应用深度学习,这是一种擅长处理视觉数据的机器学习形式。就其本身而言,深度学习可以从数据集中的图像中提取特征(算法用于做出决策的关键观察结果)。其他机器学习方法要求人类首先手动标记特征。 

“我们想看看深度学习是否可以重新发现人们通常在龙卷风中寻找的东西,甚至识别出通常不被预报员搜索的新事物,”Veillette说。

结果是有希望的。他们的深度学习模型的性能与文献中已知的所有龙卷风检测算法相似或更好。经过训练的算法正确地分类了50%的较弱的EF-1龙卷风和超过85%的EF-2或更高的龙卷风,这些龙卷风构成了这些风暴中最具破坏性和最昂贵的事件。

他们还评估了另外两种类型的机器学习模型,以及一种传统模型进行比较。所有这些模型的源代码和参数都是免费提供的。这些模型和数据集也在提交给美国气象学会(AMS)期刊的一篇论文中进行了描述。Veillette在1月份的AMS年会上介绍了这项工作。

“将我们的模型放在那里的最大原因是让社区改进它们并做其他伟大的事情,”Kurdzo 说。“最好的解决方案可能是深度学习模型,或者有人可能会发现非深度学习模型实际上更好。

TorNet在气象界也可以用于其他用途,例如对风暴进行大规模案例研究。它还可以通过其他数据源进行增强,例如卫星图像或闪电地图。融合多种类型的数据可以提高机器学习模型的准确性。

采取措施进行运营

除了探测龙卷风之外,Kurdzo还希望这些模型可以帮助解开龙卷风形成原因的科学。

“作为科学家,我们看到了龙卷风的所有这些前兆——低空旋转的增加、反射率数据中的钩状回波、比差分相位(KDP)脚和差分反射率(ZDR)弧。但是它们是如何结合在一起的呢?有没有我们不知道的身体表现?“他问道。

通过可解释的人工智能,可以梳理出这些答案。可解释的人工智能是指允许模型以人类可以理解的格式提供其推理的方法,说明为什么会做出某个决定。在这种情况下,这些解释可能会揭示龙卷风之前发生的物理过程。这些知识可以帮助训练预报员和模型,以便更快地识别这些迹象。 

“这些技术都不能取代预报员。但也许有一天它可以在复杂的情况下引导预报员的眼睛,并为预测有龙卷风活动的区域发出视觉警告,“Kurdzo说。

随着雷达技术的改进和未来网络可能变得更加密集,这种援助可能特别有用。下一代雷达网络的数据刷新率预计将从每五分钟增加到大约一分钟,可能比预报员解释新信息的速度更快。由于深度学习可以快速处理大量数据,因此它非常适合与人类一起实时监测雷达回波。龙卷风可以在几分钟内形成和消失。

但是,通往操作算法的道路是一条漫长的道路,尤其是在安全关键的情况下,Veillette说。“我认为,可以理解的是,预测者社区仍然对机器学习持怀疑态度。建立信任和透明度的一种方法是拥有像这样的公共基准数据集。这是第一步。

该团队希望,世界各地的研究人员将采取下一步行动,他们受到数据集的启发,并积极构建自己的算法。这些算法将反过来进入测试平台,最终将向预报员展示,以开始过渡到操作的过程。

最后,这条道路可以回到信任。

“使用这些工具,我们可能永远不会收到超过 10 到 15 分钟的龙卷风警告。但是,如果我们能够降低误报率,我们就可以开始在公众认知方面取得进展,“Kurdzo说。“人们将利用这些警告来采取挽救生命所需的行动。