AI模型在计算机视觉领域实现加速

AI在线 · 2023-12-26 20:41 · 467浏览

自动驾驶汽车必须快速准确地识别它遇到的物体,从停在拐角处的空转送货卡车到向接近十字路口呼啸而过的骑自行车的人。

为此,车辆可能会使用强大的计算机视觉模型来对该场景的高分辨率图像中的每个像素进行分类,因此它不会忽略在较低质量图像中可能被遮挡的物体。但是这项被称为语义分割的任务很复杂,当图像具有高分辨率时,需要大量的计算。

麻省理工学院-IBM Watson AI 实验室和其他地方的研究人员开发了一种更有效的计算机视觉模型,大大降低了这项任务的计算复杂性。他们的模型可以在硬件资源有限的设备上实时准确地执行语义分割,例如使自动驾驶汽车能够在瞬间做出决策的车载计算机。

最近最先进的语义分割模型直接学习图像中每对像素之间的相互作用,因此它们的计算随着图像分辨率的提高而呈二次增长。正因为如此,虽然这些模型是准确的,但它们太慢了,无法在传感器或手机等边缘设备上实时处理高分辨率图像。

麻省理工学院的研究人员为语义分割模型设计了一个新的构建块,该模型实现了与这些最先进的模型相同的功能,但只有线性计算复杂性和硬件高效操作。

其结果是用于高分辨率计算机视觉的新型号系列,当部署在移动设备上时,其性能比以前的型号快 9 倍。重要的是,这个新型号系列表现出与这些替代品相同或更好的精度。

这项技术不仅可以用于帮助自动驾驶汽车实时做出决策,还可以提高其他高分辨率计算机视觉任务的效率,例如医学图像分割。

“虽然研究人员已经使用传统的视觉转换器很长一段时间了,并且它们给出了惊人的结果,但我们希望人们也关注这些模型的效率方面。我们的工作表明,可以大幅减少计算,因此这种实时图像分割可以在设备上本地进行,“电气工程与计算机科学系(EECS)副教授、麻省理工学院-IBM Watson AI实验室成员、描述新模型的论文的资深作者Song Han说。

他与论文的主要作者Han Cai一起撰写了这篇论文,他是EECS的研究生;李俊彦,浙江大学本科生;胡沐彦,清华大学本科生;以及麻省理工学院-IBM Watson AI 实验室的首席研究员 Chuang Gan。该研究将在计算机视觉国际会议上发表。

简化的解决方案

对于机器学习模型来说,对可能具有数百万像素的高分辨率图像中的每个像素进行分类是一项艰巨的任务。最近,一种强大的新型模型(称为视觉转换器)得到了有效使用。

Transformer 最初是为自然语言处理而开发的。在这种情况下,他们将句子中的每个单词编码为标记,然后生成注意力图,该图捕获每个标记与所有其他标记的关系。此注意力图可帮助模型在进行预测时理解上下文。

使用相同的概念,视觉转换器将图像切成像素块,并在生成注意力图之前将每个小块编码为一个标记。在生成此注意力图时,该模型使用相似性函数,该函数直接学习每对像素之间的交互。通过这种方式,该模型开发了所谓的全局感受野,这意味着它可以访问图像的所有相关部分。

由于高分辨率图像可能包含数百万个像素,分成数千个补丁,因此注意力图很快就会变得巨大。因此,随着图像分辨率的增加,计算量呈二次方增长。

在他们名为EfficientViT的新模型系列中,麻省理工学院的研究人员使用了一种更简单的机制来构建注意力图——用线性相似函数代替非线性相似性函数。因此,它们可以重新排列操作顺序,以减少总计算量,而不会改变功能并丢失全局感受野。使用他们的模型,预测所需的计算量随着图像分辨率的增长而线性增长。

“但是天下没有免费的午餐。线性注意力只能捕获有关图像的全局上下文,丢失局部信息,这使得准确性变差,“Han 说。

为了补偿这种精度损失,研究人员在他们的模型中加入了两个额外的组件,每个组件只增加了少量的计算量。

其中一个元素有助于模型捕获局部特征交互,从而减轻线性函数在局部信息提取方面的弱点。第二个模块支持多尺度学习,帮助模型识别大型和小型对象。

“这里最关键的部分是我们需要仔细平衡性能和效率,”蔡说。

他们设计了具有硬件友好架构的EfficientViT,因此可以更轻松地在不同类型的设备上运行,例如虚拟现实耳机或自动驾驶汽车上的边缘计算机。他们的模型也可以应用于其他计算机视觉任务,如图像分类。

简化语义分割

当他们在用于语义分割的数据集上测试他们的模型时,他们发现它在 Nvidia 图形处理单元 (GPU) 上的执行速度比其他流行的视觉转换器模型快 9 倍,具有相同或更高的准确性。

“现在,我们可以两全其美,减少计算,使其足够快,我们可以在移动和云设备上运行它,”Han说。

基于这些结果,研究人员希望应用这种技术来加速生成机器学习模型,例如用于生成新图像的模型。他们还希望继续扩大 EfficientViT 的规模,用于其他视觉任务。

AMD公司人工智能算法高级总监Lu Tian表示:“由Song Han教授的团队开创的高效Transformer模型现在已成为各种计算机视觉任务(包括检测和分割)尖端技术的支柱。“他们的研究不仅展示了变压器的效率和能力,还揭示了它们在实际应用中的巨大潜力,例如提高视频游戏中的图像质量。

“模型压缩和轻量级模型设计是实现高效人工智能计算的关键研究课题,尤其是在大型基础模型的背景下。Song Han教授的团队在压缩和加速现代深度学习模型方面取得了显著进展,特别是视觉转换器,“甲骨文公司人工智能和机器学习全球副总裁Jay Jackson补充道,他没有参与这项研究。“Oracle 云基础设施一直在支持他的团队推进这一有影响力的研究方向,以实现高效、绿色的 AI。”