在视频中寻找特定动作?这种基于 AI 的方法可以为您找到它

AI在线 · 2024-05-30 15:00 · 93浏览

互联网上充斥着教学视频,这些视频可以教好奇的观众从烹饪完美的煎饼到执行挽救生命的海姆立克急救法。

但是,在长视频中确定特定动作发生的时间和地点可能很乏味。为了简化这一过程,科学家们正试图教计算机执行这项任务。理想情况下,用户只需描述他们正在寻找的动作,AI 模型就会跳到视频中的位置。

然而,教机器学习模型做到这一点通常需要大量昂贵的视频数据,这些数据都是精心手工标记的。

麻省理工学院(MIT)和麻省理工学院-IBM Watson AI Lab的研究人员采用了一种新的、更有效的方法,仅使用视频及其自动生成的成绩单来训练模型来执行这项任务,称为时空接地。

研究人员以两种不同的方式教模型理解未标记的视频:通过查看小细节来确定物体的位置(空间信息)和查看更大的图片以了解动作何时发生(时间信息)。

与其他 AI 方法相比,他们的方法更准确地识别具有多个活动的较长视频中的动作。有趣的是,他们发现,同时对空间和时间信息进行训练可以使模型更好地识别每个个体。

除了简化在线学习和虚拟培训流程外,这种技术还可以在医疗保健环境中发挥作用,例如,通过快速找到诊断程序视频中的关键时刻。

“我们解开了试图同时对空间和时间信息进行编码的挑战,而是像两个专家自己工作一样思考它,事实证明这是一种更明确的信息编码方式。我们的模型结合了这两个独立的分支,可以带来最佳性能,“关于这项技术的论文的主要作者Brian Chen说。

Chen是哥伦比亚大学2023届毕业生,他在麻省理工学院-IBM Watson AI 实验室担任访问学生时进行了这项研究,高级研究科学家、麻省理工学院-IBM Watson AI 实验室成员、计算机科学与人工智能实验室 (CSAIL) 口语系统组负责人 James Glass 也加入了这篇论文;Hilde Kuehne,麻省理工学院-IBM Watson AI 实验室的成员,也隶属于法兰克福歌德大学;以及麻省理工学院、歌德大学、麻省理工学院-IBM Watson AI 实验室和 Quality Match GmbH 的其他人。该研究将在计算机视觉和模式识别会议上发表。

全球和本地学习

研究人员通常使用人类注释特定任务的开始和结束时间的视频来教授模型进行时空基础。

生成这些数据不仅成本高昂,而且人类也很难弄清楚要标记什么。如果动作是“煮煎饼”,那么这个动作是从厨师开始混合面糊还是当她将其倒入锅中时开始?

“这一次,任务可能是做饭,但下一次,可能是修车。人们需要注释许多不同的领域。但是,如果我们可以在没有标签的情况下学习所有东西,这是一个更通用的解决方案,“陈说。

对于他们的方法,研究人员使用来自YouTube等网站的未标记的教学视频和随附的文本成绩单作为训练数据。这些不需要任何特殊准备。

他们将培训过程分为两部分。首先,他们教机器学习模型查看整个视频,以了解在特定时间发生的动作。这种高级信息称为全局表示。

对于第二种方法,他们教模型将注意力集中在视频中正在发生动作的部分的特定区域。例如,在大型厨房中,模型可能只需要关注厨师用来混合煎饼面糊的木勺,而不是整个柜台。这种细粒度信息称为局部表示。

研究人员在他们的框架中加入了一个额外的组件,以减轻叙述和视频之间发生的错位。也许厨师先说做煎饼,然后再做这个动作。

为了开发更现实的解决方案,研究人员专注于几分钟长的未剪辑视频。相比之下,大多数 AI 技术使用几秒钟的剪辑进行训练,有人修剪这些剪辑以仅显示一个动作。

 

但是,当他们开始评估他们的方法时,研究人员找不到一个有效的基准来测试这些更长的未剪辑视频的模型,因此他们创建了一个。

为了建立他们的基准数据集,研究人员设计了一种新的注释技术,可以很好地识别多步骤操作。他们让用户标记物体的交叉点,比如刀刃切西红柿的点,而不是在重要物体周围画一个盒子。

“这定义得更明确,加快了注释过程,从而减少了人力和成本,”Chen说。

此外,让多人对同一个视频进行点注释可以更好地捕捉随时间推移而发生的动作,例如倒出的牛奶流。所有注释器都不会在液体流动中标记完全相同的点。

当他们使用这个基准测试他们的方法时,研究人员发现它比其他人工智能技术更准确地定位动作。

他们的方法也更擅长关注人与物体的相互作用。例如,如果动作是“提供煎饼”,许多其他方法可能只关注关键对象,例如柜台上的一堆煎饼。取而代之的是,他们的方法侧重于厨师将煎饼翻转到盘子上的实际时刻。

接下来,研究人员计划改进他们的方法,以便模型可以自动检测文本和旁白何时不一致,并将焦点从一种模式切换到另一种模式。他们还希望将他们的框架扩展到音频数据,因为动作和物体发出的声音之间通常有很强的相关性。

“人工智能研究在创建像 ChatGPT 这样理解图像的模型方面取得了令人难以置信的进展。但我们在理解视频方面的进展还远远落后。这项工作代表了朝着这个方向迈出的重要一步,“波士顿大学计算机科学系教授Kate Saenko说,他没有参与这项工作。

这项研究部分由麻省理工学院-IBM Watson AI 实验室资助。