周边视觉使人类能够看到不直接在我们的视线范围内的形状,尽管细节较少。这种能力扩展了我们的视野,在许多情况下都会有所帮助,例如检测从侧面接近我们汽车的车辆。
与人类不同,人工智能没有周边视觉。为计算机视觉模型配备这种能力可以帮助它们更有效地检测接近的危险,或者预测人类驾驶员是否会注意到迎面而来的物体。
麻省理工学院的研究人员朝着这个方向迈出了一步,开发了一个图像数据集,使他们能够在机器学习模型中模拟周边视觉。他们发现,使用该数据集训练模型提高了模型检测视觉外围物体的能力,尽管模型的表现仍然比人类差。
他们的研究结果还显示,与人类不同,物体的大小和场景中的视觉杂乱程度都没有对人工智能的性能产生重大影响。
“这里正在发生一些基本的事情。我们测试了很多不同的模型,即使我们训练它们,它们也会变得更好一点,但它们并不完全像人类。所以,问题是:这些模型中缺少什么?“Vasha DuTell说,他是一名博士后,也是一篇详细介绍这项研究的论文的合著者。
回答这个问题可能有助于研究人员建立机器学习模型,这些模型可以更像人类一样看待世界。除了提高驾驶员安全性外,这些模型还可用于开发更易于人们观看的显示器。
此外,更深入地了解人工智能模型中的周边视觉可以帮助研究人员更好地预测人类行为,主要作者Anne Harrington MEng '23补充道。
“如果我们能够真正捕捉到周边视觉的本质,那么对周边视觉进行建模,可以帮助我们理解视觉场景中的特征,这些特征使我们的眼睛移动以收集更多信息,”她解释道。
他们的合著者包括电气工程和计算机科学研究生马克·汉密尔顿(Mark Hamilton);Ayush Tewari,博士后;西蒙·斯坦特(Simon Stent),丰田研究所研究经理;资深作者William T. Freeman,Thomas and Gerd Perkins电气工程和计算机科学教授,计算机科学和人工智能实验室(CSAIL)的成员;Ruth Rosenholtz,脑与认知科学系首席研究科学家,CSAIL成员。该研究将在学习表征国际会议上发表。
“每当你让一个人与机器互动时——汽车、机器人、用户界面——了解这个人能看到什么都是非常重要的。周边视觉在这种理解中起着至关重要的作用,“Rosenholtz说。
模拟周边视觉
将手臂伸到身前,竖起大拇指——拇指甲周围的小区域被中央凹看到,中央凹是视网膜中间的小凹陷,可提供最清晰的视力。你能看到的其他一切都在你的视觉外围。你的视觉皮层代表一个细节和可靠性较低的场景,因为它离那个尖锐的焦点越来越远。
许多现有的人工智能周边视觉建模方法通过模糊图像的边缘来表示这种恶化的细节,但视神经和视觉皮层中发生的信息丢失要复杂得多。
为了获得更准确的方法,麻省理工学院的研究人员开始使用一种用于模拟人类周边视觉的技术。这种方法被称为纹理平铺模型,它转换图像以表示人类的视觉信息丢失。
他们修改了这个模型,使其可以以类似的方式转换图像,但以更灵活的方式,不需要事先知道人或人工智能将把眼睛指向哪里。
“这让我们可以忠实地模拟周边视觉,就像在人类视觉研究中所做的那样,”哈灵顿说。
研究人员使用这种修改后的技术生成了一个巨大的转换图像数据集,这些图像在某些区域看起来更有质感,以表示当人类进一步观察外围时发生的细节损失。
然后,他们使用数据集训练了几个计算机视觉模型,并将其性能与人类在对象检测任务中的表现进行了比较。
“我们必须非常聪明地设置实验,这样我们也可以在机器学习模型中测试它。我们不想在玩具任务上重新训练模型,而他们不应该这样做,“她说。
奇特的性能
向人类和模型展示了成对的相同变换图像,只是一张图像的目标对象位于外围。然后,每个参与者被要求选择带有目标对象的图像。
“真正让我们感到惊讶的一件事是,人们在检测外围物体方面做得如此出色。我们浏览了至少 10 组不同的图像,这些图像太简单了。我们一直需要使用越来越小的物体,“Harrington补充道。
研究人员发现,使用数据集从头开始训练模型可以带来最大的性能提升,从而提高它们检测和识别物体的能力。使用数据集微调模型,这一过程涉及调整预训练模型,以便它可以执行新任务,导致性能提升较小。
但在每种情况下,这些机器都不如人类,而且它们在探测远端物体方面尤其糟糕。他们的表现也没有遵循与人类相同的模式。
“这可能表明,这些模型使用上下文的方式与人类执行这些检测任务的方式不同。模型的策略可能会有所不同,“哈灵顿说。
研究人员计划继续探索这些差异,目标是找到一个可以预测人类在视觉外围表现的模型。例如,这可以使人工智能系统能够提醒驾驶员注意他们可能看不到的危险。他们还希望激励其他研究人员使用他们公开的数据集进行更多的计算机视觉研究。
“这项工作很重要,因为它有助于我们理解,由于我们拥有的光感受器数量有限,外围的人类视觉不应被视为视力贫乏,而是一种为我们优化的表示,以执行现实世界的任务,”斯坦福大学心理学系副教授贾斯汀·加德纳(Justin Gardner)说,他没有参与这项工作。“此外,这项工作表明,尽管神经网络模型近年来取得了进步,但在这方面无法与人类的表现相媲美,这应该会导致更多的人工智能研究,以从人类视觉的神经科学中学习。作者提供的图像数据库将极大地帮助这项未来的研究,以模拟人类周边视觉。
这项工作得到了丰田研究所和麻省理工学院CSAIL流星奖学金的部分支持。