受控扩散模型可以改变图像中的材料属性

AI在线 · 2024-06-01 10:33 · 580浏览

麻省理工学院计算机科学与人工智能实验室(CSAIL)和谷歌研究院的研究人员可能刚刚进行了数字巫术——以扩散模型的形式,可以改变图像中物体的材料属性。

该系统被称为炼金术士,允许用户更改真实图片和人工智能生成图片的四个属性:粗糙度、金属度、反照率(物体的初始基色)和透明度。作为图像到图像扩散模型,可以输入任何照片,然后在 -1 到 1 的连续比例内调整每个属性以创建新的视觉对象。这些照片编辑功能可能会扩展到改进视频游戏中的模型,扩展人工智能在视觉效果方面的能力,并丰富机器人训练数据。

Alchemist 背后的魔力始于去噪扩散模型:在实践中,研究人员使用了 Stable Diffusion 1.5,这是一种文本到图像模型,因其逼真的结果和编辑功能而备受赞誉。以前的工作建立在流行的模型之上,使用户能够进行更高级别的更改,例如交换对象或更改图像的深度。相比之下,CSAIL 和 Google Research 的方法应用此模型来关注低级属性,使用独特的、基于滑块的界面修改对象材料属性的更精细细节,该界面的性能优于其对应物。

虽然以前的扩散系统可以把一只众所周知的兔子从帽子里拉出来,但炼金术士可以把同样的动物变成半透明的。该系统还可以使橡皮鸭看起来有金属感,去除金鱼的金色色调,并擦亮旧鞋。像 Photoshop 这样的程序具有类似的功能,但此模型可以以更直接的方式更改材质属性。例如,在广泛使用的应用程序中,修改照片的金属外观需要几个步骤。

“当你看到你创建的图像时,结果往往与你所想的不完全一样,”麻省理工学院电气工程和计算机科学博士生、CSAIL附属机构、一篇描述这项工作的新论文的主要作者Prafull Sharma说。“你想在编辑图片时控制图片,但图像编辑器中的现有控件无法更改材质。在 Alchemist 中,我们利用了文本到图像模型输出的逼真感,并梳理出一个滑块控件,允许我们在提供初始图片后修改特定属性。

精确控制

“文本到图像生成模型使日常用户能够像写句子一样轻松生成图像。然而,控制这些模型可能具有挑战性,“卡内基梅隆大学助理教授Jun-Yan Zhu说,他没有参与这篇论文。“虽然生成花瓶很简单,但合成具有特定材料特性(如透明度和粗糙度)的花瓶需要用户花费数小时尝试不同的文本提示和随机种子。这可能会令人沮丧,尤其是对于需要精确工作的专业用户而言。Alchemist通过精确控制输入图像的材料,同时利用大规模扩散模型的数据驱动先验,为这一挑战提供了实用的解决方案,激励未来的工作将生成模型无缝整合到常用内容创建软件的现有界面中。

Alchemist 的设计能力可以帮助调整视频游戏中不同模型的外观。在这个领域应用这样的扩散模型可以帮助创作者加快他们的设计过程,完善纹理以适应关卡的游戏玩法。此外,Sharma和他的团队的项目可以帮助改变图形设计元素、视频和电影效果,以增强照片真实感并精确地实现所需的材料外观。

该方法还可以优化机器人训练数据,以执行操作等任务。通过向机器介绍更多纹理,他们可以更好地了解他们将在现实世界中掌握的各种物品。Alchemist甚至可以帮助进行图像分类,分析神经网络无法识别图像的物质变化。

Sharma和他的团队的工作超越了类似的模型,忠实地只编辑了所要求的兴趣对象。例如,当用户提示不同的模型将海豚调整到最大透明度时,只有炼金术士在未编辑海洋背景的情况下实现了这一壮举。当研究人员使用与比较方法相同的数据训练可比扩散模型InstructPix2Pix时,他们发现Alchemist获得了更高的准确性分数。同样,一项用户研究表明,麻省理工学院的模型是首选,并且被认为比其同类模型更逼真。

用合成数据保持真实

据研究人员称,收集真实数据是不切实际的。取而代之的是,他们在合成数据集上训练了他们的模型,在流行的计算机图形设计工具Blender中随机编辑了1,200种材料的材料属性,这些材料应用于100个公开可用的独特3D对象。

“到目前为止,生成式人工智能图像合成的控制一直受到文本描述的限制,”麻省理工学院电气工程与计算机科学系(EECS)的Amar Bose计算教授Frédo Durand说,他是该论文的资深作者。“这项工作为从数十年的计算机图形学研究中继承下来的视觉属性开辟了新的、更精细的控制。

“Alchemist 是使机器学习和扩散模型对 CGI 社区和平面设计师实用和有用的技术,”Google Research 高级软件工程师兼合著者 Mark Matthews 补充道。“没有它,你就会陷入这种无法控制的随机性。这在一段时间内可能很有趣,但在某些时候,你需要完成真正的工作,并让它服从创造性的愿景。

Sharma的最新项目是在他领导Materialistic研究一年后完成的,Materialistic是一种机器学习方法,可以识别图像中的相似材料。之前的这项工作展示了 AI 模型如何完善其材料理解技能,并且与 Alchemist 一样,在 Blender 的 3D 模型合成数据集上进行了微调。

尽管如此,炼金术士目前还是有一些局限性。该模型难以正确推断照明,因此有时无法遵循用户的输入。Sharma指出,这种方法有时也会产生物理上难以置信的透明胶片。例如,想象一下一只手部分地放在麦片盒里——在炼金术士对这个属性的最大设置下,你会看到一个透明的容器,手指没有伸进去。

研究人员希望扩展这种模型如何改善场景级图形的3D资产。此外,炼金术士可以帮助从图像中推断材料属性。根据夏尔马的说法,这种类型的工作可以在未来解开物体的视觉和机械特征之间的联系。

麻省理工学院EECS教授和CSAIL成员William T. Freeman也是资深作者,与Varun Jampani和Google Research科学家Yuanzhen Li PhD '09,Xuhui Jia和Dmitry Lagun一起。这项工作在一定程度上得到了美国国家科学基金会的资助以及谷歌和亚马逊的礼物的支持。该小组的工作将在6月的CVPR上得到重点介绍。