从物理学到生成式 AI:用于高级模式生成的 AI 模型

AI在线 · 2024-01-02 11:18 · 504浏览

生成式人工智能(Generative AI)目前正处于流行话语的顶峰,它承诺了一个简单转变为复杂的世界——一个简单的分布演变成复杂的图像、声音或文本模式,使人工变得惊人地真实。 

 

想象力的领域不再仅仅是抽象的,因为麻省理工学院计算机科学和人工智能实验室(CSAIL)的研究人员已经将创新的人工智能模型带入了生活。他们的新技术整合了两个看似无关的物理定律,这些定律支撑着迄今为止性能最好的生成模型:扩散,它通常说明元素的随机运动,如热量渗透到房间或气体膨胀到空间中,以及泊松流,它借鉴了控制电荷活动的原理。

 

这种和谐的融合在生成新图像方面具有卓越的性能,超过了现有的最先进模型。自问世以来,“泊松流生成模型++” (PFGM++)已在各个领域找到了潜在的应用,从抗体和RNA序列生成到音频生成和图形生成。

 

该模型可以生成复杂的模式,例如创建逼真的图像或模拟真实世界的过程。PFGM++ 建立在 PFGM 的基础上,PFGM 是该团队前一年的工作成果。PFGM 从称为“泊松”方程的数学方程背后的均值中汲取灵感,然后将其应用于模型试图学习的数据。为了做到这一点,该团队使用了一个聪明的技巧:他们在模型的“空间”中添加了一个额外的维度,有点像从2D草图到3D模型。这个额外的维度提供了更多的回旋余地,将数据置于更大的上下文中,并帮助人们在生成新样本时从各个方向处理数据。 

 

麻省理工学院核科学实验室理论物理中心的理论粒子物理学家、美国国家科学基金会人工智能与基础相互作用研究所(NSF AI IAIFI)主任Jesse Thaler说:“PFGM++是可以通过物理学家和计算机科学家之间的跨学科合作来推动人工智能进步的一个例子。 谁没有参与这项工作。“近年来,基于人工智能的生成模型产生了许多令人瞠目结舌的结果,从逼真的图像到清晰的文本流。值得注意的是,一些最强大的生成模型是基于经过时间考验的物理学概念,例如对称性和热力学。PFGM++从基础物理学中汲取了一个世纪以来的想法——可能存在额外的时空维度——并将其转化为一个强大而强大的工具,以生成合成但逼真的数据集。我很高兴看到'物理智能'正在改变人工智能领域的无数方式。

 

PFGM的潜在机制并不像听起来那么复杂。研究人员将这些数据点与放置在维度扩展世界中平面上的微小电荷进行了比较。这些电荷产生一个“电场”,电荷希望沿着电场线向上移动到一个额外的维度,从而在一个巨大的假想半球上形成均匀的分布。生成过程就像倒带录像带:从半球上均匀分布的一组电荷开始,并跟踪它们沿着电线返回平面的旅程,它们对齐以匹配原始数据分布。这个有趣的过程允许神经模型学习电场,并生成反映原始数据的新数据。 

 

PFGM++ 模型将 PFGM 中的电场扩展到一个复杂的高维框架。当你不断扩展这些维度时,会发生一些意想不到的事情——模型开始类似于另一类重要的模型,即扩散模型。这项工作就是要找到正确的平衡点。PFGM 和扩散模型位于光谱的两端:一个是鲁棒但处理复杂,另一个更简单但不太坚固。PFGM++ 模型提供了一个最佳点,在稳健性和易用性之间取得了平衡。这项创新为更高效的图像和图案生成铺平了道路,标志着技术向前迈出了一大步。除了可调节的尺寸外,研究人员还提出了一种新的训练方法,可以更有效地学习电场。 

 

为了将这一理论变为现实,该团队求解了一对微分方程,详细说明了这些电荷在电场中的运动。他们使用Frechet Inception Distance(FID)分数评估了性能,这是一个被广泛接受的指标,用于评估模型生成的图像与真实图像相比的质量。PFGM++ 进一步展示了更高的抗误差能力和对微分方程中步长的鲁棒性。

 

展望未来,他们的目标是完善模型的某些方面,特别是通过分析神经网络的估计误差行为,以系统的方式识别为特定数据、架构和任务量身定制的 D 的“甜蜜点”值。他们还计划将 PFGM++ 应用于现代大规模文本到图像/文本到视频生成。

 

“扩散模型已成为生成式人工智能革命背后的关键驱动力,”OpenAI研究科学家Yang Song说。“PFGM++提供了扩散模型的强大泛化,允许用户通过提高图像生成对扰动和学习错误的鲁棒性来生成更高质量的图像。此外,PFGM++揭示了静电和扩散模型之间令人惊讶的联系,为扩散模型研究提供了新的理论见解。

 

NVIDIA 高级研究科学家 Karsten Kreis 表示:“泊松流创成模型不仅依赖于基于静电的优雅物理灵感公式,而且还在实践中提供了最先进的创成建模性能。“它们甚至优于目前在文献中占主导地位的流行扩散模型。这使它们成为一种非常强大的生成式建模工具,我设想它们在不同领域的应用,从数字内容创建到生成药物发现。更广泛地说,我相信对进一步受物理启发的创成式建模框架的探索为未来带来了巨大的希望,而泊松流创成模型只是一个开始。

 

关于这项工作的论文的作者包括麻省理工学院的三名研究生:电气工程与计算机科学系(EECS)和CSAIL的Yilun Xu,物理系和NSF AI IAIFI的Ziming Liu,EECS和CSAIL的Shangyuan Tong,以及Google高级研究科学家Yonglong Tian博士'23。麻省理工学院教授Max Tegmark和Tommi Jaakkola为这项研究提供了建议。

 

该团队得到了麻省理工学院-DSTA新加坡合作、麻省理工学院-IBM沃森人工智能实验室、美国国家科学基金会资助、凯西和家庭基金会、基础问题研究所、罗斯伯格认知科学家庭基金和药物发现和合成联盟ML的支持。他们的工作在今年夏天的机器学习国际会议上发表。