自然语言提升了 LLM 在编码、规划和机器人方面的性能

大型语言模型（LLM）对于编程和机器人任务越来越有用，但对于更复杂的推理问题，这些系统与人类之间的差距越来越大。如果没有像人类那样学习新概念的能力，这些系统就无法形成良好的抽象——本质上是跳过不太重要的细节的复杂概念的高级表示——因此在被要求执行更复杂的任务时会出现断断续续的情况。

幸运的是，麻省理工学院计算机科学和人工智能实验室（CSAIL）的研究人员在自然语言中发现了抽象的宝库。在本月国际学习表征大会上发表的三篇论文中，该小组展示了我们的日常用语如何成为语言模型的丰富上下文来源，帮助他们为代码合成、人工智能规划以及机器人导航和操作构建更好的总体表示。

这三个独立的框架为其给定的任务构建了抽象库：LILO（来自语言观察的库归纳）可以合成、压缩和记录代码;Ada（行动域获取）探索人工智能代理的顺序决策;LGA（语言引导抽象）帮助机器人更好地了解他们的环境，以制定更可行的计划。每个系统都是一种神经符号方法，一种融合了类人神经网络和类程序逻辑组件的人工智能。

LILO：一种编码大型语言模型的神经符号框架，

可用于快速编写小规模编码任务的解决方案，但还不能像人类软件工程师编写的软件库那样构建整个软件库。为了进一步提高其软件开发能力，AI 模型需要将代码重构（剪切和组合）为简洁、可读和可重用的程序库。

重构工具，如之前开发的麻省理工学院领导的Stitch算法，可以自动识别抽象，因此，为了向迪斯尼电影“Lilo & Stitch”致敬，CSAIL的研究人员将这些算法重构方法与LLM相结合。他们的神经符号方法 LILO 使用标准的 LLM 编写代码，然后将其与 Stitch 配对，以找到在库中全面记录的抽象。

LILO对自然语言的独特强调使系统能够执行需要类似人类常识的知识的任务，例如从一串代码中识别和删除所有元音以及绘制雪花。在这两种情况下，CSAIL系统的表现都优于独立的LLM，以及麻省理工学院以前的库学习算法DreamCoder，这表明它能够更深入地理解提示中的单词。这些令人鼓舞的结果表明，LILO 可以协助编写程序来操作 Excel 电子表格等文档，帮助 AI 回答有关视觉效果的问题，以及绘制 2D 图形。

“语言模型更喜欢使用以自然语言命名的函数，”麻省理工学院电气工程和计算机科学博士生、CSAIL 附属机构、该研究的主要作者 Gabe Grand SM '23 说。“我们的工作为语言模型创建了更直接的抽象，并为每个模型分配了自然语言名称和文档，从而为程序员提供了更可解释的代码并提高了系统性能。”

当提示进行编程任务时，LILO 首先使用 LLM 根据其训练的数据快速提出解决方案，然后系统会缓慢地更详尽地搜索外部解决方案。接下来，Stitch 可以有效地识别代码中的常见结构，并提取出有用的抽象。然后，LILO会自动命名和记录这些程序，从而产生简化的程序，系统可以使用这些程序来解决更复杂的任务。

麻省理工学院框架使用特定领域的编程语言编写程序，例如 Logo，这是麻省理工学院在 1970 年代开发的一种语言，用于教孩子们编程。扩展自动重构算法以处理更通用的编程语言（如Python）将是未来研究的重点。尽管如此，他们的工作代表了语言模型如何促进日益复杂的编码活动向前迈出的一步。

Ada：自然语言指导 AI 任务规划

就像在编程中一样，在家庭和基于命令的视频游戏中自动执行多步骤任务的 AI 模型缺乏抽象性。想象一下，你正在做早餐，让你的室友把一个热鸡蛋端到桌子上——他们会凭直觉地将他们关于在厨房做饭的背景知识抽象成一系列的动作。相比之下，接受过类似信息培训的法学硕士仍然难以推理他们需要什么来制定灵活的计划。

以著名数学家 Ada Lovelace 的名字命名，许多人认为他是世界上第一位程序员，CSAIL 领导的“Ada”框架通过开发用于虚拟厨房杂务和游戏的有用计划库，在这个问题上取得了进展。该方法根据潜在任务及其自然语言描述进行训练，然后语言模型从该数据集中提出动作抽象。人工操作员对最佳计划进行评分并过滤到库中，以便将最佳操作实施到不同任务的分层计划中。

“传统上，大型语言模型在处理更复杂的任务时会遇到困难，因为诸如抽象推理之类的问题，”Ada首席研究员Lio Wong说，他是麻省理工学院大脑和认知科学研究生，CSAIL附属机构，也是LIVO的合著者。“但是我们可以将软件工程师和机器人专家使用的工具与LLM结合起来，以解决棘手的问题，例如虚拟环境中的决策。

当研究人员将广泛使用的大型语言模型 GPT-4 整合到 Ada 中时，该系统在厨房模拟器和 Mini Minecraft 中完成的任务比 AI 决策基线“代码即策略”还要多。艾达利用隐藏在自然语言中的背景信息来理解如何将冰镇葡萄酒放在柜子里并制作一张床。结果显示，任务准确性分别提高了惊人的59%和89%。

随着这一成功，研究人员希望将他们的工作推广到现实世界的家庭中，希望Ada可以协助完成其他家务，并帮助厨房中的多个机器人。目前，它的主要局限性在于它使用通用的 LLM，因此 CSAIL 团队希望应用更强大、经过微调的语言模型，以帮助进行更广泛的规划。Wong和她的同事们也在考虑将Ada与刚从CSAIL中诞生的机器人操作框架结合起来：LGA（语言引导抽象）。

语言引导抽象：机器人任务的表示

Andi Peng SM '23 是麻省理工学院电气工程和计算机科学专业的研究生，也是 CSAIL 的附属机构，她和她的合著者设计了一种方法，帮助机器更像人类一样解释周围环境，在工厂或厨房等复杂环境中减少不必要的细节。就像 LILO 和 Ada 一样，LGA 对自然语言如何引导我们获得更好的抽象有着新颖的关注。

在这些更加非结构化的环境中，机器人需要一些关于其任务的常识，即使事先进行了基本培训。例如，让机器人递给你一个碗，机器将需要大致了解周围环境中哪些特征是重要的。从那里，它可以推理如何给你你想要的物品。

在LGA的案例中，人类首先使用自然语言提供一个预先训练的语言模型，其中包含一般的任务描述，例如“给我戴上帽子”。然后，模型将此信息转换为有关执行此任务所需的基本元素的抽象。最后，在一些演示中训练的模仿策略可以实现这些抽象，以指导机器人抓取所需的物品。

以前的工作需要一个人在不同的操作任务上做大量的笔记来预训练机器人，这可能很昂贵。值得注意的是，LGA 指导语言模型生成类似于人类注释者的抽象，但时间更短。为了说明这一点，LGA制定了机器人政策，帮助波士顿动力公司的Spot四足动物捡起水果并将饮料扔进回收箱。这些实验展示了麻省理工学院开发的方法如何在非结构化环境中扫描世界并制定有效的计划，从而有可能引导道路上的自动驾驶汽车以及在工厂和厨房工作的机器人。

“在机器人技术中，我们经常忽视的一个事实是，我们需要多少来完善我们的数据，以使机器人在现实世界中有用，”彭说。“除了简单地记住图像中的内容来训练机器人执行任务之外，我们还希望将计算机视觉和字幕模型与语言相结合。通过从机器人所看到的内容中生成文本标题，我们表明语言模型基本上可以为机器人构建重要的世界知识。

LGA 面临的挑战是，某些行为无法用语言解释，从而导致某些任务的指定不足。为了扩展它们在环境中表示特征的方式，Peng和她的同事正在考虑将多模态可视化界面整合到他们的工作中。同时，LGA为机器人提供了一种方法，在向人类伸出援助之手时，可以更好地感受周围的环境。

人工智能的“激动人心的前沿”

“图书馆学习代表了人工智能中最激动人心的前沿之一，为发现和推理构图抽象提供了一条途径，”威斯康星大学麦迪逊分校助理教授罗伯特·霍金斯说，谁没有参与这些文件。霍金斯指出，以前探索这个主题的技术“计算成本太高，无法大规模使用”，并且它们生成的lambda或用于描述许多语言中新函数的关键字存在问题。“它们往往会产生不透明的'lambda沙拉'，即一大堆难以解释的功能。最近的这些论文展示了一种令人信服的前进方式，将大型语言模型置于具有符号搜索、压缩和规划算法的交互式循环中。这项工作能够为手头的任务快速获取更具可解释性和适应性的库。

通过使用自然语言构建高质量代码抽象库，这三种神经符号方法使语言模型更容易在未来解决更复杂的问题和环境。这种对提示中精确关键字的更深入理解为开发更像人类的 AI 模型提供了一条前进的道路。

麻省理工学院CSAIL成员是每篇论文的资深作者：大脑和认知科学教授Joshua Tenenbaum，ILO和Ada;LGA航空航天系主任Julie Shah;以及电气工程和计算机科学副教授雅各布·安德烈亚斯（Jacob Andreas）。麻省理工学院的其他作者都是博士生：LILO的Maddy Bowers和Theo X. Olausson，Ada的Jiayuan 毛和Pratyusha Sharma，以及LGA的Belinda Z. Li。哈维穆德学院的Muxin Liu是LILO的合著者;普林斯顿大学的Zachary Siegel，加州大学伯克利分校的Jaihai Feng和Microsoft的Noa Korneev是Ada的合著者;普林斯顿大学的 Ilia Sucholutsky、Theodore R. Sumers 和 Thomas L. Griffiths 是 LGA 的合著者。

LILO 和 Ada 得到了麻省理工学院 Quest for Intelligence、麻省理工学院-IBM Watson AI 实验室、英特尔、美国空军科学研究办公室、美国国防高级研究计划局和美国海军研究办公室的部分支持。后一个项目也获得了大脑、思想和机器中心的资助。LGA 获得了美国国家科学基金会、开放慈善事业、加拿大自然科学与工程研究委员会和美国国防部的资助。

自然语言提升了 LLM 在编码、规划和机器人方面的性能

热门阅读

热门标签