为了教人工智能智能体一项新任务,比如如何打开厨柜,研究人员经常使用强化学习——一个试错过程,智能体会因采取更接近目标的行动而获得奖励。
在许多情况下,人类专家必须仔细设计奖励函数,这是一种激励机制,可以激发智能体进行探索的动力。当智能体探索和尝试不同的操作时,人类专家必须迭代更新该奖励函数。这可能非常耗时、效率低下且难以扩展,尤其是当任务复杂且涉及许多步骤时。
来自麻省理工学院、哈佛大学和华盛顿大学的研究人员开发了一种新的强化学习方法,该方法不依赖于专业设计的奖励函数。相反,它利用从许多非专家用户那里收集的众包反馈来指导代理学习实现其目标。
虽然其他一些方法也试图利用非专家的反馈,但这种新方法使人工智能代理能够更快地学习,尽管来自用户众包的数据通常充满了错误。这些嘈杂的数据可能会导致其他方法失败。
此外,这种新方法允许异步收集反馈,因此世界各地的非专家用户都可以为教授代理做出贡献。
“当今设计机器人代理时最耗时和最具挑战性的部分之一是设计奖励函数。今天,奖励函数是由专家研究人员设计的——如果我们想教我们的机器人许多不同的任务,这种范式是不可扩展的。我们的工作提出了一种通过众包奖励函数的设计来扩展机器人学习的方法,并使非专家能够提供有用的反馈,“麻省理工学院电气工程和计算机科学系(EECS)助理教授Pulkit Agrawal说,他领导麻省理工学院计算机科学和人工智能实验室(CSAIL)的不可能人工智能实验室。
将来,这种方法可以帮助机器人快速学习在用户家中执行特定任务,而无需所有者向机器人展示每项任务的物理示例。机器人可以自行探索,由众包的非专家反馈指导其探索。
“在我们的方法中,奖励函数引导智能体去探索它应该探索什么,而不是确切地告诉它应该做什么来完成任务。因此,即使人类的监督有些不准确和嘈杂,智能体仍然能够探索,这有助于它更好地学习,“主要作者Marcel Torne ' 23解释说,他是Improbable AI实验室的研究助理。
Torne与麻省理工学院的顾问Agrawal;资深作者,华盛顿大学助理教授Abhishek Gupta以及华盛顿大学和麻省理工学院的其他人一起发表了这篇论文。该研究将在下个月的神经信息处理系统会议上发表。
嘈杂的反馈
收集用户反馈以进行强化学习的一种方法是向用户展示代理实现的状态的两张照片,然后询问该用户哪种状态更接近目标。例如,也许机器人的目标是打开厨柜。一张图片可能显示机器人打开了柜子,而第二张图片可能显示它打开了微波炉。用户将选择“更好”状态的照片。
以前的一些方法试图使用这种众包的二进制反馈来优化智能体用来学习任务的奖励函数。但是,由于非专家可能会犯错误,因此奖励函数可能会变得非常嘈杂,因此智能体可能会陷入困境,永远无法达到其目标。
“基本上,代理会过于认真地对待奖励功能。它将尝试完美匹配奖励函数。因此,我们没有直接优化奖励函数,而是用它来告诉机器人它应该探索哪些区域,“Torne说。
他和他的合作者将这个过程解耦为两个独立的部分,每个部分都由自己的算法指导。他们将新的强化学习方法称为HuGE(人类引导探索)。
一方面,目标选择器算法会根据众包的人工反馈不断更新。反馈不是用作奖励函数,而是用于指导智能体的探索。从某种意义上说,非专家用户会丢弃面包屑,这些面包屑会逐渐引导代理实现其目标。
另一方面,智能体在目标选择器的指导下,以自我监督的方式自行探索。它收集它尝试的操作的图像或视频,然后将其发送给人类并用于更新目标选择器。
这缩小了智能体探索的区域,使其进入更接近其目标的更有希望的区域。但是,如果没有反馈,或者反馈需要一段时间才能到达,智能体将继续自行学习,尽管速度较慢。这样可以不频繁地、异步地收集反馈。
“探索循环可以自主地继续进行,因为它只是要探索和学习新事物。然后,当你得到一些更好的信号时,它将以更具体的方式进行探索。你可以让他们按照自己的节奏转动,“Torne 补充道。
而且由于反馈只是温和地指导智能体的行为,即使用户提供了错误的答案,它最终也会学会完成任务。
更快的学习速度
研究人员在许多模拟和真实世界的任务中测试了这种方法。在模拟中,他们使用 HuGE 有效地学习具有长序列动作的任务,例如按特定顺序堆叠积木或导航大型迷宫。
在实际测试中,他们利用HuGE来训练机械臂绘制字母“U”并拾取和放置物体。在这些测试中,他们从三大洲13个不同国家的109名非专家用户那里众包数据。
在真实世界和模拟实验中,HuGE帮助智能体学会比其他方法更快地实现目标。
研究人员
还发现,来自非专家的众包数据比由研究人员生成和标记的合成数据产生了更好的性能。对于非专业用户,标记 30 张图像或视频只需不到两分钟。
“这使得它非常有希望能够扩大这种方法的规模,”Torne补充道。
研究人员在最近的机器人学习会议上发表的一篇相关论文中,他们增强了HuGE,因此AI代理可以学习执行任务,然后自主重置环境以继续学习。例如,如果代理学习打开机柜,则该方法还会指导代理关闭机柜。
“现在我们可以让它完全自主学习,而不需要人工重置,”他说。
研究人员还强调,在这种学习方法和其他学习方法中,确保人工智能代理与人类价值观保持一致至关重要。未来,他们希望继续完善HuGE,以便智能体可以从其他形式的通信中学习,例如自然语言和与机器人的物理交互。他们也有兴趣应用这种方法同时教授多个代理。
这项研究部分由麻省理工学院-IBM Watson AI实验室资助。