自动化系统教用户何时与 AI 助手协作

AI在线 · 2024-01-02 11:14 · 514浏览

在图像中挑选模式的人工智能模型通常比人眼做得更好,但并非总是如此。如果放射科医生正在使用 AI 模型来帮助她确定患者的 X 光片是否显示肺炎迹象,她什么时候应该相信模型的建议,什么时候应该忽略它?

 

根据麻省理工学院和麻省理工学院-IBM Watson AI实验室的研究人员的说法,定制的入职流程可以帮助这位放射科医生回答这个问题。他们设计了一个系统,可以教用户何时与人工智能助手协作。

 

在这种情况下,训练方法可能会发现放射科医生信任模型建议的情况,除非她不应该相信,因为模型是错误的。系统会自动学习她应该如何与人工智能协作的规则,并用自然语言描述它们。

 

在入职期间,放射科医生使用基于这些规则的训练练习练习与 AI 协作,接收有关她和 AI 表现的反馈。

 

研究人员发现,当人类和人工智能在图像预测任务上合作时,这种入职程序导致准确性提高了约5%。他们的研究结果还表明,仅仅告诉用户何时信任人工智能,而不进行训练,会导致性能下降。

 

重要的是,研究人员的系统是完全自动化的,因此它可以学习根据来自人类和执行特定任务的人工智能的数据创建入职流程。它还可以适应不同的任务,因此可以扩大规模,并在人类和人工智能模型协同工作的许多情况下使用,例如社交媒体内容审核、写作和编程。

 

“很多时候,人们在没有任何培训的情况下就可以使用这些人工智能工具来帮助他们弄清楚什么时候会有所帮助。这不是我们对人们使用的几乎所有其他工具所做的事情——几乎总是有某种教程。但对于人工智能来说,这似乎缺失了。我们正试图从方法论和行为的角度解决这个问题,“侯赛因·莫赞纳尔(Hussein Mozannar)说,他是数据、系统和社会研究所(IDSS)社会和工程系统博士课程的研究生,也是一篇关于这个培训过程的论文的主要作者。

 

研究人员设想,这种入职培训将成为医疗专业人员培训的关键部分。

 

“例如,人们可以想象,在人工智能的帮助下做出治疗决策的医生首先必须进行类似于我们建议的培训。我们可能需要重新思考 从继续医学教育到临床试验设计方式的一切,“资深作者David Sontag说,他是EECS教授,麻省理工学院-IBM Watson AI实验室和麻省理工学院贾米尔诊所的成员,也是计算机科学和人工智能实验室(CSAIL)临床机器学习小组的负责人。

 

Mozannar也是临床机器学习小组的研究员,他与电气工程和计算机科学专业的本科生Jimin J. Lee一起发表了这篇论文。Dennis Wei,IBM Research 高级研究科学家;以及麻省理工学院-IBM Watson AI 实验室的研究人员 Prasanna Sattigeri 和 Subhro Das。该论文将在神经信息处理系统会议上发表。

 

不断发展的培训

现有的人类与人工智能协作的入门方法通常由人类专家针对特定用例制作的培训材料组成,因此难以扩大规模。Mozannar说,一些相关的技术依赖于解释,人工智能告诉用户它对每个决定的信心,但研究表明,解释很少有帮助。

 

“人工智能模型的能力在不断发展,因此人类可能从中受益的用例正在随着时间的推移而增长。与此同时,用户对模型的感知也在不断变化。因此,我们需要一个随着时间的推移而发展的培训程序,“他补充道。

 

为了实现这一点,他们的入职方法会自动从数据中学习。它是从包含任务的许多实例的数据集构建的,例如从模糊的图像中检测交通信号灯的存在。

 

该系统的第一步是收集有关执行此任务的人类和人工智能的数据。在这种情况下,人类将尝试在人工智能的帮助下预测模糊的图像是否包含交通信号灯。

 

系统将这些数据点嵌入到潜在空间中,该潜在空间是相似数据点更紧密地联系在一起的数据表示。它使用一种算法来发现这个空间中人类与人工智能不匹配的区域。这些区域捕获了人类信任 AI 的预测但预测是错误的实例,反之亦然。

 

也许当图像显示夜间高速公路时,人类错误地相信了人工智能。

 

在发现这些区域后,第二种算法利用大型语言模型,使用自然语言将每个区域描述为一个规则。该算法通过查找对比示例来迭代微调该规则。它可能会将这个区域描述为“当它在夜间高速公路上时忽略人工智能”。

 

这些规则用于构建训练练习。入职系统向人类展示了一个示例,在本例中是夜间模糊的高速公路场景,以及 AI 的预测,并询问用户图像是否显示交通信号灯。用户可以回答“是”、“否”或使用 AI 的预测。

 

如果人类错了,他们会看到人类和人工智能在这些任务实例上的正确答案和性能统计信息。该系统对每个区域执行此操作,并在训练过程结束时重复人类错误的练习。

 

“在那之后,人类已经了解了这些区域的一些知识,我们希望他们将来能带走这些东西,以做出更准确的预测,”Mozannar说。

 

入职培训可提高准确性

研究人员在两项任务上与用户一起测试了这个系统——在模糊的图像中检测交通信号灯,并回答来自许多领域(如生物学、哲学、计算机科学等)的多项选择题。

 

他们首先向用户展示了一张卡片,其中包含有关 AI 模型的信息、它是如何训练的,以及它在广泛类别中的表现明细。用户被分成五组:一些人只被出示了卡片,一些人经历了研究人员的入职程序,一些人经历了基线的入职程序,一些人通过了研究人员的入职程序,并被建议他们何时应该或不应该信任人工智能,而另一些人只得到了建议。

 

只有研究人员在没有建议的情况下的入职程序显着提高了用户的准确性,将他们在交通信号灯预测任务中的表现提高了约 5%,而不会减慢他们的速度。然而,入职培训对于问答任务来说并不那么有效。研究人员认为,这是因为人工智能模型ChatGPT对每个答案都提供了解释,传达了是否应该信任它。

 

但是,在没有入职的情况下提供推荐会产生相反的效果——用户不仅表现更差,而且需要更多时间来做出预测。

 

“当你只给某人推荐时,他们似乎会感到困惑,不知道该怎么做。它破坏了他们的进程。人们也不喜欢被告知该做什么,所以这也是一个因素,“Mozannar说。

 

他补充说,如果这些建议是错误的,单独提供建议可能会伤害用户。另一方面,在入职时,最大的限制是可用数据量。他说,如果没有足够的数据,入职阶段就不会那么有效。

 

未来,他和他的合作者希望进行更大规模的研究,以评估入职的短期和长期影响。他们还希望在入职流程中利用未标记的数据,并找到在不遗漏重要示例的情况下有效减少区域数量的方法。

 

“人们正在随意采用人工智能系统,人工智能确实提供了巨大的潜力,但这些人工智能代理有时仍然会犯错误。因此,对于人工智能开发人员来说,设计方法帮助人类知道何时可以安全地依赖人工智能的建议至关重要,“华盛顿大学保罗·艾伦计算机科学与工程学院名誉教授丹·韦尔德说,他没有参与这项研究。“Mozannar等人创造了一种创新的方法,用于识别AI值得信赖的情况,并且(重要的是)以一种能够更好地进行人与AI团队互动的方式向人们描述它们。

 

这项工作部分由麻省理工学院-IBM Watson AI 实验室资助。