
人工智能的规模不断扩大!为 OpenAI 的 ChatGPT 和 Google 的 Bard 等著名聊天机器人提供支持的大型语言模型 (LLM) 由超过 1000 亿个参数组成,即决定 AI 如何响应输入的权重和变量。这比几年前最先进的人工智能模型中常见的信息和代码要多几个数量级。
从广义上讲,更大的人工智能往往是能力更强的人工智能。法学硕士规模越来越大,训练数据集越来越庞大,聊天机器人可以通过大学考试,甚至医学院的入学考试。然而,所有这些增长都存在缺点:随着模型变得越来越大,它们也变得更加笨重、耗能、难以运行和构建。较小的模型和数据集可以帮助解决这个问题。这就是为什么人工智能开发人员,即使是一些最大的科技公司的开发人员,也开始重新审视和评估微型人工智能模型。
例如,9 月,微软研究人员团队发布了一份关于名为 phi-1.5 的新语言模型的技术报告。Phi-1.5 由 13 亿个参数组成,大约是 GPT-3.5(ChatGPT 免费版本的基础模型)大小的百分之一。GPT-3.5 和 phi-1.5 也共享相同的通用架构:它们都是基于 Transformer 的神经网络,这意味着它们通过映射语言的上下文和关系来工作。
尽管规模相对较小,但作者在报告中写道,phi-1.5“展现了规模大得多的法学硕士的许多特征”。该报告以预印本论文形式发布,尚未经过同行评审。在基准测试中,该模型的表现优于许多类似尺寸的模型。它还表现出与其他人工智能 5 到 10 倍大的能力相当的能力。最近10 月份的更新甚至允许 phi-1.5显示多模态——一种解释图像和文本的能力。上周,微软宣布发布 phi-2,这是 phi-1.5 的 27 亿参数后续产品,该公司声称,它在一个相对紧凑的软件包中展示了更多的功能。
毫无疑问,像 Bard、GPT-3.5 和 GPT-4 这样的大型法学硕士仍然比 phi 模型更有能力。“我想说,比较 phi-1.5 和 GPT-4 就像比较中学生和本科生一样,”微软研究院首席 AI 研究员、9 月份报告的作者之一 Ronen Eldan 说。但 phi-1.5 和 phi-2 只是小型 AI 模型仍然强大的最新证据,这意味着它们可以解决 GPT-4 等怪物 AI 模型带来的一些问题。
其一,训练和运行具有超过 1000 亿个参数的 AI 模型需要消耗大量能量。根据华盛顿大学计算机工程师 Sajjad Moazeni 的一项估计,全球 ChatGPT 使用一个标准天的用电量相当于约 33,000 个美国家庭在同一时间段内消耗的电量。根据《焦耳》上个月发表的一项分析,如果谷歌将其所有用户的搜索引擎交互替换为对巴德的查询,那么运行该搜索引擎将使用与爱尔兰一样多的电力。电力消耗在很大程度上来自通过如此密集的参数网络发送查询所需的所有计算能力,以及用于训练大型模型的大量数据。哈佛大学计算机工程师马修·斯图尔特 (Matthew Stewart) 表示,规模较小的人工智能运行所需的计算能力和能源要少得多。这种能源回报是可持续发展的推动力。
另外,资源密集程度较低的人工智能是更容易访问的人工智能。就目前情况而言,只有少数私营公司拥有资金和服务器空间来构建、存储、培训和修改最大的法学硕士。更小的模型可以由更多的人开发和研究。米拉-魁北克人工智能研究所的计算和认知语言学研究员伊娃·波特兰斯 (Eva Portelance) 表示,小处思考“在某种意义上可以使人工智能民主化”。“不需要那么多的数据,也不需要那么大的模型……,你就可以让这些大型机构之外的人”进行创新。这是缩小人工智能带来新可能性的多种方式之一。
一方面,较小的人工智能可以适应较小的设备。目前,大多数法学硕士的规模意味着它们必须在云端运行——它们太大,无法本地存储在未连接的智能手机或笔记本电脑上。然而,较小的模型可以单独在个人设备上运行。例如,斯图尔特研究所谓的边缘计算,其目标是将计算和数据存储填充到本地机器中,例如“物联网”小工具。他致力于研究由机器学习驱动的传感器系统,其结构足够紧凑,可以在单独的无人机上运行——他称之为“微型机器学习”。斯图尔特解释说,此类设备可以在偏远地区实现更先进的环境传感等功能。如果有能力的语言模型变得同样小,它们将有无数的应用程序。在智能冰箱等现代电器或苹果手表等可穿戴设备中,较小的语言模型可以实现聊天机器人界面,而无需通过云连接传输原始数据。这对于数据安全来说将是一个巨大的福音。“隐私是主要好处之一,”斯图尔特说。
尽管一般规则是更大的人工智能模型能力更强,但并不是每个人工智能都必须能够做所有事情。智能冰箱内的聊天机器人可能需要了解常见的食物术语并撰写列表,但不需要编写代码或执行复杂的计算。过去的分析表明,在不牺牲所有领域性能的情况下,可以减少大量语言模型,甚至减少 60% 。在斯图尔特看来,对于那些希望从人工智能热潮中获利的公司来说,更小、更专业的人工智能模型可能是下一波浪潮。
然后是更基本的可解释性问题:机器学习模型可以被开发人员理解的程度。纽约大学研究人工智能的计算认知科学家布伦登·莱克(Brenden Lake)解释说,对于较大的人工智能模型,基本上不可能解析每个参数的作用。这是人工智能的“黑匣子”:开发人员构建并运行模型,而无需真正了解算法中每个权重的作用。在较小的模型中,虽然通常仍然很困难,但更容易确定因果关系并进行相应调整。“我宁愿尝试理解一百万个参数,也不愿理解十亿个参数,”Lake 说。
对于 Lake 和 Portelance 来说,人工智能不仅仅是构建最有能力的语言模型,还在于深入了解人类如何学习以及如何通过机器更好地模仿人类。规模和可解释性是创建模型的关键因素,这些模型有助于阐明我们自己的思想。对于大型人工智能模型(通常在更大的数据集上进行训练),训练信息的广度可以掩盖局限性,并使算法看起来像是理解了一些它不理解的东西。相反,使用更小、更可解释的人工智能,更容易解析算法产生输出的原因。波特兰斯说,反过来,科学家可以利用这种理解来创建“在认知上更合理”以及可能更好的整体人工智能模型。他们指出,人类是认知和学习的黄金标准:我们可以吸收大量信息并从极少量的信息中推断出模式。我们有充分的理由尝试研究这种现象并通过人工智能复制它。
与此同时,“在大数据集上训练大型模型的回报正在递减,”莱克说。最终,寻找高质量数据成为一项挑战,能源成本不断增加,模型性能提高速度也越来越慢。相反,正如他自己过去的研究所证明的那样,机器学习的重大进步可以来自于专注于更精简的神经网络和测试替代训练策略。
微软研究院高级首席人工智能研究员 Sébastien Bubeck 对此表示同意。Bubeck 是 phi-1.5 的开发者之一。对他来说,研究缩小版人工智能的目的是“找到从算法中产生智能火花的最小成分”。一旦了解了这些最小的组件,您就可以在它们的基础上进行构建。通过用更小的模型来解决这些大问题,布贝克希望以尽可能经济的方式改进人工智能。
“通过这一策略,我们对构建模型的方式更加谨慎,”他说。“我们正在采取更缓慢、更审慎的方法。” 有时缓慢而稳定地赢得比赛,有时更小可以更聪明。
免费体验AI功能
1、浏览器输入访问地址:https://tool.aionline.cc/
2、找到AI聊天或者AI绘画,开始体验
3、小程序版本,如下图
