Deepmind Gato带来希望，也带来绝望，通用人工智能之路仍不清晰

600般武艺在手，Deepmind“通才”Gato，依然没有看到机器产生通用智能的希望

作者｜智物

本文为智物原创文章，转载请联系后台

近期， DeepMind 推出了一种名为Gato的人工智能模型。这家Alphabet 旗下的人工智能实验室宣布，该模型可以玩 Atari 视频游戏、聊天，还可以用真正的机械手臂堆叠积木等600多种技能。

DeepMind 的顶级研究人员之一、 Gato 论文的合著者南多德弗雷塔斯激动地发推文表示：“游戏结束了！”

他认为，从 Gato 到人工通用智能或 Alamos Gold，目前有一条清晰的路径，并表示，打造 Alamos Gold 的方式主要是一个规模的问题，即让 Gato 这样的模型变得更大、更好。

《New Scientist》的报道中对Alamos Gold进行了解释，即一个可以学习人类所能学习的任何智力任务模型。

Deepmind创始人认为，Gato是重要的一步

但是，一向对技术趋势无比乐观的DeepMind 此次未能说服业界：人工智能参数规模派，是否即为人工智能演技的终极路径？最终定能带来AGI的实现，从而成为全自动驾驶，以及各路Robots的内在灵魂？吴恩达驳李开复：AI的趋势是更小的数据构建算法

目前来看，此路艰辛。《The Next Web》的专栏作者单挑德弗雷塔斯，认为不但未曾从Gato看到希望，反而让其绝望，或许AGI是不可实现的奢望。

《MIT Technology Review》更是指出，DeepMind 人工智能新模型Gato 的大肆炒作会对整个领域造成伤害。

通才Gato，此路不通

斯坦福大学教授李飞飞，也是当年首次让业界看到机器学习在图像识别领域机会的，机器学习酵母，曾经对比人和机器之间的区别：

机器学习系统通过数万张图片的学习、训练，方能辨别猫、狗动物，而李飞飞3岁的女儿，只需要看上两三张图片就可以。

Deepmind的AlaphaGO在与李世石对弈时，赢棋的AlphaGo耗费了数十万的电力，而李世石只是短暂的脸红脑热而已。

这就是人类智慧和人造智能之间的鸿沟。Deepmind越过了这条天堑吗？

Deepmind指出，受大规模语言建模的启发，其应用类似的方法构建了一个单一的“通才”智能体 Gato。它具有多模态、多任务、多具身特点，能够执行600多个不同的任务。

从某种意义上说，它是一个Transformer，其作为复杂推理任务的首选架构，展示了总结文本、制作音乐、对照片中的对象进行分类以及分析蛋白质序列的能力。

但仔细梳理近年的人工智能模型就会发现，Gato 的架构与当今使用的许多 AI 系统很相似。以人工通用智能（AGI）公司Open AI 的 GPT－3为例，Open AI的目的是开发和控制一个AGI，其通往AGI的道路上走的是LLM路线。

问题在于，没有人知道如何让AGI工作。就像从“火的发现”到“内燃机的发明”之间花了许多时间一样，弄清楚如何从深度学习到AGI也不会在一夜之间发生。

而标榜自己是“通用人工智能”的Gato所做的几乎是与GPT－3相同的事情。它只把一个工作原理很像LLM的东西整合成了一个能够变600多种戏法“魔术师”。

甚至连 DeepMind 自己的科学家大卫·普福都表示：“我真的不明白为什么人们对 Gato 的论文如此兴奋。他们找了一群独立训练的代理人，然后把他们所有的保单分摊到一个单一的网络？这一点都不令人惊讶。”AI独角兽隐疾：业务靠脸、收入靠政府靠股东

Gato更像是一个拼盘，而不是升级

更值得注意的是，Gato 的参数数量比单任务系统（包括 GPT－3）低几个数量级。参数是从训练数据中学习的系统组件，从根本上描述系统解决问题的能力，例如文本生成，GPT－3 超过 1700 亿，Gato 只有 12 亿。而GPT－3与人脑相比参数就少了1000倍。

除此之外，无论是 GPT－3，还是 Gato，都不足以面向大众提供毫不设限的公共服务。这些模型都需要配合硬过滤机制来防止输出偏见结论。更可怕的是，它们连稳定输出可靠结果都做不到。

奇点未至

“人工智能超越人类智能”看来还只存在未来学家库兹韦尔在《奇点临近》一书的设想里。

麻省理工学院的 Andreas 说，把模型做得更大也不会解决模型没有“终身学习”的问题。终生学习意味着，如果教过一次东西，他们就会理解所有的含义，并利用它来指导他们做出的所有其他决定。

苹果公司联合创始人史蒂夫·沃兹尼亚克也曾表示，如果 Alamos Gold 能随意进入一间房子，并能想出如何煮一杯咖啡，他就会认为它是真的。

显然，在AGI方向上已经发展了十多年的DeepMind，与2015年入局的Open AI都没能解决AGI道路上的第一个问题：建立一个无需训练就能学习新事物的AI。

麻省理工学院的助理教授雅各布·安德烈亚斯（ Jacob Andreas ）说，机器人仍然需要从文本中学习关于世界如何运转的“常识性知识”。或许，美国斯坦福大学人工智能实验室主任李飞飞提供了与该观点相似的例子，“当我不到2岁的女儿看到一个房间时，她知道障碍在哪里，对现场全面的了解，计算机可能知道3000种汽车，但它很难对物体有整体的理解”。

Gato可能是世界上最先进的多模态人工智能系统。但DeepMind采用了和OpenAI一样的让AGI走向死胡同的概念，同时，在Gato的附带研究论文中，根本没有任何证据表明它在往AGI的正确方向上发展。

正如 Marcus 做出的精当总结：要想构建 AGI，我们就得从人类身上学习，学习自己如何推断和理解这个现实世界，学习自己如何表达并吸收语言和种种复杂概念。除此之外的一切假设，都是纯纯的狂妄自大。”

Gato或许能通过营销手段在消费者市场上赢得比Alexa、Siri或谷歌助手更多的青睐。但是，Gato和GPT－3并不是比上述虚拟助手更可行的AGI入门点。自动驾驶的困境

DeepMind 称 Gato 为“通才”，这可能让它成为 AI 领域围绕 Alamos Gold 过度炒作的受害者。而更为严重的是，AI 和机器人研究员 Emmanuel Kahem bwe 认为，围绕 Gato 这样的工具的炒作对人工智能的总体发展是有害的，这导致有很多有趣的课题由于资金不足被搁置一旁。

AI泛化的下一步是什么

他指出，Alamos Gold 表达了一种深刻的人性——我们可以通过构建推动我们走向伟大的工具来超越自我。但让我们忽略了一个事实，即我们现在面临着真正的问题，我们应该尝试使用人工智能来解决这些问题。

Gato延续了自Transformer诞生以来的AI“泛化”路线，AI算法可以处理文本、图像、雷达信号等等。谷歌、Meta以及OpenAI和特斯拉都在这一道路上探索，谷歌去年推出的Perceiver、Pathway都是如此。

乐观者认为，当AI从纯粹的文本和图像识别，越来越变成“通才”，就将突破通用机器人应用于现实世界的难题。而悲观者则认为，动辄数千亿参数的AI模型，会让AGI走入了死胡同，需要寻找新的突破路径。

Deepmind Gato带来希望，也带来绝望，通用人工智能之路仍不清晰

相关阅读

智物科技评论

智物科技评论

举报文章问题

举报评论问题

用户登录×