斯坦福大学李飞飞：从看见到行动——空间AI的目前进展和未来的神奇魔力-梦之都

.details .details-cont p, p {word-break: normal; text-align: unset} p img {text-align: center !important;}

李飞飞打了个很有趣的比方，在五亿四千万年前的寒武纪，三叶虫的出现开启了视觉感知，并引发了智能的发展。而十年前，对图像进行标注，让计算机视觉取得了突破，就像初现曙光的三叶虫看到的第一缕光，也开启了现代 AI 的新世纪。

视频来源：https://youtube.com/watch?v=Ctuhh8VqtfI…

以下是完整文稿：

引言

嗨，大家早上好。我非常高兴能来到这里。今天，我不会给大家展示任何产品或者现场演示。我来这里是想要带大家一起探讨未来的可能性。这个未来，不仅是对语言的理解，而是一种从“看”到“做”的转变。

过去与现在

让我从一些具体的事物开始讲起。实际上，我想请大家把我字体放大一些。但实际上，我并没有实质性的内容要展示给大家。这并不是技术故障。这其实是我们的世界，就在 540 百万年前。

那时，一片纯粹、无尽的黑暗。这种黑暗并不是因为缺少光线，而是因为缺乏视觉。确实，阳光可以穿透海洋，达到海底一千米的深度，从热液喷口散发出来的光也能照亮海底。尽管生命在这里蓬勃发展，但却没有一只眼睛能够看见。那时的海洋就像外星一样，没有视网膜，没有角膜，没有晶状体。所以，所有的光，所有的生命，都在黑暗中过着无人知晓的生活。

直到三叶虫的出现，它们是第一种能够感知光线的生物。也是我们今天所熟知的现实世界的第一批居民。首次发现的是一个世界，存在着超越自我的东西，那就是许多其他的“自我”存在。看见的能力或许开始帮助引入了一个被称为“寒武纪大爆炸”的时期，这个时期有很多动物种类进入了化石记录。

一开始只是简单地让光线进来，这样的体验是被动的，但很快就丰富起来，变得积极主动。然后，神经系统开始演化。我们从看见的视觉，得到了洞察的能力。“看见”变成了“理解”，理解引领我们行动，而所有这些都促成了智能的产生。

现代 AI 的进步

所以，半个亿年后，我们对于自然赋予的智能已经不再满足。人类现在正在探求如何创造出能够像我们一样，甚至更好地看世界的机器。九年前，我在 TED 上做了一个演讲，我当时分享了计算机视觉的早期进展，这是人工智能的一个子领域。

大约十年前，有三大强大力量首次出现，一种被称为神经网络的算法家族。还有一种专用而快速的硬件，叫做图形处理单元，或者 GPU，稍后你们会听到 Jensen 的演讲。还有大数据，比如我实验室花了几年时间策展的那个包含 5000 万张照片的数据集，我们称它为 ImageNet。

当这些元素结合在一起，计算机的视觉能力不仅比以往更强，也开启了现代 AI 的新世纪。自那以后，我们走过了很长的道路。那是十年前，只标注物体就成了一种突破，就像初现曙光的三叶虫看到的第一缕光。但神经网络算法的速度和准确度很快就提高了。年复一年，我们实验室举办的 ImageNet 年度挑战赛，都在评估这些算法的性能，每次提交的结果都刷新了记录。如你所见，这张图展示了每年的进步和一些里程碑模型，实在是让人惊叹。

但我们并不止步于此。我们以及其他实验室进一步研发出了可以切分对象，甚至识别视频中它们动态关系的模型，就像你在这里看到的。当然，还有更多新的发展在等着我们。

未来的发展

我记得我第一次公开展示了第一个能用人类的自然语言描述图像和照片的计算机视觉算法，就是自动图像字幕编写。那是我和我的优秀学生 Andrej Karpathy 合作的时候。我提议让 Andrej 试试反过来操作，用一个句子去生成一张照片。Andrej 回应说，“哈哈，那不可能。”然而，就如你从他最近的推特上看到的，没过几年，不可能变成了可能。这一切都归功于最新的生成式 AI 中所用到的扩散模型的发展。

AI 程序现在能够根据人类输入的任何句子创造出全新的照片或视频。你们中的许多人可能已经看到了 OpenAI 以及其他公司最近所创造的美丽成果——Sora 但是，在没有大量 GPU 的支持下，我和我的学生、合作者在 Sora 发布前的几个月，就创造出了一个叫做 Walt 的生成模型。这只是其中的一部分成果。你可以看到，我们仍有很大的进步空间，我们会犯错误。看看那只猫的眼睛，它甚至在水下游动时都没有打湿。我把它戏称为“猫灾”。我希望有人能为我编出更好的 AI 笑话。

不过，如果过去是序曲，我们会从这些错误中学习，并创造出我们想象的未来。在那个未来，我们希望充分发挥 AI 的所有能力。多年来，我一直强调，拍照并不等同于看到并理解它。现在，我想再补充一点，仅仅看到是不够的。看，是为了行动和学习。当我们在 3D 空间和时间中对世界采取行动，我们会学习，我们会更好地看和行动。

空间智能

大自然创造了一个由空间智能驱动的观察与行动的良性循环。为了解释你的空间智能在不断发挥作用，我们来看看这张照片。如果你看这张照片有想去做点什么的冲动，请举手。如果在现实生活中，你真的碰到过这种情况，就请保持举手。在过去的瞬间，你的大脑观察到了玻璃的几何形状，它在 3D 空间中的位置，以及它与桌子，猫，和周围所有事物的关系，然后你预测了接下来可能会发生的事情。然后，你可能会向那个玻璃杯扑去，以保护你的地毯免受污染。

这种行动的冲动是具有空间智能的生物所天生具有的，它将我们的感知与行动联系在一起。所以，要想让 AI 超越目前的能力，我们需要的不仅仅是能看或者说话的 AI。我们需要的是 AI 能做出行动。就像自然界使我们所做的那样。

近期进展与未来展望

事实上，我们在这方面正在取得令人振奋的进展。我们在空间智能方面的最近的里程碑正在催生出一种良性循环，这种循环使计算机能够看到，做，学习，然后更好地看到并做。但是，这并不容易。动物进化出空间智能需要数百万年，相比之下，语言的进化只需要几十万年。而且，这种进化依赖于眼睛利用光线将 2D 图像投射到视网膜上，大脑再将这些图像转化为 3D。

最近，Google 的一个计算机视觉研究团队就实现了这一点。他们创建了一个算法，只需要一组照片，就能把数据转化为 3D 形状或场景。这里有更多这项工作的示例。同时，我的学生和同事受到斯坦福这项工作的启发，更进一步，他们创建了一个只需要一张图片就能生成 3D 形状的算法，就像你现在看到的。这里有一些最近工作的更多示例。

文字输入制作视频

我记得我们之前用过文字输入来制作视频。密歇根大学的一组研究人员找到了一种方法，可以把一行文字转化为 3D 房间布局。你现在看到的就是一个例子。同时，斯坦福的我的同事们及其学生，已经开发出一种算法，能够把一张图片转化为无数个可能的空间，供观众探索。这些原型是未来可能性初露头角的标志。

人类将以数字形式捕获我们的整个世界，并能模拟我们世界的丰富性和细微差别，这是一种可能性。自然在我们个体的心智中隐性完成的，现在空间智能 AI 有望在我们的集体意识中实现。随着空间智能的进步加速，这个虚拟周期的新纪元正在我们眼前展开。这种往返式的过程正在推动机器人学习的发展，这是任何需要理解并直接与 3D 世界互动的实体智能系统的关键组成部分。

机器人学习

十年前，我所在的实验室开发出的 ImageNet，这是一个包含数百万高质量图像的数据库，帮助计算机学会看。现在，我们正用行为和动作教计算机如何在 3D 世界中活动。我们现在不再手动创建训练样本，而是使用模拟环境，比如 NVIDIA Omniverse 提供的环境，它由 3D 空间模型驱动，提供无尽的变化和交互。

你现在看到的是在模拟环境中训练机器人的无穷可能性的一小部分示例，这是在我的实验室领导的一个名为 Behavior 的项目。在机器人语言智能方面也取得了令人兴奋的进展，这结合了视觉和空间智能。使用基于大语言模型的输入，我的学生和合作伙伴在首批展示机器人手臂可以根据口头指令执行各种任务的团队中。

比如这一条，让机器人打开抽屉，但要注意瓶子。或者这一条，要求机器人拔掉手机充电器。这是一种不常见的拔插方式，但也可以接受。还有这一条，让机器人做三明治。嗯，我通常会希望我的三明治里面的内容要丰富一些，但这个三明治的制作还算是个好开端。

AI 与人类互动

在 5.4 亿年前的原始海洋中，看见和感知环境的能力引发了寒武纪大爆炸与其他生命形式互动。今天，那束光开始照亮数字思维，就像曾经照亮我们祖先的思维一样。空间智能技术让机器能够相互交互，与人类交互，以及与 3D 世界交互，无论是真实的还是虚构的。随着这个未来的形态逐渐显现，我们可以设想，它会对很多生命产生深远的影响。

医疗健康应用

就拿医疗健康来说。过去十年里，我的实验室已迈出了重要的一步，在将 AI 技术应用于影响病人康复和医护人员疲劳问题方面。我和我的学生们，斯坦福医学院的同事，以及合作的医院一起，正在试点智能传感器，这些设备可以检测到医生是否在进入病人房间时正确洗手，可以跟踪手术中的器械，或者在病人身体处于危险，比如摔倒时，及时提醒护理团队。

我们认为这些技术是一种环境智能的形式，这些额外的“眼睛”可以产生改变。但我更希望看到更多对患者，医生和看护者互动的帮助，他们也迫切需要更多的“手”。想象一下，有自动化机器人运送医疗物资，这样护理人员就能有更多高质量的时间陪伴病人。或者，增强现实技术引导外科医生进行更安全、更高效、更少侵入性的手术。

想象一下，那些严重瘫痪的病人能够用他们的思想去控制机器人。没错，就是用脑波，这样他们就能做到那些我们认为理所当然的日常任务。你现在其实已经初见未来的一角。在我实验室的这个试点研究中，你可以在视频中看到，一个机器人手臂正在做日本的壽喜燒饭。这个过程完全是通过大脑电信号控制的，这些信号非侵入式地通过 EEG 帽子收集，而无需在人的大脑中植入芯片或电极。这整个机器人的行动都是通过远程大脑控制完成的。

结语

在五亿年前，视觉的出现不仅将黑暗的世界照亮，也开启了一个深远的进化过程，这是动物世界中智能的发展。人工智能在过去的十年中取得的惊人进步同样令人震惊。但是，真正的数字寒武纪大爆发只有在计算机和机器人都发展出我们所有人所拥有的空间智能时，才能实现其最大的可能性。

现在是时候让我们的数字伙伴学会如何理解并与这个我们称之为家的三维空间进行互动，以及为我们大家创造许多新的世界去探索了。实现这个未来的道路并非平坦，需要我们共同努力，发展始终以人为核心的技术。如果我们做得恰当，那么由空间智能驱动的电脑和机器人不仅将成为实用的工具，更能作为我们值得信赖的伙伴，它们能提升我们的效率，丰富我们的人性，尊重每个人的尊严，同时提升我们的整体繁荣。

我最期待的未来，是 AI 变得更具洞察力、更加空间感知，与我们一同满足好奇心，追求更好的方式，以创造一个更美好的世界。

谢谢。