|
如果说过去两年人工智能的核心是“如何回答得更好”,那么接下来的核心命题正在变成“如何理解世界本身”。这个转变,意味着一条全新的技术路径正在浮出水面——它不追求更长的文本、更流畅的对话,而是试图让机器像人一样,在行动之前先“想一想”,在现实发生之前先“预演一遍”。这条路径,就是世界模型。 什么是世界模型?它源于一个非常朴素的想法:人类之所以能在这个复杂的世界里生存、决策、行动,是因为我们的大脑里始终运行着一个“内部模拟器”。你在端起一杯水之前,就已经“看到”了它洒出来的可能;你在走进一条陌生街道之前,就已经在脑中预判了转弯和路障。这种在行动之前先模拟、先预测的能力,是人类智能最基础也最核心的部分。世界模型想做的,就是把这种能力赋予机器。 和大语言模型那种“从海量文本中学习语言规律”的思路完全不同,世界模型的训练素材不是词语和句子,而是连续的、动态的、充满因果关系的世界状态。它要预测的不是下一个最有可能出现的字,而是下一秒世界会变成什么样——如果我向左转,画面会发生什么变化?如果我松开手,那个杯子会落在哪里?这些在人类看来理所当然的判断,对机器来说,恰恰是最难跨越的门槛。因为现实世界不是文本,它没有语法书,没有标点符号,有的是摩擦力、惯性、遮挡关系和无穷无尽的意外。
正因如此,世界模型的崛起揭示了一个被大语言模型热潮掩盖了很久的真相:语言层面的智能,和世界层面的智能,是两件完全不同的事。一个能写出优美诗篇的模型,未必能判断一杯水会不会洒;一个能通过律师考试的模型,未必能在厨房里帮你倒一杯水。这并非它不够聪明,而是它从未真正“见过”世界。它所知道的一切,都来自别人对世界的描述,而非世界本身。 这条路才刚刚开始,其难度远超许多人最初的想象。现实世界的高维、连续、非线性,让它远比语言空间复杂得多。但也正因如此,谁能率先在世界模型上取得实质性突破,谁就有可能真正打开通往通用人工智能的大门。因为到那时,机器将不再只是会“回答”的助手,而是能够“行动”的智能体——它能在真实世界中自主推理、自主规划、自主执行。这,才是人工智能最初被寄予的厚望。 (责任编辑:吴珊)
|


