宜信财富：脱离文本，世界模型能否打开通用AI大门

如果说过去两年人工智能的核心是“如何回答得更好”，那么接下来的核心命题正在变成“如何理解世界本身”。这个转变，意味着一条全新的技术路径正在浮出水面——它不追求更长的文本、更流畅的对话，而是试图让机器像人一样，在行动之前先“想一想”，在现实发生之前先“预演一遍”。这条路径，就是世界模型。

什么是世界模型？它源于一个非常朴素的想法：人类之所以能在这个复杂的世界里生存、决策、行动，是因为我们的大脑里始终运行着一个“内部模拟器”。你在端起一杯水之前，就已经“看到”了它洒出来的可能；你在走进一条陌生街道之前，就已经在脑中预判了转弯和路障。这种在行动之前先模拟、先预测的能力，是人类智能最基础也最核心的部分。世界模型想做的，就是把这种能力赋予机器。

和大语言模型那种“从海量文本中学习语言规律”的思路完全不同，世界模型的训练素材不是词语和句子，而是连续的、动态的、充满因果关系的世界状态。它要预测的不是下一个最有可能出现的字，而是下一秒世界会变成什么样——如果我向左转，画面会发生什么变化？如果我松开手，那个杯子会落在哪里？这些在人类看来理所当然的判断，对机器来说，恰恰是最难跨越的门槛。因为现实世界不是文本，它没有语法书，没有标点符号，有的是摩擦力、惯性、遮挡关系和无穷无尽的意外。

正因如此，世界模型的崛起揭示了一个被大语言模型热潮掩盖了很久的真相：语言层面的智能，和世界层面的智能，是两件完全不同的事。一个能写出优美诗篇的模型，未必能判断一杯水会不会洒；一个能通过律师考试的模型，未必能在厨房里帮你倒一杯水。这并非它不够聪明，而是它从未真正“见过”世界。它所知道的一切，都来自别人对世界的描述，而非世界本身。

这条路才刚刚开始，其难度远超许多人最初的想象。现实世界的高维、连续、非线性，让它远比语言空间复杂得多。但也正因如此，谁能率先在世界模型上取得实质性突破，谁就有可能真正打开通往通用人工智能的大门。因为到那时，机器将不再只是会“回答”的助手，而是能够“行动”的智能体——它能在真实世界中自主推理、自主规划、自主执行。这，才是人工智能最初被寄予的厚望。

(责任编辑：吴珊)