2026年6月3日,World Labs团队与斯坦福大学教授李飞飞联合发布了一篇概念分析文章,标题直白到几乎没有修饰:《世界模型的功能分类法》。文章开篇第一句话就戳破了一个行业默契:“世界模型是当今人工智能领域最重要、也最被滥用的术语之一。”
这句话的背景,但凡关注过AI行业的人都不陌生。
2024年2月,OpenAI发布视频生成模型Sora,技术报告标题赫然写着“视频生成模型作为世界模拟器”。NVIDIA机器人总监Jim Fan当时在LinkedIn上留下一句后来被反复引用的评论:Sora本质上是一个“只允许无操作作为唯一动作的世界模型”。另一头,据公开报道,特斯拉AI团队在公开场合多次将全自动驾驶系统内部的预测组件称为“世界模型”或“世界模拟器”。游戏引擎、3D生成工具、具身智能模型,各类产品和技术都被塞进同一个筐里,贴上了同一张标签。
一个视频生成器,一个自动驾驶预测网络,一个机器人控制模型,一个物理引擎,它们有什么共同点?几乎没有。但它们都被叫做“世界模型”。
这场持续两年多的概念混乱,终于有人试图系统性地梳理清楚。李飞飞团队这次没有发布新模型,没有公布新基准,没有演示任何产品功能。他们做了一件更基础的事:回到部分可观马尔可夫决策过程这一理论源头,把所有市面上被称作“世界模型”的系统,归约为同一个认知循环的三种不同功能投影。
三种投影分别是:渲染器、模拟器、规划器。在World Labs的分类框架下,Sora及其同类视频生成模型,属于渲染器。
一个术语为什么能装下如此多彼此矛盾的含义
要理解这场混乱的根源,需要先追问一个更基础的问题:当一家公司在说“我们在做世界模型”时,它到底在说什么?
对OpenAI来说,Sora的目标是“理解并在视频中呈现物理世界”。从技术报告看,Sora通过学习海量视频数据中的统计规律,能够生成符合视觉常识的画面,杯子掉在地上会碎,纸飞机脱手会飞,人在走路时双腿交替摆动。这些画面看起来“懂物理”。
对特斯拉来说,“世界模型”是FSD系统中预测道路参与者在未来数秒内运动轨迹的神经网络。它需要输出精确的3D位置、速度、朝向,供路径规划模块计算安全的驾驶决策。这个模型不需要输出像素,它输出的是向量和概率分布。
对机器人公司来说,“世界模型”是让机械臂能够预判“如果我把这个杯子向左推5厘米,它会倒吗”的内部模拟机制。它需要理解物体属性、接触力学和稳定性,输出的是动作可行性评估。
三类公司的目标完全不同。视频生成公司关心像素保真度,自动驾驶公司关心物理状态预测的精度,机器人公司关心动作后果的可推演性。它们都在做“世界模型”,但做的根本不是同一件事。
World Labs在文章中直指问题核心:这些系统之所以都被冠以同一个名字,是因为它们确实都承载了“理解世界”的某一个侧面。但它们各自只完成了完整认知循环中的一个环节,却被营销语言、媒体报道和资本叙事包装成了完整的世界模型。
概念混乱的另一个推手是术语本身的张力。“世界模型”这个词自带宏大叙事属性,听上去比“视频生成模型”或“视频预测模型”更有想象空间,更能支撑高估值和融资故事。当技术能力无法匹配公众期待时,概念沦为宣传工具就成了必然。
回到1960年代,完整的“世界模型”应该是什么
World Labs的分类框架建立在一个看似古老的理论基础上:部分可观马尔可夫决策过程。
这个框架描述的是一个智能体与环境交互的完整循环。智能体处于某种环境状态中,它执行一个动作,动作改变环境状态,智能体通过传感器获得部分观测,观测触发内部状态更新,更新后的认知驱动下一个动作。循环往复。
在这个框架下,“世界模型”的完整功能应该包含三个环节:从状态生成观测(人眼看到或传感器采集到的像素、点云等),从动作和当前状态推演下一状态(预测物理变化),从观测和目标生成动作(决策规划)。
语言模型学习的是文本序列的统计规律,世界模型学习的则是空间和时间的统计特性。光照如何在不同材质表面反射,物体在重力作用下如何运动,刚体碰撞后能量如何传递,这些才是世界模型要捕捉的规律。
World Labs团队在文章中指出,当前市面上所有被称作“世界模型”的系统,实际上只是上述完整循环中某一个功能环节的投影。有的系统只做“从状态到观测”的渲染,有的只做“从动作到下一状态”的状态推演,有的只做“从观测到动作”的规划。它们各自截取了循环的一段弧线,却被各自贴上了代表完整圆形的标签。
这个分析框架的价值在于,它提供了一个超越营销话术的比较坐标系。不管一家公司怎么包装自己的产品,只要把它放回POMDP循环里,看它输入什么、输出什么、缺什么环节,它的能力边界就暴露无遗。
渲染器、模拟器、规划器,三种投影的能力边界
World Labs的分类法中,第一类被定义为“渲染器”。它的核心目标是生成面向人类视觉感知的高保真像素输出。输入是某种环境状态的表征(可以是文本描述、3D场景参数或隐式编码),输出是一帧一帧的连续画面。
渲染器优化的方向是视觉逼真度而非物理精确度。World Labs文章明确指出,渲染器生成的建筑可能“摇摇欲坠”,因为它并不真正解算结构力学方程;它生成的液体泼溅可能看起来很真实,但液体体积、流速和冲击力可能与真实物理量完全不对应。所以这类模型不能用于建筑设计,不能用于机器人训练,不能用于需要物理上精确模拟的任务。
Google的Genie 3、各类文本转视频模型、以及几乎所有AI视频生成工具,都属于这一类别。Sora当然也在其中。
第二类是“模拟器”。它的核心目标不是生成给人看的画面,而是生成可供后续计算使用的精确状态。输入是当前环境状态和外部作用力(或动作),输出是物理和几何上忠实于真实世界规律的下一状态。模拟器输出的状态可以用来做应力分析、能耗计算、碰撞检测,也可以作为渲染器的输入来生成可视化画面,但它的核心价值在于状态本身的可计算性。
NVIDIA Omniverse是这类系统的典型代表。它不是AI原生模型,而是一个融合了传统物理引擎和AI加速计算的数字孪生平台。World Labs在文章中评价,模拟器是连接渲染和规划的桥梁,但高质量3D物理标注数据的稀缺是主要瓶颈。据World Labs在文章中估计,用于训练这类模型的数据,比互联网上可获取的视频数据少几个数量级。
第三类是“规划器”。它的输入是观测数据(摄像头画面、激光雷达点云、触觉传感器读数等)和目标指令,输出是下一步该执行什么动作。VLA(视觉-语言-动作)模型和World Action Models都属于这一类。
三大分类之间的差异,不是技术路线的细微分歧,而是根本性的功能分化。渲染器输出像素给人看,模拟器输出状态给机器算,规划器输出动作给执行器跑。一个系统可以同时具备多种能力,但当大多数被叫做“世界模型”的系统本质上只做渲染时,把“渲染”等同于“理解世界”就是一种严重的认知错配。
一场持续两年的争论,Sora到底是不是世界模型
2024年2月,OpenAI发布Sora,技术报告标题直接写上了“视频生成模型作为世界模拟器”。这一用词当即引发学术界和开发者社区的激烈争论。
支持者认为,Sora生成的视频展示了3D空间一致性、物体持久性和对物理交互的某种直观理解。一块被咬过的汉堡会留下齿痕,一只狗在雪地里跑会溅起雪花,这些细节似乎表明模型学到了一些物理规律。
反对者的核心论据来自强化学习领域对世界模型的经典定义:一个世界模型必须能够基于动作进行状态转移预测。也就是说,给定当前状态和一个动作输入,模型应该输出动作之后的下一个状态。Sora做不到这一点。用户无法告诉Sora“从左边推开那个杯子”,然后观测杯子是否会倒、往哪个方向倒、碎片飞到哪里去。
Jim Fan的评论精准抓住了这个矛盾:“Sora本质上是一个世界模型,只是它只允许无操作(no-op)作为唯一动作。”这句话的意思是,Sora确实在预测环境随时间的变化,但这个变化过程不受任何外部干预,只能沿着视频数据中固有的因果链展开。它不是在做交互推演,而是在做被动观测序列的续写。
Reddit的r/MachineLearning版块上,不少强化学习研究者表达了更尖锐的批评:不能基于动作进行状态转移预测的系统,不能叫世界模型,只能叫视频预测模型。
World Labs的分类框架为这场争论提供了一个定论式的回答。在POMDP循环中,动作是驱动状态转移的关键输入,缺失这一输入的系统只是完整认知循环中“观测生成”环节的投影。Sora属于渲染器,不是完整的世界模型,更不是世界模拟器。
但这不意味着Sora没有价值。渲染器解决的是一个不同的问题:如何生成符合人类视觉预期的画面。这个问题本身就极其困难,也有巨大的商业价值。问题在于,把渲染能力包装成“理解世界”的能力,会误导技术决策者和投资者,让人误以为这些模型已经具备了物理推演或具身交互的能力。
概念澄清的产业价值
厘清“世界模型”的定义边界,不是一场学术上的咬文嚼字。它直接影响技术选型、投资判断和公众对AI能力的认知水位。
对于一家正在评估是否将某个“世界模型”用于机器人训练的制造企业来说,搞清楚这个模型到底是渲染器、模拟器还是规划器,是避免数百万美元试错的必要前提。一个只能生成视频画面的模型,无论画面多么逼真,都不能替代对物体受力、运动轨迹和碰撞后果的精确计算。
对于投资机构来说,区分三类投影意味着可以更准确地识别项目所处的技术栈位置。一个自称“世界模型”的初创公司,如果产品本质上是一个渲染器,它的竞争对手是视频生成公司,而不是数字孪生平台或机器人控制模型。这直接决定了市场规模的估算方式和对标公司的选取。
对于学术界来说,清晰的分类是建立可比基准的前提。如果“世界模型”这个术语继续被泛化,研究者就难以定义什么算改进、什么算突破,同行评议将建立在歧义的基础上。
World Labs在文章中也指出,概念澄清不是为了制造对立。未来的发展方向将是三类投影的融合。一个真正理解杯子物理属性的模型,应该能同时渲染它的视觉外观、模拟它被推倒时的物理过程、并规划机械手如何稳定地抓取它。但在技术发展到那一步之前,认清各自的边界比畅想融合更有现实意义。
据World Labs在文章中估计,以NVIDIA Omniverse为代表的模拟器及数字孪生技术,瞄准的是工厂、仓库、供应链等领域超过万亿美元的潜在市场。这个数字来自厂商自身的判断,至于市场何时能真正达到这个规模,取决于模拟器能否突破高质量3D物理数据稀缺的瓶颈。
对于当前阶段的AI行业来说,最重要的认知或许很简单:能生成逼真视频,不等于理解物理世界;能被叫做世界模型,不等于真的在模拟世界。穿透营销语言,审视一个系统在POMDP循环中到底接受什么输入、输出什么结果、缺少哪个环节,是对技术能力边界最诚实的判断方式。