李飞飞团队厘清“世界模型”概念，Sora只能算渲染器

2026年6月3日，World Labs团队与斯坦福大学教授李飞飞联合发布了一篇概念分析文章，标题直白到几乎没有修饰：《世界模型的功能分类法》。文章开篇第一句话就戳破了一个行业默契：“世界模型是当今人工智能领域最重要、也最被滥用的术语之一。”

这句话的背景，但凡关注过AI行业的人都不陌生。

2024年2月，OpenAI发布视频生成模型Sora，技术报告标题赫然写着“视频生成模型作为世界模拟器”。NVIDIA机器人总监Jim Fan当时在LinkedIn上留下一句后来被反复引用的评论：Sora本质上是一个“只允许无操作作为唯一动作的世界模型”。另一头，据公开报道，特斯拉AI团队在公开场合多次将全自动驾驶系统内部的预测组件称为“世界模型”或“世界模拟器”。游戏引擎、3D生成工具、具身智能模型，各类产品和技术都被塞进同一个筐里，贴上了同一张标签。

一个视频生成器，一个自动驾驶预测网络，一个机器人控制模型，一个物理引擎，它们有什么共同点？几乎没有。但它们都被叫做“世界模型”。

这场持续两年多的概念混乱，终于有人试图系统性地梳理清楚。李飞飞团队这次没有发布新模型，没有公布新基准，没有演示任何产品功能。他们做了一件更基础的事：回到部分可观马尔可夫决策过程这一理论源头，把所有市面上被称作“世界模型”的系统，归约为同一个认知循环的三种不同功能投影。

三种投影分别是：渲染器、模拟器、规划器。在World Labs的分类框架下，Sora及其同类视频生成模型，属于渲染器。

一个术语为什么能装下如此多彼此矛盾的含义

要理解这场混乱的根源，需要先追问一个更基础的问题：当一家公司在说“我们在做世界模型”时，它到底在说什么？

对OpenAI来说，Sora的目标是“理解并在视频中呈现物理世界”。从技术报告看，Sora通过学习海量视频数据中的统计规律，能够生成符合视觉常识的画面，杯子掉在地上会碎，纸飞机脱手会飞，人在走路时双腿交替摆动。这些画面看起来“懂物理”。

对特斯拉来说，“世界模型”是FSD系统中预测道路参与者在未来数秒内运动轨迹的神经网络。它需要输出精确的3D位置、速度、朝向，供路径规划模块计算安全的驾驶决策。这个模型不需要输出像素，它输出的是向量和概率分布。

对机器人公司来说，“世界模型”是让机械臂能够预判“如果我把这个杯子向左推5厘米，它会倒吗”的内部模拟机制。它需要理解物体属性、接触力学和稳定性，输出的是动作可行性评估。

三类公司的目标完全不同。视频生成公司关心像素保真度，自动驾驶公司关心物理状态预测的精度，机器人公司关心动作后果的可推演性。它们都在做“世界模型”，但做的根本不是同一件事。

World Labs在文章中直指问题核心：这些系统之所以都被冠以同一个名字，是因为它们确实都承载了“理解世界”的某一个侧面。但它们各自只完成了完整认知循环中的一个环节，却被营销语言、媒体报道和资本叙事包装成了完整的世界模型。

概念混乱的另一个推手是术语本身的张力。“世界模型”这个词自带宏大叙事属性，听上去比“视频生成模型”或“视频预测模型”更有想象空间，更能支撑高估值和融资故事。当技术能力无法匹配公众期待时，概念沦为宣传工具就成了必然。

回到1960年代，完整的“世界模型”应该是什么

World Labs的分类框架建立在一个看似古老的理论基础上：部分可观马尔可夫决策过程。

这个框架描述的是一个智能体与环境交互的完整循环。智能体处于某种环境状态中，它执行一个动作，动作改变环境状态，智能体通过传感器获得部分观测，观测触发内部状态更新，更新后的认知驱动下一个动作。循环往复。

在这个框架下，“世界模型”的完整功能应该包含三个环节：从状态生成观测（人眼看到或传感器采集到的像素、点云等），从动作和当前状态推演下一状态（预测物理变化），从观测和目标生成动作（决策规划）。

语言模型学习的是文本序列的统计规律，世界模型学习的则是空间和时间的统计特性。光照如何在不同材质表面反射，物体在重力作用下如何运动，刚体碰撞后能量如何传递，这些才是世界模型要捕捉的规律。

World Labs团队在文章中指出，当前市面上所有被称作“世界模型”的系统，实际上只是上述完整循环中某一个功能环节的投影。有的系统只做“从状态到观测”的渲染，有的只做“从动作到下一状态”的状态推演，有的只做“从观测到动作”的规划。它们各自截取了循环的一段弧线，却被各自贴上了代表完整圆形的标签。

这个分析框架的价值在于，它提供了一个超越营销话术的比较坐标系。不管一家公司怎么包装自己的产品，只要把它放回POMDP循环里，看它输入什么、输出什么、缺什么环节，它的能力边界就暴露无遗。

渲染器、模拟器、规划器，三种投影的能力边界

World Labs的分类法中，第一类被定义为“渲染器”。它的核心目标是生成面向人类视觉感知的高保真像素输出。输入是某种环境状态的表征（可以是文本描述、3D场景参数或隐式编码），输出是一帧一帧的连续画面。

渲染器优化的方向是视觉逼真度而非物理精确度。World Labs文章明确指出，渲染器生成的建筑可能“摇摇欲坠”，因为它并不真正解算结构力学方程；它生成的液体泼溅可能看起来很真实，但液体体积、流速和冲击力可能与真实物理量完全不对应。所以这类模型不能用于建筑设计，不能用于机器人训练，不能用于需要物理上精确模拟的任务。

Google的Genie 3、各类文本转视频模型、以及几乎所有AI视频生成工具，都属于这一类别。Sora当然也在其中。

第二类是“模拟器”。它的核心目标不是生成给人看的画面，而是生成可供后续计算使用的精确状态。输入是当前环境状态和外部作用力（或动作），输出是物理和几何上忠实于真实世界规律的下一状态。模拟器输出的状态可以用来做应力分析、能耗计算、碰撞检测，也可以作为渲染器的输入来生成可视化画面，但它的核心价值在于状态本身的可计算性。

NVIDIA Omniverse是这类系统的典型代表。它不是AI原生模型，而是一个融合了传统物理引擎和AI加速计算的数字孪生平台。World Labs在文章中评价，模拟器是连接渲染和规划的桥梁，但高质量3D物理标注数据的稀缺是主要瓶颈。据World Labs在文章中估计，用于训练这类模型的数据，比互联网上可获取的视频数据少几个数量级。

第三类是“规划器”。它的输入是观测数据（摄像头画面、激光雷达点云、触觉传感器读数等）和目标指令，输出是下一步该执行什么动作。VLA（视觉-语言-动作）模型和World Action Models都属于这一类。

三大分类之间的差异，不是技术路线的细微分歧，而是根本性的功能分化。渲染器输出像素给人看，模拟器输出状态给机器算，规划器输出动作给执行器跑。一个系统可以同时具备多种能力，但当大多数被叫做“世界模型”的系统本质上只做渲染时，把“渲染”等同于“理解世界”就是一种严重的认知错配。

一场持续两年的争论，Sora到底是不是世界模型

2024年2月，OpenAI发布Sora，技术报告标题直接写上了“视频生成模型作为世界模拟器”。这一用词当即引发学术界和开发者社区的激烈争论。

支持者认为，Sora生成的视频展示了3D空间一致性、物体持久性和对物理交互的某种直观理解。一块被咬过的汉堡会留下齿痕，一只狗在雪地里跑会溅起雪花，这些细节似乎表明模型学到了一些物理规律。

反对者的核心论据来自强化学习领域对世界模型的经典定义：一个世界模型必须能够基于动作进行状态转移预测。也就是说，给定当前状态和一个动作输入，模型应该输出动作之后的下一个状态。Sora做不到这一点。用户无法告诉Sora“从左边推开那个杯子”，然后观测杯子是否会倒、往哪个方向倒、碎片飞到哪里去。

Jim Fan的评论精准抓住了这个矛盾：“Sora本质上是一个世界模型，只是它只允许无操作（no-op）作为唯一动作。”这句话的意思是，Sora确实在预测环境随时间的变化，但这个变化过程不受任何外部干预，只能沿着视频数据中固有的因果链展开。它不是在做交互推演，而是在做被动观测序列的续写。

Reddit的r/MachineLearning版块上，不少强化学习研究者表达了更尖锐的批评：不能基于动作进行状态转移预测的系统，不能叫世界模型，只能叫视频预测模型。

World Labs的分类框架为这场争论提供了一个定论式的回答。在POMDP循环中，动作是驱动状态转移的关键输入，缺失这一输入的系统只是完整认知循环中“观测生成”环节的投影。Sora属于渲染器，不是完整的世界模型，更不是世界模拟器。

但这不意味着Sora没有价值。渲染器解决的是一个不同的问题：如何生成符合人类视觉预期的画面。这个问题本身就极其困难，也有巨大的商业价值。问题在于，把渲染能力包装成“理解世界”的能力，会误导技术决策者和投资者，让人误以为这些模型已经具备了物理推演或具身交互的能力。

概念澄清的产业价值

厘清“世界模型”的定义边界，不是一场学术上的咬文嚼字。它直接影响技术选型、投资判断和公众对AI能力的认知水位。

对于一家正在评估是否将某个“世界模型”用于机器人训练的制造企业来说，搞清楚这个模型到底是渲染器、模拟器还是规划器，是避免数百万美元试错的必要前提。一个只能生成视频画面的模型，无论画面多么逼真，都不能替代对物体受力、运动轨迹和碰撞后果的精确计算。

对于投资机构来说，区分三类投影意味着可以更准确地识别项目所处的技术栈位置。一个自称“世界模型”的初创公司，如果产品本质上是一个渲染器，它的竞争对手是视频生成公司，而不是数字孪生平台或机器人控制模型。这直接决定了市场规模的估算方式和对标公司的选取。

对于学术界来说，清晰的分类是建立可比基准的前提。如果“世界模型”这个术语继续被泛化，研究者就难以定义什么算改进、什么算突破，同行评议将建立在歧义的基础上。

World Labs在文章中也指出，概念澄清不是为了制造对立。未来的发展方向将是三类投影的融合。一个真正理解杯子物理属性的模型，应该能同时渲染它的视觉外观、模拟它被推倒时的物理过程、并规划机械手如何稳定地抓取它。但在技术发展到那一步之前，认清各自的边界比畅想融合更有现实意义。

据World Labs在文章中估计，以NVIDIA Omniverse为代表的模拟器及数字孪生技术，瞄准的是工厂、仓库、供应链等领域超过万亿美元的潜在市场。这个数字来自厂商自身的判断，至于市场何时能真正达到这个规模，取决于模拟器能否突破高质量3D物理数据稀缺的瓶颈。

对于当前阶段的AI行业来说，最重要的认知或许很简单：能生成逼真视频，不等于理解物理世界；能被叫做世界模型，不等于真的在模拟世界。穿透营销语言，审视一个系统在POMDP循环中到底接受什么输入、输出什么结果、缺少哪个环节，是对技术能力边界最诚实的判断方式。

李飞飞团队厘清“世界模型”概念，Sora只能算渲染器

一个术语为什么能装下如此多彼此矛盾的含义

回到1960年代，完整的“世界模型”应该是什么

渲染器、模拟器、规划器，三种投影的能力边界

一场持续两年的争论，Sora到底是不是世界模型

概念澄清的产业价值

PA日报 | SpaceX将于7月7日纳入纳斯达克100指数；比特币现货ETF昨日净流出4.45亿美元，持续7日净流出

加密行业掀起裁员潮，华尔街百亿收购核心资产

互联网资本市场2026：美国结构性转变与亚洲机构的战略窗口