预测世界杯淘汰赛，不同AI水平差这么多？

原创 | Odaily 星球日报（@OdailyChina）

作者 | Asher（@Asher_ 0210）

世界杯每场赛前，我都会让 AI 预测下，几乎每个模型都说得头头是道、细节满满。

有的讲球队身价，有的拆小组赛数据，有的分析伤病和战术，还有的直接给出比分、加时、点球剧本。乍一看，ChatGPT、Grok、千问、DeepSeek、Gemini、Claude 都好懂球噢。

但作为预测市场用户，我真正关心的不是哪个模型说得更完整，而是哪一个更值得参考。

随着世界杯进入淘汰赛阶段， Odaily星球日报从首场比赛开始，在赛前用尽量相同的问题询问不同 AI 模型，并在赛后对照真实结果回看——哪些模型只是分析得像那么回事，哪些模型真的提前捕捉到了比赛走向。

目前，已经结束的世界杯淘汰赛，加拿大 1:0 绝杀南非，巴西 2:1 险胜日本，德国被巴拉圭拖进点球大战后淘汰，荷兰也倒在了摩洛哥的点球下。到了比利时对塞内加尔，比赛更是踢成了 2:2 后加时逆转，直接把淘汰赛的不确定性拉满。

DeepSeek 和 Gemini，靠预判摩洛哥一战封神

目前最有记忆点的，还是 DeepSeek 和 Gemini 对荷兰 vs 摩洛哥这场的预测。 这场赛前其实很容易站错队——荷兰纸面实力更强，阵容也更完整，很多模型都知道摩洛哥不好踢，但最后还是更相信荷兰能过关。

DeepSeek 和 Gemini 厉害的地方在于，它们没有停在“这场会很胶着”这一步，而是把后面的剧本也写出来了。 Gemini 赛前直接给出常规时间 1:1，点球大战摩洛哥胜。 结果比赛真的踢成 1:1，最后摩洛哥点球 3:2 淘汰荷兰。不是只猜对方向，而是连比赛会怎么被拖进点球、最后谁笑到最后，都基本对上了。

Gemini 预测荷兰对阵摩洛哥的比赛

DeepSeek 也很接近。 它判断这场常规时间大概率会是 1:1 或 0:0，比赛可能一路拖到加时甚至点球，并倾向摩洛哥靠防守和反击爆冷晋级。

Deepseek 预测荷兰对阵摩洛哥的比赛

这一场之后，DeepSeek 和 Gemini 的存在感直接拉满。尤其是 Gemini，这次不像是在做赛前预测，更像是提前看过了比赛剧本。

Grok 和千问连续命中具体比分，稳定性比想象中更强

除了 DeepSeek 和 Gemini 在摩洛哥这场打出高光，Grok 和千问也不是没有存在感。 它们最亮眼的地方，是在一些胜负方向相对清晰的比赛里，不只判断对了晋级球队，还把具体比分也预测得比较贴近最终结果。

南非对加拿大就是一个例子。赛前多数 AI 模型都看好加拿大，但分歧在于加拿大会不会轻松赢。Grok 给赛前给出加拿大 1:0 的预测，千问也给出过一球小胜。最后加拿大确实只靠 1 个进球过关，没有踢成想象中的大胜局。

千问预测南非对阵加拿大的比赛

巴西对日本也是类似。大部分 AI 模型都觉得巴西更强，但日本会不会把比赛咬住，才是这场的关键。Grok 和千问都预测比分会是 2:1，最后比赛也真的踢成巴西 2:1 险胜。它们看对的不是“巴西会赢”这么简单，而是日本能给巴西制造足够麻烦。

科特迪瓦对挪威这场，两者同样踩得比较准。挪威有哈兰德，晋级方向不难理解，但科特迪瓦的身体对抗和边路冲击也不会让比赛变成一边倒。Grok 和千问都预测挪威 2:1 获胜，最后比分也正好落在这个”剧本“里。

Gork 预测科特迪瓦对阵挪威的比赛

Grok 和千问的优势，是把热门局看得更细。 它们没有提前写出摩洛哥淘汰荷兰这种大剧本，但在加拿大、巴西、挪威、法国这些比赛里，胜负方向和比分落点都给得比较贴。 换句话说，它们不一定最会抓冷门，但很擅长判断热门队到底是碾压过关，还是艰难小胜。

ChatGPT 没有太多神比分，但比赛过程分析比较准

ChatGPT 没有像 Gemini 那样提前预测出摩洛哥点球淘汰荷兰，也没有像 Grok、千问那样连续踩中几个具体比分。但它的优势——很多比赛赛前看起来是强队占优，ChatGPT 会更明显地提醒一句，这场可能没有那么轻松。

巴西对日本就是例子。ChatGPT 预测巴西晋级，但没有把比赛写成巴西轻松碾压，而是提到日本的压迫、跑动和纪律性会让巴西踢得不舒服，甚至有机会先进球或追平。科特迪瓦对挪威也是类似，ChatGPT 预测挪威晋级，但提前说这不是一场轻松局，科特迪瓦的身体对抗、边路冲击和转换能力都会制造麻烦。

此外，英格兰对刚果民主共和国这场淘汰赛，ChatGPT 也没有简单写英格兰大胜，而是认为比赛可能会比较闷，刚果民主共和国会用低位防守把节奏拖住。最后英格兰虽然晋级，但赢得并不轻松。

ChatGPT 预测英格兰对阵刚果民主共和国的比赛

ChatGPT 的长处， 不在于每次都把比分预测得很准，而是经常能提前说出比赛的阻力在哪里 。它很适合拿来理解比赛，但适合只看一个最终比分的预测。它能把过程说得比较准，可真正要写出大冷门时，还是少了一点决断。

德国出局，成了 AI 模型的集体翻车现场

如果说前面几场还能看出不同模型各自的亮点，那么德国对巴拉圭这场，就是一次集体翻车。

赛前，所有 AI 模型都站在德国这边。 ChatGPT、Grok、千问、Gemini、Claude 全部站在德国一边，比分预测大多集中在 2:0、3:0 或 3:1。理由也很一致：都认为德国纸面实力更强，阵容深度更好，进攻火力更足。

但结果就是这场出了问题。AI 模型们低估了巴拉圭把比赛拖进泥潭的能力，德国没能在常规时间解决战斗，也没能在加时赛打破僵局，最后被巴拉圭拖进点球大战并淘汰出局。

目前谁最准？

从目前已经结束的淘汰赛来看，不同模型的特点开始显现。

DeepSeek 和 Gemini 最有高光。 它们不只是能预测巴西、法国这类热门队晋级，在更难判断的冷门场次里，也给出了很有含金量的答案。荷兰对摩洛哥这场，它们最关键的优势，是敢于提前写出摩洛哥爆冷和点球大战剧本。尤其是 Gemini，直接预测摩洛哥点球晋级，这一场确实很亮眼。

Grok 和千问更像“比分型选手”。 它们命中了不少具体比分，尤其在加拿大、巴西、挪威、法国这些比赛里表现不错。但问题是遇到德国、荷兰这种传统强队时，最后还是偏向热门。

ChatGPT 和 Claude 则更像“分析型选手”。 理由写得完整，方向大多数不离谱，也能提醒一些加时风险。但问题是，它们经常能看出比赛不好踢，却不太敢把结论写到冷门那边。荷兰对摩洛哥就是这样，明明已经看到加时和点球风险，最后还是更相信荷兰。

所以，与其急着问哪个模型最懂球，不如看它们分别适合什么场景。

预测世界杯淘汰赛，不同AI水平差这么多？

DeepSeek 和 Gemini，靠预判摩洛哥一战封神

Grok 和千问连续命中具体比分，稳定性比想象中更强

ChatGPT 没有太多神比分，但比赛过程分析比较准

德国出局，成了 AI 模型的集体翻车现场

目前谁最准？

BitRiver Founder Detained in $10M Mining Fraud Case as Russian Sector Faces Trust Deficit

Senate Insiders Float Plan to Harden Ethics Language in Clarity Act Crypto Bill, Sources Say

BingX Unveils Dedicated Trust Center as Exchanges Race to Prove Reserves and Security Credentials