mt logoMyToken
ETH Gas15 Gwei ($0.92)
EN

三个臭皮匠顶个诸葛亮?在预测CPI时,群体智慧如何吊打华尔街智囊团

Favoritecollect
Shareshare

本文来自:Kalshi Research

编译:Odaily 星球日报 Azuma

编者按:头部预测市场平台 Kalshi 昨日宣布推出一款全新的研报栏目Kalshi Research,旨在向那些对预测市场相关主题感兴趣的学者和研究人员提供 Kalshi 的内部数据。该栏目的首篇研究报告显已发布,原文标题为《Kalshi 在预测通胀方面优于华尔街》(Beyond Consensus: Prediction Markets and the Forecasting of Inflation Shocks)。

以下为该报告原文内容,由 Odaily 星球日报编译。

概述

一般在重要经济统计数据发布的前一周,大型金融机构的分析师和高级经济学家都会给出对预期数值的预估。这些预测汇总在一起后会被称为“共识预期”,已被广泛视为洞察市场变化与调整仓位布局的重要参考。

在本研报中,我们比较了共识预期与 Kalshi 预测市场的隐含定价(下文有时会简称“市场预测”)在预测同一个核心宏观经济信号 —— 同比整体通胀率(YOY CPI) —— 真实数值方面的表现。

核心亮点

  • 整体准确性占优:在所有市场环境下(含正常环境和冲击环境),Kalshi 预测的平均绝对误差(MAE)比共识预期低 40.1%
  • “冲击 Alpha”(Shock Alpha):在出现重大冲击之时(大于 0.2 个百分比),在提前一周的预测窗口内 Kalshi 的预测比共识预期的 MAE 要低 50%,若在数据公布前一天,MAE 会进一步扩大至 60%;在出现中等冲击之时(0.1 - 0.2 个百分比之间 ),在提前一周的预测窗口内 Kalshi 的预测比“共识预期”的 MAE 同样要低 50%,在数据公布前一天则会扩大至 56.2%。
  • 预测信号(Predictive Signal):当市场预测与共识预期的偏差超过0.1 个百分比时,预测发生冲击的概率约为 81.2%,在数据公布前一天则会升至约 82.4%。在市场预测与共识预期不一致的情况下,市场预测在 75% 的案例中更为准确。

背景

宏观经济预测者面临一个内在挑战: 预测最为重要的时刻——即市场失序、政策转向以及结构性断裂之时——恰恰也是历史模型最容易失效的阶段。 金融市场参与者通常会在关键经济数据公布前数日发布共识预测,将专家意见汇总为市场的预期。然而,这些共识观点尽管具有价值,却往往共享着相似的方法论路径和信息来源。

对于机构投资者、风险管理者和政策制定者而言,预测准确性的利害关系是不对称的。在无争议时期,稍好一点的预测只能提供有限的价值;但在市场混乱时期 —— 当波动率飙升、相关性瓦解或历史关系失效时——更优的准确性则可以带来显著的 Alpha 收益并限制回撤。

因此,理解参数在市场波动时期的行为特征至关重要。我们将聚焦于一项关键宏观经济指标 —— 同比整体通胀率(YOY CPI)——这是未来利率决策的核心参考指标,也是衡量经济健康状况的重要信号。

我们比较和评估了在官方数据发布前多个时间窗口内的预测准确性。我们的核心发现是,所谓的“冲击 Alpha”确实存在—— 即在尾部事件中,基于市场的预测相较于共识基准可实现额外的预测精度。 这种超额表现并不仅仅意味着纯粹的学术意义,而是在预测误差具有最高经济成本的关键时刻,可显著提升信号质量。在这一背景下,真正重要的问题并非预测市场是否“总是正确”,而是它们是否提供了一种值得被纳入传统决策框架的、具有差异化价值的信号。

方法论

数据

我们分析了预测市场交易者在 Kalshi 平台上的每日隐含预测值,覆盖三个时间节点: 数据公布前一周(与共识预期发布时间匹配)、公布前一天、公布当日上午。 所使用的每一个市场均为(或曾为)真实可交易的在运行市场,反映了在不同流动性水平下的真实资金头寸。对于共识预期,我们收集了机构层面的 YoY CPI 共识预测,这些预测通常在美国劳工统计局官方数据发布前约一周公布。

样本区间取自2023 年 2 月至 2025 年中期,覆盖了超过 25 个月度 CPI 发布周期,横跨多种不同的宏观经济环境。

冲击分类

我们根据相对于历史水平的“意外幅度”将事件分成了三类。“冲击”被定义为共识预期与实际公布数据之间的绝对差值:

  • 正常事件:YOY CPI 的预测误差低于 0.1 个百分点;
  • 中等冲击:YOY CPI 的预测误差介于 0.1 至 0.2 个百分点之间;
  • 重大冲击:YOY CPI 的预测误差超过 0.2 个百分点。

该分类方法使我们能够检验:预测优势是否会随着预测难度的变化而呈现出系统性的差异。

绩效指标

为了评估预测表现,我们采用以下指标:

  • 平均绝对误差(MAE):主要的准确性指标,计算方式为预测值与实际值之间绝对差的平均值。
  • 胜率:当共识预期与市场预测之间的差异达到或超过 0.1 个百分点(四舍五入至一位小数)时,我们会记录哪一个预测更接近最终实际结果。
  • 预测时间跨度分析:我们追踪市场估值的准确性如何从发布前一周到发布日逐步演变,以揭示持续纳入信息所带来的价值。

结果:CPI 预测表现

整体准确性更占优

在所有市场环境下,基于市场的 CPI 预测相较于共识预测,平均绝对误差(MAE)要低40.1%。在所有时间跨度上,基于市场的 CPI 预测 MAE 比共识预期要低 40.1%(提前一周)至 42.3%(提前一天)。

此外,在共识预期与市场隐含值存在分歧的情况下,Kalshi 基于市场的预测展现出具有统计显著性的胜率,范围从提前一周的 75.0% 到发布当天的81.2%。若将与共识预期打平的情况(精确到一位小数)一并计入,基于市场的预测在提前一周时约有 85% 的情况下与共识持平或表现更优。

如此高的方向性准确率表明: 当市场预测与共识预期出现分歧时,这种分歧本身对“是否可能发生冲击事件”具有显著的信息价值。

“冲击 Alpha”确实存在

预测准确性的差异在冲击事件期间表现得尤为明显。在中等冲击事件中,当发布时间一致时市场预测的 MAE 要与共识预期低 50%,在数据公布前一天这一优势则会扩大至 56.2% 乃至更多;在重大冲击事件中,当发布时间一致时市场预测的 MAE 同样要与共识预期低 50%,在数据公布前一天则可达到 60% 乃至更多;而在未发生冲击的正常环境中,市场预测与共识预期的表现大致相当。

尽管冲击事件的样本数量较小(这在一个“冲击本就高度不可预测”的世界中是合理的),但整体模式却非常清晰: 当预测环境最为艰难之时,市场的信息聚合优势反而最具价值。

然而, 更重要的不仅仅是 Kalshi 的预测在冲击时期的表现更优,还在于市场预测与共识预期之间的分歧本身可能就是冲击即将发生的信号。 在存在分歧的情况下,市场预测相对于共识预期的胜率达到75%(在可比时间窗口内)。此外阈值分析进一步表明:当市场与共识的偏差超过 0.1 个百分比时,预测发生冲击的概率约为 81.2%,而在数据公布前一天,这一概率进一步上升至约 84.2%。

这一在实践层面具有显著意义的差异表明:预测市场不仅可以作为与共识预期并列的竞争性预测工具,还可以作为一种关于预测不确定性的“元信号”,将市场与共识的分歧转化为一种可量化的、用于预警潜在意外结果的早期指标。

衍生讨论

一个显而易见的问题随之而来: 为什么在冲击期间,市场预测会优于共识预测?我们提出了三种相互补充的机制来解释这一现象。

市场参与者异质性与“群体智慧”

传统的共识预期虽然整合了多家机构的观点,但往往共享相似的方法论假设和信息来源。计量经济模型、华尔街研究报告以及政府数据发布构成了一个高度重叠的共同知识基础。

相比之下,预测市场汇聚了具有不同信息基础的参与者所持有的头寸:包括专有模型、行业层面的洞察、替代数据来源以及基于经验的直觉判断。这种参与者多样性在“群体智慧”(wisdom of crowds)理论中具有坚实的理论基础。该理论表明, 当参与者掌握相关信息且其预测误差并非完全相关时,将来自多样化来源的独立预测进行聚合,往往能够产生更优的估计结果。

而在宏观环境发生“状态切换”之时,这种信息多样性的价值尤为突出 —— 拥有零散、局部信息的个体在市场中进行交互,其信息碎片得以组合,从而形成一个集体信号。

参与者激励结构的差异

机构层面的共识预测者往往处于复杂的组织与声誉体系之中,这种体系会系统性地偏离“纯粹追求预测准确性”的目标。职业预测者所面临的职业风险,形成了一种非对称的收益结构 ——较大的预测失误会造成显著的声誉成本,而即便预测极其准确,尤其是通过大幅偏离同行共识而实现的准确性,也未必能获得成比例的职业回报。

这种非对称性诱发了“从众行为”(herding),即预测者倾向于将自己的预测聚拢在共识值附近,即便其私人信息或模型输出暗示了不同的结果。原因在于,在职业体系中,“孤立地犯错”的成本往往高于“孤立地正确”的收益。

与此形成鲜明对比的是, 预测市场参与者所面临的激励机制实现了预测准确性与经济结果之间的直接对齐 ——预测准确意味着盈利,预测错误意味着亏损。 在这一体系中,声誉因素几乎不存在,偏离市场共识的唯一代价是经济上的损失,且完全取决于预测是否正确。这种结构对预测准确性施加了更强的选择压力 —— 能够系统性识别共识预测错误的参与者会不断积累资本,并通过更大的仓位规模增强其在市场中的影响力;而那些机械性跟随共识的参与者,则会在共识被证明错误时持续遭受损失。

在不确定性显著上升的时期,当机构预测者偏离专家共识的职业成本达到最高点时,这种激励结构的分化往往最为明显,且在经济意义上最为重要。

信息聚合效率

一个值得注意的经验事实是:即便在数据公布前一周 —— 这一时间点与共识预期发布的典型时间窗口一致 —— 市场预测仍然表现出显著的准确性优势。这表明, 市场优势并非仅仅源自预测市场参与者通常被提及的“信息获取速度优势”。

相反, 市场预测可能更高效地聚合了那些过于分散、过于行业化或过于模糊,以至于难以被正式纳入传统计量经济预测框架的信息碎片。 预测市场的相对优势,可能并不在于更早接触到公共信息,而在于其能够在相同时间尺度内,更有效地综合异质信息 —— 而基于问卷调查的共识机制,即便拥有同样的时间窗口,也往往难以高效处理这些信息。

局限性与注意事项

我们的研究结果需要做出一项重要限定。由于整体样本仅覆盖约30 个月,重大冲击事件在定义上本就十分罕见,这意味着对于较大的尾部事件,统计效力仍然有限。更长的时间序列将增强未来的推断能力,尽管当前的结果已强烈暗示了市场预测的优越性与信号的差异性。

结论

我们记录了预测市场相对于专家共识预期在系统性和经济意义上的显著尤其表现,尤其是在预测准确性最为关键的冲击事件期间。 基于市场的 CPI 预测在整体上的误差要低约40%,而在重大结构性变化时期,其误差降低幅度可达约 60%。

基于这些发现,未来的几项研究方向变得尤为重要:一是通过更大样本规模、跨多种宏观经济指标,研究“冲击 Alpha”事件本身是否可以通过波动性和预测分歧指标进行预测;二是预测市场在何种流动性门槛之上,能够稳定地超越传统预测方法;三是预测市场的预测值与由高频交易金融工具隐含出的预测值之间的关系。

在共识预测高度依赖相关性较强的模型假设与共享信息集的环境中,预测市场提供了一种替代性的信息聚合机制,能够更早地捕捉到状态切换,并更高效地处理异质信息。 对于那些需要在结构性不确定性和尾部事件频率不断上升的经济环境中做出决策的主体而言,“冲击 Alpha”或许不仅仅代表着预测能力的渐进式改进,更应成为其稳健风险管理基础设施的一个基本组成部分。

Disclaimer: This article is copyrighted by the original author and does not represent MyToken’s views and positions. If you have any questions regarding content or copyright, please contact us.(www.mytokencap.com)contact