AMD发布小型AI主机，直指英伟达DGX Spark

2026年6月，AMD在旧金山AI DevDay上确认了一款新设备的发货计划。这台机器和苹果Mac mini差不多大，搭载128GB统一内存，官方定位是本地AI开发平台。就在几个月前，英伟达的DGX Spark已经出现在开发者的桌面上，同样是巴掌大的金属盒子，同样是128GB统一内存，同样宣称能在本地运行2000亿参数的大模型。

AMD Ryzen AI Halo 迷你 PC 产品图

AMD Ryzen AI Halo 开发者平台，搭载 Ryzen AI Max+ 395 处理器

Tom's Hardware基于HP Z2 Mini G1a的实测报道给出了AMD阵营的参考定价：$2,949到$3,999。英伟达官网显示DGX Spark起价$3,999，部分OEM版本在2026年2月有过涨至$4,679的讨论。价格上AMD压了一头，但这只是表面账。

同样的128GB，两条不同的路线

AMD Ryzen AI Halo的核心是一颗Ryzen AI Max+ 395处理器，16个Zen 5核心，40个RDNA 3.5架构的GPU计算单元，旁边还挂着一颗50 TOPS算力的XDNA 2 NPU。NVIDIA官方硬件文档对DGX Spark的描述是另一套逻辑：GB10 Grace Blackwell Superchip，20核ARM CPU搭配Blackwell架构GPU，没有NPU，但塞进了一张ConnectX-7 200Gbps网卡。AMD设备提供2.5GbE网口和WiFi 7；英伟达这边是10GbE加WiFi 7，外加那张价值不菲的高速网卡。

内存规格表面接近。两边都是128GB LPDDR5x。AMD的产品页面标注内存带宽为256 GB/s，NVIDIA官方给出的数字是273 GB/s。差距不到7%，在大多数推理任务中几乎感知不到。

操作系统选择暴露了两家更根本的分歧。AMD Ryzen AI Halo预装Windows 11 Pro，可选Ubuntu 24.04。开机进入的是标准PC桌面，有Thunderbolt接口，有完整的通用外设支持。DGX Spark跑的是DGX OS，基于Ubuntu定制，开机后第一件事是配置CUDA环境和NVIDIA容器工具链。

The Register在2025年12月做了一次详细的实测对比。结论是：单批次大语言模型推理时，两台机器的token生成速度非常接近。但在prompt处理阶段，DGX Spark快出2到3倍。这个差距来自Blackwell架构对低精度计算的支持，以及NVIDIA在推理管线上的数年代码路径优化。ServeTheHome的评测则指出了另一个维度：DGX Spark的ConnectX-7网卡单独零售价超过$900，它在多机集群场景中的潜在价值远超出单机推理的范畴。

据Tom's Hardware等媒体实测，Ryzen AI Halo的尺寸为85mm高、168mm宽、200mm深，重2.3公斤，更接近传统迷你工作站的体格。NVIDIA官方文档显示DGX Spark是150mm见方、50.5mm厚，重1.2公斤。一个像堆叠的硬盘盒，一个像路由器。

ROCm的进度条，不再只是“能用就行”

AMD官方发布说明显示，ROCm 7.2于2026年1月上线，随后的7.2.4版本专门优化了AI推理工作负载的稳定性和性能。Phoronix在发布当天做了详细报道。

对Linux环境下的开发者，ROCm现在的安装流程已经比两年前简化了很多。2026年3月，技术博客作者Kunal Ganglani在一篇详细的ROCm使用指南中写道，他在RX 7900 XTX上完成从系统配置到运行PyTorch模型的全过程只花了约30分钟，“而在2024年，干同样的事需要折腾半天”。他的博客确认ROCm目前已支持PyTorch、TensorFlow、JAX、DGL四个主流深度学习框架，vLLM、Ollama、llama.cpp等推理引擎均有ROCm后端可用。

但这些进展挡不住CUDA的惯性。英伟达的软件栈积累了17年，Stack Overflow上的CUDA相关问答数量是ROCm的几十倍。FlashAttention、xFormers等前沿库的新版本通常先出CUDA版，ROCm移植版要等数周到数月。任何超出PyTorch标准API范围的自定义CUDA内核，在AMD平台上都需要手动适配。AMD官方兼容性矩阵列出了已验证通过的框架和GPU组合，但“通过验证”和“出问题时有足够多的社区讨论帖能搜到”是两码事。

Reddit的r/LocalLLaMA板块上，关于该选哪台设备的讨论帖从2025年底就没断过。最常被引用的一条总结来自Ganglani那篇博客的结尾：“如果你需要一切在第一天就完美运行，买NVIDIA。如果你愿意花一个下午解决问题来省$800，ROCm已经准备好了。”

AMD似乎很清楚这一点。过去一年，这家公司的动作不是在正面复制英伟达的护城河，而是在护城河外另起炉灶。

2024年8月，AMD宣布以$49亿收购ZT Systems。华尔街日报在2025年3月确认交易完成。ZT Systems的业务是帮超大规模数据中心客户设计和组装整机架级别的AI服务器系统，客户包括微软、Meta这类每年采购数万张GPU的巨头。AMD拿到的是从单颗GPU到整机架的系统设计能力。

但AMD很快做了一个看似矛盾的决定。2025年5月，据Sanmina官方公告，AMD将ZT Systems的数据中心制造业务剥离给了这家电子制造服务商，自己只保留设计团队。逻辑很清楚：AMD不想变成自己OEM客户的竞争对手。如果AMD自己生产AI服务器，那些卖AMD显卡的服务器厂商会立刻警觉。保留设计能力、外包制造，这手操作平衡了能力进补和生态关系。

更关键的两件事发生在随后半年。

2025年10月，AMD官方新闻稿宣布与OpenAI达成战略合作，部署6GW的AMD Instinct GPU。首批1GW定于2026年下半年出货。这份协议里藏了一个条款：OpenAI可选择购买AMD最多10%的股份。Reuters和CNBC在当天的报道中都强调了这个细节。为OpenAI供货的将是下一代Instinct GPU，AMD未公开具体型号。

2026年2月，AMD再次发布官方新闻稿，宣布与Meta的扩展合作，同样部署6GW GPU。这次的芯片是Meta定制的MI450变体，计划2026年下半年开始出货。CNBC当天的报道点出了一个细节：就在这笔合作公开前几天，Meta也宣布了与英伟达的扩展AI芯片采购协议。

Meta同时签下两家的长期订单，这件事本身比任何技术对比都更有说服力。对于每年在AI基础设施上投入数百亿美元的企业，把鸡蛋放在一个篮子里是不可接受的风险。AMD不需要性能全面超越英伟达，只需要在英伟达之外提供一个可用的选项，就能在“双供应商”的逻辑下切到订单。两个6GW合约的规模暗示，至少OpenAI和Meta已经把AMD列入了这张单子。

英伟达同期的应对，是一套组合拳

同一个时段，英伟达在企业级市场打的是组合拳。DGX Spark定位为开发者桌面设备，但它的ConnectX-7网卡决定了它不是孤立的工作站。ServeTheHome的评测详细分析了这张网卡在原型验证和分布式训练调试中的价值，结论是虽然比数据中心级的NVLink慢很多，但对于小规模集群场景已经够用。这个设计把DGX Spark锚定在了英伟达更大的企业产品线中：开发者用Spark做原型，然后把代码迁移到DGX Station或云端DGX实例，最后部署到搭载H200或B200的服务器集群。一条从桌面到数据中心、软硬件一致的工具链被焊死在CUDA上。

英伟达同期还推出了AI Enterprise软件订阅套件，把TensorRT、RAPIDS、Triton推理服务器等工具打包，按节点收费。NVIDIA官方产品页列出了AI Enterprise包含的完整工具清单。这不是卖硬件，是在开发者习惯CUDA之后，把企业级部署和运维也变成持续付费的生意。

对比一下两边的路径，分歧已经足够清晰。

英伟达做的是一个从芯片到系统到软件到云服务的全栈闭环。开发者进入这个闭环的第一天就可以用上优化好的工具，代价是被绑定在一个供应商的生态里。AMD走的是一条开放替代路线：用行业标准的x86架构，支持Windows和Linux双系统，把ROCm做成兼容主流框架的开源栈，用更低的价格争取那些对成本敏感或已经决定分散供应商风险的客户。

Ryzen AI Halo这个产品本身是这条路线最简洁的硬件表达。它没有定制网卡，没有专用OS，没有低精度训练加速单元。它是一台通用PC，恰好塞进了一块能跑200B参数模型的统一内存和一套还算过得去的GPU。你可以用它跑大模型推理，也可以关掉终端去开Photoshop。Tom's Hardware在报道中引用的HP Z2 Mini G1a $2,949的价格，远低于DGX Spark $3,999的起步价，如果换成其他OEM版本，价差可能拉到$1,000以上。

但这种灵活性的背面是妥协。The Register的实测数据已经说明，一旦离开单批次推理进入需要大量并行计算的场景，Blackwell架构的低精度优势和数年优化的软件栈会迅速拉开差距。如果你需要一个能跑Stable Diffusion出图的桌面盒子，NVIDIA的CUDA生态里有一整套即装即用的工具。AMD的RDNA 3.5架构不支持FP4和FP8低精度格式，在图像生成这类工作负载上性能吃亏，这是RDNA架构设计决定的，不是驱动更新能解决的。

盒子的归宿，不在盒子里

把时间线收回来，AMD近一年的动作构成一条相当清晰的路线。

硬件层面，Instinct MI300和MI325X量产，MI350和MI450按路线图推进，Ryzen AI Max+ 395从笔记本芯片变成桌面APU塞进开发平台。系统层面，通过收购ZT Systems拿到机架级设计能力，然后剥离制造保留研发。客户层面，用两份6GW级别的长期合约绑定全球最大的两个AI算力消费者，顺便把OpenAI拉进股东名单。软件层面，ROCm以大概每季度一个版本的速度迭代，追上主流框架支持，但前沿库的移植和社区积累还需要时间。

每一步都不是孤立的。收购ZT Systems是为了有能力设计OpenAI和Meta需要的那种超大规模AI集群，而不是只卖GPU给服务器厂商。ROCm的快速迭代是为了让签下6GW合约的客户在部署时有可用的软件栈，而不是裸机交付。Ryzen AI Halo的推出是为了把同一个ROCm生态延伸到桌面端，让开发者可以用一台$3,000的机器做本地调试，再把模型部署到云端MI450集群上。

但这不代表AMD已经追上了英伟达。两份6GW合约是未来的部署承诺，以吉瓦计算的能源容量反映的是基础设施规划规模，不是已经出货的芯片数量。MI450的具体规格至今没有公开，芯片的实际性能、良率、大规模部署后的稳定性都是未知数。ROCm在主流框架上做到了“能用”，但“出问题时社区能帮到你”这个状态还需要更长时间积累。而CUDA的17年积累不是靠几个季度快速迭代就能消化的。

英伟达的护城河也不只是在软件上。DGX Spark那张ConnectX-7网卡暗示的是另一种竞争维度：当AMD在用性价比和开放性争取开发者时，英伟达在用集群扩展能力锁定那些需要做分布式训练和大型推理管线的团队。买一台DGX Spark是$3,999，买两台加上网线就可以跑分布式原型。这个场景下，ROCm在单机推理上打平的优势就被消解了。

两家公司在AI上的分歧，最终落在这个巴掌大的盒子上时，变成了一个具体的选择题。你打开AMD的盒子，得到一个熟悉的PC环境，用几乎一样的指令装好PyTorch，加载模型，开始推理，过程顺畅，直到你需要用某个只有CUDA后端的库。你打开英伟达的盒子，得到了一个从硬件到驱动到容器工具链都优化好的专用环境，启动后一切都在预期内，只是账单上多了一千多美元，而且今后换供应商的迁移成本已经被提前锁定了。

AMD没有正面挑战英伟达的全栈帝国。它选择了一条更务实的路：在英伟达的定价和供应链交付能力跟不上所有客户需求时，做一个够用的替代选项。两个6GW合约是这个策略到目前为止最有力的证据。Ryzen AI Halo是这个策略在桌面端的延伸，不是跟风做小型AI盒子，而是沿着“用开放生态和成本优势争取不想被锁定的开发者”这条线往前走了一步。

AMD发布小型AI主机，直指英伟达DGX Spark

同样的128GB，两条不同的路线

ROCm的进度条，不再只是“能用就行”

英伟达同期的应对，是一套组合拳

盒子的归宿，不在盒子里

Tether Launches Browser-Based Wallet Testing Playground for Developers

Manadia and Wager Predict Unite to Transform Decentralized Forecasting

XRP Has Now Fallen Below the 20, 50, 100 and 200 EMAs