
英伟达AI系统的年度改进节奏对于在正确时间购买最新设备的客户来说是件好事。但英伟达机架级AI系统的快速改进以及大规模扩展网络的发展速度也意味着,任何时候都会有一部分客户感到后悔,希望自己当初等一等再买。
我们意识到这可以说是第一世界的问题,当获得任何GPU或XPU算力本身就是真正的问题时,这个问题不值得抱怨。
但今天,当世界观看英伟达联合创始人兼首席执行官黄仁勋在拉斯维加斯2026年消费电子展上的主题演讲时,不少高管无疑会在看到未来Vera Arm服务器CPU和RubinGPU加速器的性能规格,以及与之配套的扩展NVLink内存架构和扩展Spectrum以太网互连,以及新的网卡和DPU时想早知道就等等了,这些组件共同创造了一个在处理或输出Token方面大幅改进的机架级系统。
更具体地说,英伟达高层表示,Vera-Rubin NVL72机架级系统(顾名思义有72个GPU插槽,还有36个CPU插槽以及连接它们的NVSwitch架构)与上一代Grace-Blackwell NVL72系统相比,为专家混合(MoE)AI模型提供了每Token推理成本10倍的降低,训练这些模型所需的GPU数量减少了4倍(但请注意,可能不是成本降低4倍)。
英伟达在2016年4月推出了其首台自主服务器DGX-1系统,基于Pascal P100 GPU加速器和将系统中八个GPU连接在一起的NVLink端口混合立方网格。按现代标准来看,这是一台相当简单的机器,值得注意的是,第一台机器被送给了OpenAI首席执行官萨姆·奥特曼。
两年后,基于Volta V100 GPU的DGX-2平台问世,还有一个叫做NVSwitch的奇特小设备,这是英伟达研究部门的一个研究项目。通过DGX-2,英伟达初次尝到了复杂系统组件开发和集成的滋味,英伟达没有让其他公司按规格制造,而是自己制造GPU板、交换板和两者之间的平面互连,以保持质量控制。Ampere A100和Hopper H100 GPU采用了类似设计,增强了浮点计算能力和支持带宽,但在2024年3月推出的Blackwell GB200 NVL72设计中,英伟达转向机架级规模,将72个GPU插槽、36个CPU插槽和18个NVSwitch托盘塞进节点中,创建了一个复杂、高温且制造具有挑战性的共享内存系统,同时需求量很大,供应紧张。
最初的Blackwell机架级机器存在问题,迫使GPU和机架在多个方面重新设计,这当然意味着出货延迟——从2024年底延迟到2025年初才有合理的出货量。但当你正在构建世界上最复杂的服务器节点,在集成和热管理方面突破极限时,无论工程师多么谨慎和周到,你都必须预期会有这样那样的问题。
这次,Vera-Rubin VR200 NVL72机器的一切都按计划进行。在黄仁勋主题演讲前与记者和分析师的预先简报中,HPC和AI工厂解决方案高级总监Dion Harris说,Vera-Rubin NVL72平台核心的六个芯片都已从台积电代工厂回来,正在启动并发送给关键合作伙伴,可以在2026年下半年开始批量生产。
我们强烈怀疑英伟达将在3月圣何塞举行的2026年GPU技术大会上公布VR200 NVL72平台的更多细节——这些是按GPU插槽计算而不是小芯片,所以这台机器也是英伟达在去年的路线系统的机器。但现在,我们将分享在CES上公布的有关这些机器的信息。
Harris在预简报中展示的最重要图表显示了Vera-Rubin系统设计重点关注提高HBM堆栈内存带宽的原因,以便那些昂贵的Rubin GPU能够比Hopper和Blackwell世代更好地供给数据。
在这个专家混合时代,模型必须创建和分析更多Token来得出更好的答案,如果你想及时做到这一点,需要大量带宽来处理不同专家相互咨询时的所有通信。
但对于Rubin GPU,英伟达超大规模和HPC总经理Ian Buck解释了一种叫做自适应压缩的技术,这是Rubin GPU重新设计的张量核心的一部分,也是这些张量核心实现的下一代Transformer引擎的一部分。
自适应压缩是一种基本上是更智能稀疏性形式的技术,能够自适应地应用,并且我们知道它不会影响准确性,Buck告诉The Next Platform。
在CPU方面,英伟达今年晚些时候推出的AI和有时的HPC平台包括基于Vera Arm的CPU和英伟达自主研发的Olympus核心。
Vera是比Grace更好的CPU。Vera芯片有88个核心,每个核心有两个线;空间多线;,这还有待解释。
将它们组合在一起,你就有了英伟达所说的Vera-Rubin超级芯片。将两个这样的组件放入MGX服务器托盘,然后将十八个这样的托盘放入带有36个NVSwitch 4交换机的Oberon机架中,你就有了一个机架级系统。
考虑到英伟达尚未开始销售这个Vera-Rubin怪兽,我们不知道它的成本。但考虑到这个机架中的一切制造成本都比其处理器更高,并且它在相同空间内明显提供更多性能和更好的每瓦性能,我们认为英伟达能够为Vera-Rubin系统收取溢价。至于多少,市场将决定——我们预期英伟达著名的联合创始人兼首席执行官会有很大影响力。
Vera-Rubin系统的灯塔客户包括亚马逊云服务、谷歌云、微软Azure、甲骨文云基础设施,以及CoreWeave、Lambda、Nebius和Nscale等较小参与者。前三个客户正在制造自己的加速器,谷歌很可能在硬件层面以与英伟达相同或更低的每Token成本做到这一点——并构建可扩展到单个内存域中9216个TPU的系统。这种规模是一个非常大的问题,是英伟达必须解决的真正工程问题。我们也相信它能做到。
A:根据英伟达HPC和AI工厂解决方案高级总监Dion Harris的说法,Vera-Rubin NVL72平台核心的六个芯片已从台积电回来,正在启动并发送给关键合作伙伴,可以在2026年下半年开始批量生产。