原文来源:NVIDIA GTC 2026 大会主题演讲,2026年3月16日,美国加州圣何塞SAP中心 | 资料整理:36氪、华尔街见闻、PAnewslab
演讲概览
| 演讲者 | 黄仁勋(Jensen Huang),NVIDIA 创始人兼CEO |
| 时间 | 2026年3月16日(当地时间上午11:00—13:00) |
| 地点 | 美国加州圣何塞,SAP中心 |
| 时长 | 约3小时 |
| 核心主题 | AI工厂时代、Token经济学、推理转折点、OpenClaw战略 |
| 核心数字 | 2027年至少1万亿美元的AI基础设施需求 |
演讲全文(中文译本)
开场白
欢迎来到GTC!这是一场技术会议,我们要聊聊技术,聊聊平台。
NVIDIA拥有三个平台。你们认为我们主要谈论的是其中一个,它与CUDA X有关。我们的系统是另一个平台,现在我们有了一个名为"AI工厂"的新平台。我们将讨论所有这些。最重要的是,我们要讨论生态系统。
本次活动共有450家公司赞助,一千场技术研讨会,两千名演讲者。本次会议涵盖AI五层结构中的每一层——从土地、电力和设施这些基础设施,到芯片和平台,再到模型,当然,最终让这个行业腾飞的关键在于所有应用。一切的开端,就在这里。
第一章:CUDA二十年——飞轮效应加速
今年是CUDA问世20周年。这项革命性的发明——单指令多线程——比SIMD更容易编程。如今,数以千计的工具、编译器、框架、库和开源软件,几十万个公共项目,CUDA实际上已经融入了每一个生态系统。
我们用了20年的时间,才在全球范围内建立了数亿个运行CUDA的GPU和计算系统。CUDA的飞轮效应:庞大的用户群体吸引开发者 → 开发者创造突破性算法(如深度学习)→ 算法催生新市场和生态系统 → 新生态系统扩大用户群。这个飞轮现在正在加速。
NVIDIA库的下载量正在以惊人速度增长,规模比以往任何时候都大,而且增长速度更快。
GeForce是这一切的起点。25年前,我们发明了可编程着色器,世界上第一个可编程加速器。20年后,CUDA诞生了。这是我们最大的投资之一,当时几乎承担不起,却消耗了公司绝大部分利润,目的就是将CUDA通过GeForce显卡推广到每一台电脑上。
GeForce将CUDA带给了全世界——为Alex Krizhevsky、Ilya Sutskever、Geoff Hinton、Andrew Ng等人提供了支持,他们发现GPU可以加速深度学习,开启了AI的大爆炸。
今天,我们宣布DLSS 5.0——神经渲染,3D图形与AI的融合。 将可控的3D图形与生成式AI相结合,既令人惊叹,又易于控制。这种将结构化信息与生成式AI融合的概念将在各个行业中不断重复出现。结构化数据是可信赖AI的基础。
第二章:推理转折点——AI开始思考
"过去两年,全球计算需求增加了100万倍。"
原因在于AI能力的跃迁:从ChatGPT开启生成式AI,到O1模型具备推理能力,再到Claude Code成为首个能自主工作的代理模型。每一次进步,都意味着推理阶段的计算量呈指数级增长。
"AI现在需要思考了。思考需要推理,推理需要生成大量token。与训练相比,推理的计算需求提升了约10万倍。"
这正是推理转折点——AI从"感知"走向"生成",从"推理"走向"行动"。
"去年这个时候,我说过,我们看到了5000亿美元的高确信度需求,覆盖Blackwell和Rubin直到2026年。现在,就在此时此地,我看到到2027年至少有1万亿美元的需求。是的,我们甚至可能面临供应短缺。我确信实际的计算需求将远高于此。"
目前,NVIDIA 60%的业务来自顶级五大超大规模云服务提供商,另外40%广泛分布在主权云、企业、行业、机器人和边缘计算等各个领域。
第三章:Token工厂经济学
黄仁勋提出了一个全新的商业思维框架——AI Token工厂经济学。
"每座数据中心和每座工厂,从定义上讲,都受限于电力。一座1吉瓦的工厂永远不可能变成2吉瓦的工厂——这是物理定律和原子的规律。在固定功率下,谁的每瓦吞吐量最高,谁的生产成本就最低。"
未来AI服务的商业层级:
| 服务层级 | 价格(每百万token) | 特点 |
|---|---|---|
| 免费层 | $0 | 高吞吐量,低速度 |
| 中级层 | ~$3 | 均衡性能 |
| 高级层 | ~$6 | 更快更智能 |
| 高速层 | ~$45 | 接近实时 |
| 超高速层 | ~$150 | 极低延迟 |
"在这座token工厂里,你的吞吐量和token生成速度将直接转化为你明年精确的收入数字。"
为此,NVIDIA发布了两大核心产品:Dynamo(专为AI工厂设计的操作系统)和 DSX平台(用于设计和运营AI工厂的数字孪生蓝图,整合了从机械仿真到电网优化的全链条工具)。
第四章:新硬件发布——Vera Rubin与Groq整合
黄仁勋发布了新一代AI超级计算平台 Vera Rubin:
- Vera CPU + Rubin GPU + NVLink-72互联
- 与Hopper相比,同等功耗下token吞吐量提升 35倍
- 全液冷系统,彻底消除传统线缆
- 一台机架安装时间从两天缩短为两小时
更重要的是,NVIDIA宣布与Groq深度合作,将Groq的LPU(语言处理单元)集成进系统。Groq芯片采用确定性数据流架构,500MB SRAM,专为超低延迟推理优化。
"这两种处理器具有截然不同的特性。通过Dynamo调度:预填充阶段(大量计算)交由Vera Rubin,延迟敏感的解码阶段交给Groq。"
结果:两年内,同样的1GW数据中心,token生成速率从2200万提升到7亿,提升了350倍。摩尔定律同期只实现了约1.5倍的提升。
其他硬件亮点:
- Kyber机架:容纳144个GPU,铜缆连接,前所未有的扩展密度
- Spectrum X:全球首个量产共封装光学(CPO)交换机
- Groq LP30芯片(三星制造)已量产,第三季度发货
- 第一台Vera Rubin机架已在微软Azure云上运行
第五章:OpenClaw——代理系统的开源操作系统
演讲中最引发思考的部分是黄仁勋对 OpenClaw 的重点介绍。这个开源个人AI代理,在短短几周内成为人类历史上最受欢迎的开源项目,超越了Linux三十年的积累。
"OpenClaw是什么?它是一个代理系统,能调用大模型、访问工具和文件系统、分解任务、衍生子代理,并通过各种方式与你交互。它实质上是智能计算机的操作系统——就像Windows开启了PC时代,OpenClaw将开启个人代理时代。"
"每一家公司现在都需要制定'OpenClaw战略'。"
NVIDIA为此推出了 NemoClaw企业参考设计,集成企业级安全、隐私保护路由和策略执行引擎。同时发布多个开放前沿模型:Nemotron(语言)、Kosmos(视觉/世界模型)、ALPAMIO(多模态)、GROOT(物理AI)。
"未来,我们公司的每位工程师都将需要一个年度Token预算。他们的基本年薪可能是几十万美元,而我会给他们分配大约相当于这个数字一半的Token配额,以使他们实现10倍的效率提升。这已经是硅谷新的招聘策略:你的offer里包含多少Token?"
第六章:物理AI——机器人与自动驾驶
演讲最后聚焦于物理AI。自动驾驶方面,NVIDIA平台新增四家合作伙伴:比亚迪、现代、日产、吉利,加上此前的奔驰、丰田、通用,总计覆盖 每年1800万辆汽车。
机器人方面,NVIDIA与迪士尼、DeepMind合作,基于Newton物理求解器和Kosmos世界模型,训练出能行走、互动的角色机器人。现场,一个奥拉夫雪人机器人走上舞台与黄仁勋实时互动。
"全球首次大规模物理AI部署已经到来。从自动驾驶到工业机器人,从手术室辅助到娱乐角色,物理AI正在从模拟走向现实。"
第七章:前瞻——Feynman架构与太空数据中心
黄仁勋透露了两个重大预告:
- 下一代计算架构Feynman:将是首个同时实现铜线和CPO水平扩展的架构
- Vera Rubin Space-1:在太空中部署的数据中心计算机——彻底打开了AI算力延伸至地球之外的可能性
结语
"我们正处于计算范式的根本性转折点——从检索式计算走向生成式计算,从数据存储走向token生产,从应用软件走向智能代理。在这个新世界里,硬件是AI工厂的底座,软件是代理系统的灵魂,而开源生态(如OpenClaw)则是连接一切的粘合剂。未来已来,你何不亲自来看看?"
深度分析
一、这场演讲的历史定位
GTC 2026不是一次普通的产品发布会。把它放在更长的时间轴上看,这场演讲标志着NVIDIA完成了一次身份的彻底转变:从"做最好的GPU的公司",变成了"构建AI时代基础设施的公司"。黄仁勋自己用了一个词——"AI工厂公司"。
过去十年,NVIDIA的故事是:GPU → 深度学习 → AI训练 → 数据中心。GTC 2026之后,NVIDIA的故事变成了:AI工厂 → Token经济 → 代理系统 → 物理世界。这不只是产品更新,是整个价值主张的升维。
二、核心框架:Token工厂经济学解析
这是整场演讲最值得反复阅读的部分。黄仁勋用一个极简框架把复杂的AI商业模式讲清楚了:
数据中心 = AI工厂 | 算力 = 产能 | Token = 产品 | 电力 = 硬约束
电力是真正的天花板,1GW就是1GW,物理定律不可违抗。这意味着"谁的每瓦token产出最高,谁的利润就最高"——直接解释了为什么NVIDIA要在性能/瓦特上不断突破(Vera Rubin vs Hopper:综合350倍提升)。
Token有价格分层,高价值推理才是真金白银。免费层的token赚不了多少,$150/百万token的超高速层才是利润所在。Groq LPU的价值就在这里——专门服务于需要极低延迟的高价值推理场景。
三、OpenClaw战略:黄仁勋在下一盘大棋
每次大的计算范式转换,都伴随着一个操作系统级平台出现:PC时代 → Windows,移动时代 → Android/iOS,云时代 → AWS/Azure,代理时代 → OpenClaw(?)
OpenClaw本身是开源的,NVIDIA没有直接控制权。但NVIDIA推出了NemoClaw企业参考设计——这是NVIDIA在"agent OS层"的商业落点。就像Red Hat通过Linux企业版盈利一样,NVIDIA通过企业级安全和策略管理层,在开源基础上构建商业价值。
更深层的含义:OpenClaw的普及,直接意味着agent计算需求的爆发,而agent跑在GPU上。这是黄仁勋最喜欢的商业模式——让更多人用NVIDIA的基础设施,同时还能保持开放生态的形象。
四、Groq整合:异构推理架构的野心
| 维度 | Vera Rubin (NVIDIA GPU) | Groq LPU |
|---|---|---|
| 内存容量 | 288GB HBM | 500MB SRAM |
| 擅长场景 | 高吞吐量推理、预填充 | 超低延迟解码 |
| 成本特点 | 大内存,高带宽 | 极快,确定性延迟 |
| 最佳用途 | 批处理、训练 | 高价值实时推理 |
Dynamo调度器把两者的优势组合起来,从$0到$150/百万token全覆盖。竞争对手很难用单一架构同时做到这两件事。
五、物理AI:下一波浪潮的明确押注
1800万辆汽车/年的合作规模 + 工业机器人 + 娱乐机器人现场演示,是黄仁勋向市场发出的清晰信号:软件AI已经验证,下一场战争在物理世界。汽车厂商之所以重要,是因为它们是目前量产规模最大、最容易标准化的物理AI平台。1800万辆,就是1800万个移动的AI计算节点。
六、太空数据中心:想象力的边界扩张
Vera Rubin Space-1把数据中心放到太空,不只是散热问题(太空散热效率极高),更重要的含义是:覆盖全球任意地点延迟均匀、不受地面电网和土地限制、服务于海洋极地等数据盲区。这代表NVIDIA对算力基础设施边界的主动拓展——这家公司想成为的不只是地球上最重要的AI基础设施公司,而是跨越行星尺度的算力供应商。
七、对不同人群的启示
对企业决策者: 现在最重要的问题不是"要不要用AI",而是"我的OpenClaw战略是什么"。代理化是不可逆的趋势,每家SaaS公司都需要规划向AaaS(Agent-as-a-Service)的转型路径。
对工程师/开发者: 黄仁勋的"年薪+Token预算"不是比喻,而是正在发生的现实。真正有价值的能力,是知道如何用Token预算把自己的产出乘以10倍。会用Agent不够,要学会设计Agent工作流。
对创业者: AI工厂时代的机会不在于卖GPU,而在于上层——谁能在特定垂直领域建立高价值的推理服务($45–$150/百万token的层级),谁就能建立护城河。
对投资者: 1万亿美元的需求预期是有具体订单支撑的高置信度预测。AI基础设施的供需不平衡还会持续至少2–3年。但更值得关注的是上层应用——谁在用Token经济学重新定义自己所在行业的商业模式。
黄仁勋在GTC 2026描绘的不是一家公司的未来,而是整个数字文明的下一个操作系统——AI工厂生产Token,OpenClaw消费Token,物理AI消耗Token,而这一切都建立在NVIDIA的硅基之上。
整理:小K(Kollab AI)/ 来源:36氪、华尔街见闻、PAnewslab / 2026-03-19