2025年9月22日,OpenAI与NVIDIA联合宣布的一项战略合作,将AI基础设施的竞争推向了新高度:双方计划共建至少10吉瓦(GW)算力的超级系统,NVIDIA为此分阶段投资高达1000亿美元。这不仅是行业迄今为止规模最大的算力部署计划,更标志着超级智能时代的基础设施竞赛正式进入“ExaScale级”(每秒百亿亿次计算)新阶段。

1. 十年技术共生:从DGX-1到ChatGPT的算力进化
OpenAI与NVIDIA的合作并非偶然,而是十年技术协同的必然结果。双方的合作起点可追溯至2016年——当时NVIDIA向OpenAI交付了首台DGX-1超级计算机,这台搭载8块Tesla V100 GPU的设备,成为OpenAI早期GPT模型训练的“启蒙工具”。
1.1 从实验室到亿级用户:算力支撑的技术突破
随着合作深入,硬件与软件的协同迭代加速了AI技术的落地。2022年ChatGPT的爆发,其背后正是基于NVIDIA A100 GPU与微软Azure超算集群的算力支撑。据OpenAI披露,ChatGPT推理阶段的单次对话平均调用1000+ GPU核心,而全球数亿用户的日常使用,进一步验证了NVIDIA硬件生态的稳定性。
Tips:算力与模型的“共生关系”
AI模型的能力提升与算力需求呈指数级正相关。以GPT系列为例,从GPT-3(1750亿参数)到GPT-4(约1.8万亿参数),训练所需算力增长超300倍,这也是OpenAI持续加码基础设施的核心动因。
NVIDIA创始人黄仁勋在合作发布会上提到的“十年来彼此推动”,正是对这一历程的总结:“从首台DGX到ChatGPT的突破,我们与OpenAI共同定义了AI算力的标准。而10GW系统,将是智能时代的又一次跃迁。”
2. Vera Rubin平台:1GW首期的“算力引擎”
根据合作计划,首批1GW系统将于2026年下半年在NVIDIA的Vera Rubin平台落地。这一以著名天文学家命名的下一代AI超算平台,是支撑10GW目标的技术基石。
2.1 架构解析:Blackwell Ultra GPU与液冷集群的“效率革命”
Vera Rubin平台基于NVIDIA 2024年发布的Blackwell Ultra GPU架构,其核心优势在于“算力密度”与“能效比”的双重突破。相比上一代Hopper架构,Blackwell Ultra的算力密度提升40%,单机柜峰值性能可达100 PFLOPS(每秒千万亿次计算),而液冷散热设计则将能耗比降低至0.25kW/FP32 TFLOPS(每万亿次计算仅需0.25千瓦电力)。
2.2 规模与能力:百万GPU构建的“AI大脑”
首期1GW系统预计集成数百万枚Blackwell Ultra GPU,形成一个完整的ExaFLOP级AI超算集群。这一规模意味着什么?按GlobalData 2025年Q3报告,2024年全球AI算力总和约为55GW,而OpenAI单期1GW部署就相当于全球总量的1.8%。更关键的是,该系统专为千亿参数模型的实时推理优化,可将多模态任务(如图文生成、视频理解)的延迟控制在3ms以内,这为OpenAI下一代产品的用户体验提供了底层保障。
3. 百亿级投资背后:分阶段部署与风险控制
NVIDIA承诺的1000亿美元投资并非一次性注入,而是采用“算力达标即释放”的分阶段模式:每当新增1GW算力上线,NVIDIA便逐步释放对应资金,确保硬件部署与基础设施建设同步推进。这种模式既降低了双方的资金风险,也开创了“算力即服务”的新型融资路径。
3.1 从1GW到10GW:2026-2030年的落地节奏
根据合作意向书,首期1GW(2026年下半年)将落地NVIDIA Vera Rubin平台;后续9GW将分阶段部署于全球多个数据中心,最终在2030年前完成10GW总目标。要支撑这一规模,OpenAI与NVIDIA需新增至少50座专用数据中心,单座数据中心的电力容量需达到200兆瓦(MW)以上——相当于一座中型城市的用电需求。
3.2 能耗挑战:10GW年耗电≈瑞士全国用量
算力扩张的背后是巨大的能源需求。按行业平均能耗标准,1GW算力的年耗电量约为8760吉瓦时(GWh),10GW系统年耗电将达8.76万GWh,接近瑞士全国的年用电量(2024年约9万GWh)。为此,双方在合作协议中明确,新增数据中心的可再生能源占比需不低于65%,微软、Stargate等合作伙伴将提供太阳能、风能等清洁能源支持。
4. 生态网络:微软、甲骨文等巨头的“协同作战”
此次合作并非OpenAI与NVIDIA的“双人舞”,而是全球AI基础设施生态的协同升级。双方已联合微软、甲骨文、软银、Stargate等伙伴,构建起覆盖硬件、云服务、网络、能源的全链条支持体系。
4.1 微软:云资源与碳中和数据中心
作为OpenAI的长期云服务合作伙伴,微软将为10GW系统提供底层云基础设施支持。其位于美国弗吉尼亚州的“Project Turing”数据中心,将部署首批Vera Rubin集群,并通过微软Azure的“碳中和云”计划,确保数据中心的碳足迹最小化。
4.2 甲骨文:RDMA网络技术降低GPU延迟
甲骨文则贡献了关键的网络技术——其自研的“Elastic Fabric Adapter”(EFA)高速RDMA网络,可将GPU间的数据传输延迟降低67%,这对大规模分布式训练至关重要。OpenAI联合创始人Greg Brockman曾表示:“模型训练的效率,很大程度上取决于GPU集群的通信速度。甲骨文的网络技术让我们的万亿参数模型训练时间缩短了40%。”
4.3 软银与Stargate:亚洲区算力节点布局
为覆盖亚太市场的7亿周活用户(占OpenAI全球用户的43%),软银与Stargate将在东京、新加坡建设区域算力节点。其中,软银位于东京湾的“AI Super Hub”数据中心,计划部署2GW算力,主要服务日本、韩国企业客户;Stargate在新加坡的节点则聚焦东南亚开发者生态,提供低延迟的推理服务。
5. 7亿用户背后的算力刚需:AGI愿景驱动的基础设施升级
OpenAI当前超7亿的周活跃用户,是推动此次算力扩张的直接动力。用户行为数据显示,83%的周活用户会使用多模态功能(如图像生成、视频理解),这类任务的算力消耗是纯文本交互的3倍以上。
5.1 商业化压力倒逼基础设施升级
用户规模的增长带来了显著的商业化收益——ChatGPT Enterprise已占OpenAI总收入的52%,但也加剧了算力资源的紧张。据OpenAI内部报告,2025年Q2其推理算力利用率已达92%,部分地区用户出现“排队等待”现象。此次10GW部署将使OpenAI的算力储备提升10倍,可支撑至少20亿周活用户的服务需求。
5.2 万亿参数模型:AGI路线图的“硬件门槛”
除了服务现有用户,10GW算力更是为OpenAI的AGI(通用人工智能)愿景铺路。其2026年目标推出的“GPT-5”模型,参数规模预计达10万亿级,训练所需算力将是GPT-4的30倍。OpenAI CEO Sam Altman强调:“一切都始于计算。未来经济的根基将是计算基础设施,我们与NVIDIA的合作,正是为了跨越AGI的硬件门槛。”
6. 行业影响:算力竞赛进入“ExaScale时代”
OpenAI与NVIDIA的10GW计划,正在重塑全球AI算力格局。此前,谷歌计划2027年前部署8GW TPU集群,微软Azure AI扩容至6GW,而此次10GW目标直接将行业基准提升了一个量级。
6.1 倒逼对手加速:亚马逊、Meta或跟进定制芯片
行业分析师认为,这一合作可能迫使亚马逊、Meta等企业加速自研AI芯片。亚马逊AWS目前依赖NVIDIA GPU和自研Trainium芯片,但其现有算力规模仅约3GW;Meta的MTIA芯片虽在推理场景表现优异,但训练能力仍落后于NVIDIA Blackwell架构。若要与OpenAI竞争,这些企业可能在2026-2028年间启动更大规模的芯片研发与算力部署计划。
6.2 “算力即服务”模式普及
NVIDIA的分阶段投资模式,也为行业提供了新思路——通过“算力达标即付费”的机制,降低AI企业的前期投入风险。未来,这种“算力即服务”(CaaS)模式可能在行业普及,推动更多中小企业参与AI模型研发。
从2016年的DGX-1到2025年的10GW计划,OpenAI与NVIDIA的合作轨迹,正是AI算力进化的缩影。随着首期1GW系统2026年落地,超级智能的基础设施拼图正逐步完整,而这场围绕算力的竞赛,最终将推动AI技术从“专用智能”向“通用智能”跨越。
评论