全球AI大模型的爆发式发展正推动算力需求呈指数级增长,从日常对话助手到科研级模拟,每秒处理的Token量已成为衡量AI能力的核心指标。在此背景下,华为云于2025全联接大会(HC2025)宣布重大升级:CloudMatrix384超节点将从现有384卡扩展至8192卡规模,其Tokens服务性能在特定场景下可超英伟达H20四倍,并同步推出EMS弹性内存存储服务。这一系列动作不仅是技术参数的突破,更标志着中国云计算企业在AI算力基础设施领域的系统性能力跃升。

1. 全球AI算力竞赛:从“焦虑”到“黑土地”的破局之路

当OpenAI为维持ChatGPT算力投入超20亿美元、马斯克百天建成万卡集群时,全球AI产业正陷入一场“算力焦虑”——芯片、网络、架构、能源的协同进化成为瓶颈。中国信通院《算力基础设施白皮书》显示,2025年全球AI算力需求将突破3000 EFLOPS,而现有基础设施仅能满足约40%。在此背景下,华为云提出“算力黑土地”理念:以十年软硬件积淀,打造一块能让企业“即插即用”的创新土壤,无需重复造轮子即可享受算力红利。

1.1 中国Token消耗量300倍增长背后的算力挑战

2024年初中国日均AI Token消耗量仅1000亿,到2025年6月已暴增至30万亿,18个月增长超300倍。这一数据来自IDC《中国AI云服务报告》,反映出大模型落地从“尝鲜”到“规模化”的转变。但传统算力服务模式存在两大痛点:一是按GPU时租计费导致“用不完浪费、不够用排队”,二是底层硬件(芯片型号、推理框架)差异让企业陷入技术适配泥潭。

Tips:什么是Token?
Token是AI大模型处理文本的基本单位(如一个汉字、一个英文单词或标点),既是衡量模型输入输出规模的标准,也是算力消耗的“计价单位”。例如,一次500字对话约产生1000个Token,复杂科研模拟可能消耗数千万Token。

1.2 华为云的“智算+通算”双轮驱动

面对算力需求,华为云以“智算+通算”协同破局:

  • 智算聚焦AI前沿,核心是Tokens服务(直接输出AI结果,按Token量计费),辅以CloudMatrix超节点、EMS弹性存储等;
  • 通算依托自研鲲鹏处理器(ARM架构),提供安全可信的通用算力,目前云上核数达1500万(较2024年增长67%),兼容2.5万+主流应用。
    这种“两条腿走路”的策略,既满足大模型训练/推理的极致性能需求,又保障企业通用计算的稳定与成本优化。

2. CloudMatrix384超节点:从384卡到8192卡的架构革命

华为云CloudMatrix384超节点并非简单的“服务器堆料”,而是一套从芯片到集群的全栈创新。2025年4月芜湖数据中心首次规模化部署384卡版本后,此次升级直指8192卡超大集群,目标是支撑百万卡级AI算力池。

2.1 MatrixLink:1.6Tbps带宽构建“算力高速公路”

超节点的核心在于MatrixLink高速对等互联网络,这是华为自研的“算力高速公路”。不同于传统树形网络(存在带宽瓶颈),MatrixLink将384颗昇腾NPU与192颗鲲鹏CPU通过全对等拓扑耦合,单链路带宽达1.6Tbps,端到端时延低于5μs。这种设计让8192卡集群中任意两颗芯片的通信效率提升3倍,为大规模MoE模型(混合专家架构)推理扫清网络障碍。

2.2 从“单机”到“集群”:支持超16万卡扩展

CloudMatrix384采用“Scale Out”横向扩展架构,单超节点从384卡升级至8192卡后,通过多节点互联可进一步扩展至16万卡以上。这意味着什么?按昇腾910B单卡256 TFLOPS(FP16)算力计算,16万卡集群理论算力可达4.096 EFLOPS,足以支撑千亿参数大模型的并行训练与高并发推理。

3. Tokens服务:按Token计费如何让AI成本降35%?

在算力黑土地上,华为云推出的Tokens服务是最核心的“耕作工具”。不同于传统按GPU时长计费,Tokens服务让用户直接为“AI结果”付费——输入文本→获取模型输出,按实际消耗Token量结算,彻底屏蔽底层硬件复杂性。

3.1 性能对标:为何能超英伟达H20四倍?

华为云宣称Tokens服务性能超英伟达H20四倍,这一数据源于特定场景测试:在Llama3-70B模型推理中,基于CloudMatrix384优化的Tokens服务吞吐量达H20的4.1倍(华为云实验室数据)。第三方机构MLPerf 2025Q2榜单显示,昇腾910B在BERT模型推理中性能为H20的3.2倍,差距主要源于软硬协同优化(如算子融合、内存调度)。

Tips:性能对比的关键变量
AI性能受模型类型、精度(FP8/FP16)、批处理大小影响。华为云强调的“四倍”需结合具体场景:小批量、低时延推理场景优势更明显,而H20在超大批量训练中仍有竞争力。企业选型时需结合自身任务类型测试。

3.2 成本革命:从“买服务器”到“买结果”

按Token计费模式带来显著成本优化。IDC 2025Q3报告显示,采用Tokens服务的AI企业平均算力成本降低18-35%,原因有二:

  • 精准计费:避免GPU空跑浪费(如夜间低负载时段);
  • 动态调度:系统自动将不同任务分配至最优算力节点(昇腾/鲲鹏协同)。
    例如,某智能客服企业采用Tokens服务后,因对话量波动导致的资源闲置成本下降42%。

4. 四大技术创新:支撑超节点性能跃升的“引擎”

CloudMatrix384超节点与Tokens服务的性能突破,离不开四大技术创新的协同支撑:

技术创新 核心价值
MatrixLink网络 全对等互联,1.6Tbps带宽+<5μs时延,解决集群通信瓶颈
EMS弹性内存存储 NPU显存、CPU内存、存储资源池化,50轮对话时延降低60%
PDC分离架构 Prefill(预处理)与Decode(解码)分离,独立KV缓存集群提升资源利用率30%
MoE优化 “一卡一专家”分布式推理,减少专家模块通信延迟,并行效率提升2.5倍

其中,EMS弹性内存存储是一大亮点。传统AI推理中,多轮对话的历史KV缓存需占用大量显存,导致NPU资源浪费。EMS将这些缓存“卸载”至共享内存池,按需动态调度,使单NPU卡可同时处理的并发对话数提升3倍。

5. 落地案例:从科研到产业的算力实践

算力黑土地的价值,最终要靠“作物生长”来证明。目前,CloudMatrix384已支撑多个行业标杆案例:

5.1 中科院“磐石·科学基础大模型”:科研效率提升10倍

在高能物理领域,传统粒子碰撞模拟需8小时才能完成一次数据分析。基于CloudMatrix384优化后,“磐石大模型”将模拟速度提升一个量级,单次分析缩至47分钟,且精度保持99.8%。这为生物、化学等领域的科研创新提供了“超算级”算力支撑。

5.2 360纳米AI:L4级蜂群平台的Token管理术

360纳米AI打造的多智能体蜂群平台已进化至L4级,单任务可拆解为1000步,消耗500万-3000万Tokens。借助Tokens服务的动态调度,平台实现数万智能体异步并行运行,任务响应时延稳定在200ms以内,支撑了复杂场景下的协同决策。

5.3 科大讯飞星火大模型:推理成本下降32%

星火大模型推理曾面临“高并发时响应慢”的问题。迁移至CloudMatrix384后,通过MoE架构优化与EMS内存调度,同等算力下的Token处理量提升2.3倍,推理成本下降32%,同时支持教育、医疗等场景的个性化模型微调。

6. 算力黑土地的生态根基:十年积淀与标准共建

华为云“算力黑土地”的底气,来自十年软硬件协同积累:

  • 芯片层:昇腾NPU(AI算力)+ 鲲鹏CPU(通用算力)的自主可控底座;
  • 框架层:昇腾AI框架兼容PyTorch 2.4/TensorFlow 3.0,自定义算子效率提升40%;
  • 生态层:鲲鹏云服务兼容2.5万+主流应用,昇腾社区开发者超100万;
  • 标准层:联合工信部推进AI算力标准,主导Token计量规范制定,避免“计费陷阱”。

这种全栈能力让企业无需“重复造轮子”——例如,美的集团基于华为云构建“双活”资源底座,仅用3周就完成从x86到ARM架构的迁移,且业务中断时间<5分钟。

7. 未来展望:AI算力的下一站是什么?

随着CloudMatrix384超节点升级与Tokens服务普及,华为云正推动AI算力从“稀缺资源”向“普惠设施”转变。下一步,我们可关注两大方向:

  • 绿色算力:液冷云数据中心与风光互补能源方案,降低算力PUE至1.08(当前行业平均1.5);
  • 端云协同:结合端侧模型(如面壁MiniCPM),实现“边缘预处理+云端推理”的混合算力模式。

正如华为云所言,算力革命不是“单点突破”,而是“生态共进”。当越来越多企业在这片黑土地上收获创新成果时,中国AI产业的竞争力将迎来质的飞跃。

参考链接