算力[16]
xAI/OpenAI竞逐自研芯片:台积电3nm工艺2026量产,AI算力自主竞赛升温
xAI自研AI推理芯片X1曝光,采用台积电3nm工艺,计划2026年第三季度量产,首批产量30万块,旨在解决算力瓶颈,支撑五年内实现5000万英伟达H100等效算力目标。当前自研芯片已成AI巨头标配,谷歌TPU、Meta MTIA、OpenAI XPU等竞相布局,算力自主化竞赛加剧。X1与OpenAI XPU均瞄准2026年量产,却分野于“完全自研”与“半自研”路线,技术与人才争夺白热化。台积电凭借3nm代工超90%市占率成关键变量,其产能分配直接影响巨头算力野心。此外,特斯拉AI5/AI6芯片与X1形成战略协同,共同推进马斯克生态算力布局。
AWS携手Anthropic押注Trainium2 争夺生成式AI算力市场份额
2025年生成式AI算力竞赛中,AWS正通过与Anthropic深度合作及自研Trainium2芯片实现战略破局。面对Azure(35%份额)、谷歌云(28%份额)的挤压,AWS以“芯片+伙伴”组合拳反击:联合Anthropic落地“规模化法则”,后者依托协同优化实现收入从2023年1亿冲刺2025年50亿;Trainium2芯片单卡160 TFLOPS算力,通过300W低功耗、60kW高密度机柜设计,使AI训练TCO降低25%-30%,Claude 3模型训练成本降40%。双方软硬件协同设计(定制指令集、数据中心适配)成行业模板,推动Top 10 AI实验室加速采用“定制芯片+专用软件栈”策略,重塑全球AI算力格局。
Triton官方GPU编程教程:破解AI大模型算力瓶颈,优化核心算子效率
AI大模型时代GPU算力需求激增,传统编程面临底层优化门槛高、算子效率低等痛点。Triton官方GPU高性能编程教程通过Python抽象与结构化实践,提供从调用API到定制高性能内核的进阶路径。教程涵盖基础运算、深度学习核心算子(矩阵乘法、融合注意力机制)及硬件级优化,重点解决Transformer注意力机制显存读写频繁、矩阵乘法算力浪费等问题。其中融合注意力在A100 GPU提速1.8-2.3倍,矩阵乘法吞吐量达GPU理论峰值85%,低内存Dropout显存占用降低30%以上。支持Libdevice函数调用,适配新GPU架构,助力开发者高效挖掘硬件性能,推动AI模型训练与推理效率革命。
英伟达15亿美元租Lambda H100服务器:巩固GPU霸权对抗自研芯片
2024年全球AI算力竞争白热化之际,英伟达与Lambda签署15亿美元GPU服务器租赁协议,涉及1.8万台搭载H100 Tensor Core GPU的服务器,总算力达1.8 EFLOPS。此举是英伟达应对亚马逊、谷歌等巨头自研芯片冲击的“内循环”战略落子:通过资本绑定Lambda等中小云服务商,以“投资-采购-回租”模式巩固GPU生态,如CoreWeave从挖矿公司逆袭为190亿估值巨头的案例所示。其核心逻辑在于依托CUDA软件生态壁垒,锁定开发者群体,对冲大客户流失风险。该交易不仅巩固英伟达GPU霸权,更推动AI算力市场分层——头部厂商主打通用算力,英伟达系服务商聚焦高性能训练,加速算力从稀缺资源向标准化商品转变,为AI技术普及注入动力。
清华等机构开源全球首个具身智能“渲训推一体化”强化学习框架RLinf
具身智能训练面临渲染与模型资源竞争、效率低下的行业难题,清华大学等机构联合开源全球首个“渲训推一体化”强化学习框架RLinf,为这一痛点提供突破性解决方案。该框架创新混合式执行模式,消除传统共享/分离式执行的算力浪费,将系统气泡降至零,算力利用率提升至近100%;通过六层架构与多后端集成,灵活适配“大脑”(具身VLM)与“小脑”(VLA)等多样化模型需求。实测显示,RLinf训练效率提升40%-60%,VLA模型训练周期从数周缩至数日,数学推理模型在AIME24数据集准确率超GPT-4,GPQA-diamond得分超越Claude 3。框架GitHub首周星标破800,已成为具身智能研发新基建,加速AI从“感知”到“行动”的跨越。
OpenLight获3400万美元A轮融资,光子芯片成数据中心互联新引擎
随着AI、云计算发展,数据中心面临带宽与功耗挑战,光子芯片成突破互联瓶颈关键。创新企业OpenLight近日完成3400万美元A轮融资,由知名机构联合领投。其核心竞争力在于PASIC芯片与异质集成技术,解决激光器“最后一毫米”集成难题,封装复杂度降低60%,光耦合损耗控制在1dB以下;开放PDK模式将客户开发周期从18个月压缩至6个月。公司瞄准AI数据中心高带宽需求,计划推出1.6Tb/s和3.2Tb/s标准化PIC产品,有望重塑光模块供应链,为数据中心互联提供高效解决方案。