优化器[1]
斯坦福大学:大模型预训练优化器研究,矩阵型加速30-40%,AdamW仍是稳健首选
大模型预训练效率瓶颈下,优化器选择至关重要。斯坦福大学研究表明,AdamW仍是稳健首选,而矩阵型优化器经严格调优可实现30-40%单步加速。传统评估存在超参数调优偏心(如Lion需特定衰减值)和小规模测试误导(小模型加速比随规模衰减),需在大模型全周期评估最终性能。矩阵优化器通过预条件矩阵动态调整梯度,Muon以低秩近似、Soap以分块对角等方式平衡效率与精度。实际应用中,AdamW适合多数场景,矩阵优化器推荐用于大规模预训练且需严格调优。