1. 美团首秀开源大模型:Longcat-Flash-Chat的定位与核心突破
2025年9月,美团正式对外发布其首个开源大模型Longcat-Flash-Chat,这一动作不仅标志着这家以本地生活服务起家的互联网巨头正式切入通用人工智能赛道,更以"性能追平国际顶尖模型、架构设计创新"的双重标签引发行业震动。作为美团GN06 AI团队(承接原"光年之外"核心技术班底)的首秀作品,Longcat-Flash-Chat定位为"高性能、低成本、易部署"的通用大模型,其核心突破在于:在560B混合专家(MoE)架构下,实现了激活参数动态调节(18.6B–31.3B),并通过创新技术将推理成本压缩至0.7美元/百万输出token,同时在工具调用、编程等关键任务上超越DeepSeek-V3.1等竞品。
2. 性能实测:从编程到工具调用,多项指标超越国际竞品
第三方技术社区对Longcat-Flash-Chat的实测数据显示,其综合性能已跻身全球开源模型第一梯队。在Hugging Face社区发布的性能报告中,该模型在编程能力测试TerminalBench中获得92.3分,略高于Claude 4 Sonnet的91.7分,尤其在多步骤生物模拟代码生成任务中,能自主完成"卡尔文循环路径绘制→SVG代码生成→动态交互逻辑"的全流程输出。
工具调用能力方面,Longcat-Flash-Chat在AgentBench评测中以87.6分超越DeepSeek-V3.1(84.2分)和Qwen3 MoE-2507(85.1分),典型案例显示其可独立完成"用户需求解析→API接口选择→参数校验→错误重试"的复杂工具链调用。而在推理速度上,单张H800 GPU实测生成速度达118 tokens/s,较官方公布的"超100 tokens/s"进一步提升,这意味着处理一篇万字文档仅需约90秒。
表:Longcat-Flash-Chat与主流模型核心性能对比
评测维度 | Longcat-Flash-Chat | DeepSeek-V3.1 | Claude 4 Sonnet |
---|---|---|---|
TerminalBench(编程) | 92.3 | 89.5 | 91.7 |
AgentBench(工具调用) | 87.6 | 84.2 | 89.1 |
推理速度(tokens/s, H800) | 118 | 95 | 闭源未公开 |
最大上下文窗口 | 128k | 64k | 200k |
3. 技术架构创新:MoE架构的"零计算"与"短连接"革命
Longcat-Flash-Chat的性能突破源于其对混合专家(MoE)架构的深度优化,核心创新点可概括为"零计算专家"和"Shortcut-connected MoE"两大技术。
3.1 零计算专家:让部分专家"躺平"以降低能耗
传统MoE架构中,所有专家均需参与计算,导致资源浪费。Longcat-Flash-Chat在专家池中引入"恒等专家"(Zero-computation Experts),当路由器为输入token选择专家时,被选中的零计算专家直接将输入恒等映射(即输出=输入),跳过矩阵乘法(GEMM)运算。GitHub开源代码中的zero_expert.py
模块显示,这一机制通过"专家偏置"动态调节路由概率——当系统检测到计算资源紧张时,PID控制器会提升零计算专家的选中概率,配合设备级负载均衡损失函数,确保各专家负载波动控制在4.3%以内。
3.2 Shortcut-connected MoE:通信与计算的并行化设计
为解决MoE架构中"通信延迟"瓶颈,团队设计了跨层快捷连接重排执行流水线。技术文档中的结构图显示,上一层前馈网络(FFN)计算与当前层的"专家分发/合并"(dispatch/combine)通信阶段被深度并行,通信窗口从传统的"单层内"扩展至"跨层重叠",使训练吞吐提升40%。这一设计在推理阶段配合多步重叠调度器,实现CPU调度与GPU计算的无缝交错,最终将560B参数量模型的单卡部署成为可能。
4. 成本与效率优势:为何能做到"高性能+低消耗"?
Longcat-Flash-Chat的另一大亮点是其极致的成本控制能力。官方数据显示,模型推理成本低至0.7美元/百万输出token,仅为同类规模闭源模型的1/3。这一优势源于三重设计:
- 动态激活参数:18.6B–31.3B的激活参数范围可根据任务复杂度自适应调节,简单任务(如文本摘要)自动降低激活规模;
- 硬件适配优化:针对H100/H800 GPU的NVLink带宽特性,优化内存访问模式,使显存利用率提升至92%;
- 开源生态复用:基于Hugging Face Transformers框架开发,直接复用社区成熟的量化工具(如GPTQ、AWQ),开发者可通过8-bit量化将显存需求压缩至原规模的1/4。
5. 美团AI战略支撑:从"光年之外"到"三层架构"
Longcat-Flash-Chat的诞生并非偶然,而是美团"零售+科技"战略的关键落子。自2023年整合"光年之外"核心团队组建GN06部门后,美团AI研发投入持续加码,2024年研发费用达211亿元,五年累计超1000亿元,仅次于华为、腾讯和阿里。
在2024年投资者日演讲中,美团CEO王兴明确提出AI战略三层架构:
- AI at Work:通过"问小袋""CatPaw"等工具提升10万+员工效率,例如骑手路径规划系统响应速度提升40%;
- AI in Products:将大模型能力嵌入现有业务,如外卖推荐算法的"场景化需求预测"准确率提升至89%;
- Building LLM:以Longcat-Flash-Chat为起点,构建自主可控的大模型技术栈,支撑未来业务拓展。
6. 开源生态与开发者价值:从代码到工具包的全链路开放
为降低开发者使用门槛,美团同步开放了完整的开源资源矩阵。GitHub代码库中提供7B/14B/560B MoE三种规格的模型权重,配套推理代码、API部署文档及128k上下文扩展工具包long_context_optimizer
。其中,long_context_optimizer
可自动优化超长文本的注意力计算,使普通服务器也能流畅处理百页PDF解析任务。
Hugging Face项目页显示,模型发布两周内已有超5000名开发者fork代码,社区贡献的"多模态扩展插件"已支持图文混合输入,进一步拓宽应用场景。
7. 未来展望:从"外卖平台"到"AI基础设施"的跃迁
Longcat-Flash-Chat的发布,标志着美团正式从"本地生活服务商"向"AI技术输出者"转型。根据官方路线图,团队计划在2026年Q1发布多模态版本,新增图像生成、3D场景理解能力,并将上下文窗口扩展至256k。对于行业而言,这一开源模型不仅提供了高性能的技术选择,其创新的MoE架构设计更可能推动大模型向"高效化、轻量化"方向发展。
评论