开源生态[24]
Meta Set Block Decoding技术:LLM推理提速3-5倍的算法优化方案
大语言模型(LLM)推理速度慢是当前用户体验核心痛点,传统自回归解码因串行计算和重复计算键值对导致效率低下。Meta推出的Set Block Decoding技术通过算法优化,实现推理速度3-5倍提升,且无需修改模型架构、重训练或更换硬件,即插即用适配现有部署。其核心优化包括键值缓存分块复用(减少30%以上重复计算)和块级并行解码(硬件并行执行提升效率)。该技术显著改善实时交互场景(客服、教育、医疗秒级响应)、生成式AI工具(创作效率提升3-5倍),并降低中小企业使用门槛。作为LLM推理优化里程碑,它以算法创新推动行业从“堆资源”转向“提效率”,兼容主流模型,有望成为推理标配,加速AI普惠化落地。
快手Keye-VL 1.5开源:0.1秒定位+128K窗口重新定义视频AI
快手Keye-VL 1.5开源,重新定义视频AI能力边界。该多模态模型凭借128K超长上下文窗口,可流畅处理数小时长视频,结合Slow-Fast双路编码与3DRoPE时序编码,实现0.1秒级帧级定位精度。在快手日均4亿条视频审核场景中,违规物品定位误差仅0.05秒,误判率低至0.12%;电商领域通过精准锁定商品特写片段,用户点击转化率提升23%。模型支持轻量化部署,INT4量化版本仅需10GB显存即可运行,中文多模态任务表现突出,已整合至LlamaIndex、LangChain工具链。其开源推动视频理解从“能用”迈向“好用”,为内容审核、智能剪辑、长视频分析等领域提供高效技术范式。
美团首秀开源大模型Longcat-Flash-Chat:高性能低成本MoE架构突破
美团正式发布首个开源大模型Longcat-Flash-Chat,定位“高性能、低成本、易部署”通用AI模型,标志其切入通用人工智能赛道。该模型基于560B混合专家(MoE)架构,通过“零计算专家”和跨层并行通信创新,实现动态激活参数18.6B-31.3B调节,推理成本低至0.7美元/百万输出token。性能上,编程能力TerminalBench达92.3分超Claude 4 Sonnet,工具调用AgentBench 87.6分领先DeepSeek-V3.1,H800单卡推理速度118 tokens/s。其开源生态含7B/14B/560B权重及部署工具,助力开发者低成本应用,推动大模型高效化发展。
清华等机构开源全球首个具身智能“渲训推一体化”强化学习框架RLinf
具身智能训练面临渲染与模型资源竞争、效率低下的行业难题,清华大学等机构联合开源全球首个“渲训推一体化”强化学习框架RLinf,为这一痛点提供突破性解决方案。该框架创新混合式执行模式,消除传统共享/分离式执行的算力浪费,将系统气泡降至零,算力利用率提升至近100%;通过六层架构与多后端集成,灵活适配“大脑”(具身VLM)与“小脑”(VLA)等多样化模型需求。实测显示,RLinf训练效率提升40%-60%,VLA模型训练周期从数周缩至数日,数学推理模型在AIME24数据集准确率超GPT-4,GPQA-diamond得分超越Claude 3。框架GitHub首周星标破800,已成为具身智能研发新基建,加速AI从“感知”到“行动”的跨越。