强化学习[5]
腾讯AI Lab提出Parallel-R1框架:强化学习赋能大模型并行思维,数学推理AIME25测试性能提升42.9%
腾讯AI Lab联合高校发布Parallel-R1强化学习框架,首次以RL技术为大模型注入“并行思维”,解决传统SFT泛化差、数据成本高难题。该框架在通用数学推理任务平均准确率提升8.4%,高难度AIME25测试性能跃升42.9%,刷新AI复杂推理天花板,开创大模型能力培养新范式。
RunRL强化学习即服务平台发布:小模型在专业任务上超越大模型
强化学习因算法复杂、算力需求高及专业知识依赖,长期让中小团队却步。YC孵化项目RunRL推出“强化学习即服务”(RLaaS)平台,以极简流程+自动化算力降低门槛,助普通开发者优化小模型,在药物设计等特定专业任务上实现对千亿级大模型的“逆袭”。
字节跳动发布AgentGym-RL:多轮智能体强化学习框架,摒弃监督微调性能超商业模型
字节跳动推出业界首个统一多轮智能体强化学习框架AgentGym,采用纯强化学习路径,无需监督微调,智能体通过与环境交互自主掌握多样化任务。框架含AgentEvo环境集合及模块化设计,覆盖网页交互、游戏策略、具身智能、科学数据分析等27项任务,多项核心指标超越主流商业模型。
全球最快开源大模型K2 Think推出:推理速度突破2000 tokens/秒,刷新性能纪录
K2 Think开源大模型发布,推理速度突破2000 tokens/秒(最高2730.4),成已知最快开源大模型之一。基于通义千问Qwen 2.5-32B架构,数学推理表现优异(AIME’24得分90.83),依托六大技术创新支撑高速与精准。基于通义千问架构,已在HuggingFace等开源平台发布,助力AI技术普及。
DeepMind、IntrinsicAI与UCL联合研发RoboBallet:8台机器人高效协同AI系统
【RoboBallet:DeepMind联合研发的多机器人AI协同系统,革新工业自动化效率】由Google DeepMind、IntrinsicAI与伦敦大学学院(UCL)联合推出的RoboBallet,是基于分层强化学习的突破性AI系统,首次实现8台机器人全流程自动化协同。其核心“高层任务分配+底层轨迹优化”架构,结合时空冲突预测模型,使规划效率提升25%,碰撞率从8%降至0.3%,如精密芭蕾舞团般流畅协作。
该系统融合三方优势:DeepMind提供强化学习算法框架与仿真迁移技术,IntrinsicAI的工业机器人OS实现毫秒级硬件对接(支持KUKA、ABB等),UCL贡献多智能体协调算法。已在电子制造(电路板组装效率提升25%)、物流分拣(亚马逊仓库小件分拣效率提升33%)等场景验证,支持动态共享空间作业,空间利用率提升40%,推动制造业向“小批量、多品种”柔性生产转型。作为多机器人协同的里程碑,RoboBallet正重塑工业自动化、智能物流的协作范式。