腾讯AI Lab提出Parallel-R1框架:强化学习赋能大模型并行思维,数学推理AIME25测试性能提升42.9%
腾讯AI Lab联合高校发布Parallel-R1强化学习框架,首次以RL技术为大模型注入“并行思维”,解决传统SFT泛化差、数据成本高难题。该框架在通用数学推理任务平均准确率提升8.4%,高难度AIME25测试性能跃升42.9%,刷新AI复杂推理天花板,开创大模型能力培养新范式。
聚焦技术框架与工具库的更新