标签：软件开发

学术论文

全新基准SWE-rebench发布：标准化、透明化评估软件工程LLM

大型语言模型（LLM）正重塑软件工程，GitHub Copilot、ChatGPT等成开发者工具，但现有评估存数据污染、脚手架差异等痛点。全新基准SWE-rebench通过去污染数据集、统一ReAct框架、透明化流程等，解决评估不公问题，为LLM软件工程能力提供标准化衡量方案，推动行业从"指标优化"转向核心能力提升。

Lyra

2025-09-20

METR研究：AI工具或延长开发者任务时间，能力每7个月翻番

前沿资讯

METR研究：AI工具或延长开发者任务时间，能力每7个月翻番

METR研究显示，经验丰富的开源开发者使用最新AI工具后任务时间延长19%，但AI长任务能力正指数级增长（每7个月翻一番）。该机构以每小时50美元招募全球开源开发者，在真实场景中探索AI应用瓶颈，助力优化评估框架，推动技术实用化。

Lyra

2025-09-19

前沿资讯

OpenAI GPTeam 2025 ICPC世界决赛斩获满分成首支AI冠军团队

2025年9月，OpenAI通用推理模型GPTeam在ICPC世界总决赛中与人类冠军团队并列满分，系AI首次达编程界顶级赛事人类顶尖水平。该模型凭多模态理解、自动调试及团队协作模拟技术突破，标志通用人工智能在复杂推理领域里程碑，将重塑编程教育、科研协作与问题解决模式。

Lyra

2025-09-18

慕尼黑工业大学GUIRepair登顶SWE-bench多模态榜单自动化视觉软件缺陷修复迎来新里程碑

前沿资讯

慕尼黑工业大学GUIRepair登顶SWE-bench多模态榜单自动化视觉软件缺陷修复迎来新里程碑

慕尼黑工大GUIRepair框架实现前端视觉bug自动修复突破，以多模态“看见即修复”理念，通过Image2Code和Code2Image组件实现视觉与代码双向理解，登顶SWE-bench Multimodal榜单，修复成功率35.98%刷新SOTA，开启多模态软件工程新范式，提升前端开发效率。

Lyra

2025-09-17

产品速递

VS Code Insiders测试200K上下文窗口：GPT-5与Claude Sonnet 4迎来新突破

微软VS Code Insiders开启200K token上下文窗口实验，解决AI编程助手因上下文过长"断片"问题。该功能需搭配GitHub Copilot Chat使用，支持Claude 3系列超长上下文，可轻松处理数万行代码、跨文件逻辑关联，助力开发者实现全局视角开发，提升AI协作效率。

Lyra

2025-09-17

OpenAI推出GPT-5-Codex：智能编程迈入新时代，Codex平台全面升级

前沿资讯

OpenAI推出GPT-5-Codex：智能编程迈入新时代，Codex平台全面升级

OpenAI 2025年发布GPT-5-Codex，深度优化的AI编程助手。核心“agentic coding”实现从辅助到自主协作，能主动规划任务、处理复杂项目（如大规模重构），动态平衡效率与深度：简单任务token减93.7%，复杂任务推理时间翻倍。结合Codex CLI开源及IDE扩展，重新定义开发者与AI协作，提升开发效率。

Lyra

2025-09-16

Cursor AI Tab模型升级：在线强化学习实现建议“少而精”，采纳率提升28%

产品速递

Cursor AI Tab模型升级：在线强化学习实现建议“少而精”，采纳率提升28%

Cursor AI Tab补全模型默认升级，采用在线强化学习技术，实现“更少建议，更高采纳率”。新模型通过用户交互实时学习，建议数量减少21%，采纳率提升28%，能个性化适配编码习惯，减少认知负担，助力开发者提升编码效率。

Lyra

2025-09-12

NVIDIA发布SATLUTION：LLM自主进化SAT求解器

前沿资讯

NVIDIA发布SATLUTION：LLM自主进化SAT求解器

布尔可满足性问题（SAT）作为NP完全问题，是芯片验证、漏洞检测等领域的技术基石。传统SAT求解器依赖专家手工优化，面临代码复杂、迭代低效瓶颈。NVIDIA推出SATLUTION框架，以LLM驱动完整代码库进化，通过AI自主迭代与分布式验证，在国际竞赛中超越人类冠军方案，多场景性能领先，开启AI重塑复杂系统开发新范式。

Lyra

2025-09-12

谷歌AI新突破：融合LLM与树搜索，自动生成专家级科研软件性能超越人类

前沿资讯

谷歌AI新突破：融合LLM与树搜索，自动生成专家级科研软件性能超越人类

谷歌AI团队2025年9月发布里程碑成果：科研软件自动生成系统，通过LLM与树搜索算法深度结合，实现多源知识整合与代码迭代创新。该系统在基因组学（单细胞RNA测序性能提升14%）、地理空间分析（卫星图像分割IoU超0.80）、神经科学（模型训练提速数级）等多领域突破，推动AI从自动化工具升级为科研创新“思想引擎”。

Lyra

2025-09-11

Cognition融资4亿估值102亿，AI编程代理赛道迎里程碑

市场动态

Cognition融资4亿估值102亿，AI编程代理赛道迎里程碑

2024年AI编程代理赛道迎来里程碑，Cognition公司完成4.1亿美元融资，投后估值达102亿美元，由硅谷顶级风投Founders Fund领投，Lux、8VC等现有投资者及Bain Capital Ventures等新资本加持。其核心产品Devin作为“端到端自动化编程代理”，颠覆传统代码辅助工具，具备从需求到部署的全流程开发能力，代码生成准确率超90%，可替代20%-30%常规开发任务，实现从“辅助”到“独立代理”的跨越。本轮资金将用于Devin技术研发与全球扩张，推动AI编程进入“人机协作”新纪元，凸显资本市场对AI重构软件开发模式的高度认可。

Lyra

2025-09-10

软件开发[30]

软件开发^[30]