软件开发[20]

全新基准SWE-rebench发布:标准化、透明化评估软件工程LLM

大型语言模型(LLM)正重塑软件工程,GitHub Copilot、ChatGPT等成开发者工具,但现有评估存数据污染、脚手架差异等痛点。全新基准SWE-rebench通过去污染数据集、统一ReAct框架、透明化流程等,解决评估不公问题,为LLM软件工程能力提供标准化衡量方案,推动行业从"指标优化"转向核心能力提升。

METR研究:AI工具或延长开发者任务时间,能力每7个月翻番

METR研究显示,经验丰富的开源开发者使用最新AI工具后任务时间延长19%,但AI长任务能力正指数级增长(每7个月翻一番)。该机构以每小时50美元招募全球开源开发者,在真实场景中探索AI应用瓶颈,助力优化评估框架,推动技术实用化。

OpenAI GPTeam 2025 ICPC世界决赛斩获满分 成首支AI冠军团队

2025年9月,OpenAI通用推理模型GPTeam在ICPC世界总决赛中与人类冠军团队并列满分,系AI首次达编程界顶级赛事人类顶尖水平。该模型凭多模态理解、自动调试及团队协作模拟技术突破,标志通用人工智能在复杂推理领域里程碑,将重塑编程教育、科研协作与问题解决模式。

慕尼黑工业大学GUIRepair登顶SWE-bench多模态榜单 自动化视觉软件缺陷修复迎来新里程碑

慕尼黑工大GUIRepair框架实现前端视觉bug自动修复突破,以多模态“看见即修复”理念,通过Image2Code和Code2Image组件实现视觉与代码双向理解,登顶SWE-bench Multimodal榜单,修复成功率35.98%刷新SOTA,开启多模态软件工程新范式,提升前端开发效率。

VS Code Insiders测试200K上下文窗口:GPT-5与Claude Sonnet 4迎来新突破

微软VS Code Insiders开启200K token上下文窗口实验,解决AI编程助手因上下文过长"断片"问题。该功能需搭配GitHub Copilot Chat使用,支持Claude 3系列超长上下文,可轻松处理数万行代码、跨文件逻辑关联,助力开发者实现全局视角开发,提升AI协作效率。

OpenAI推出GPT-5-Codex:智能编程迈入新时代,Codex平台全面升级

OpenAI 2025年发布GPT-5-Codex,深度优化的AI编程助手。核心“agentic coding”实现从辅助到自主协作,能主动规划任务、处理复杂项目(如大规模重构),动态平衡效率与深度:简单任务token减93.7%,复杂任务推理时间翻倍。结合Codex CLI开源及IDE扩展,重新定义开发者与AI协作,提升开发效率。

Cursor AI Tab模型升级:在线强化学习实现建议“少而精”,采纳率提升28%

Cursor AI Tab补全模型默认升级,采用在线强化学习技术,实现“更少建议,更高采纳率”。新模型通过用户交互实时学习,建议数量减少21%,采纳率提升28%,能个性化适配编码习惯,减少认知负担,助力开发者提升编码效率。

NVIDIA发布SATLUTION:LLM自主进化SAT求解器

布尔可满足性问题(SAT)作为NP完全问题,是芯片验证、漏洞检测等领域的技术基石。传统SAT求解器依赖专家手工优化,面临代码复杂、迭代低效瓶颈。NVIDIA推出SATLUTION框架,以LLM驱动完整代码库进化,通过AI自主迭代与分布式验证,在国际竞赛中超越人类冠军方案,多场景性能领先,开启AI重塑复杂系统开发新范式。

谷歌AI新突破:融合LLM与树搜索,自动生成专家级科研软件性能超越人类

谷歌AI团队2025年9月发布里程碑成果:科研软件自动生成系统,通过LLM与树搜索算法深度结合,实现多源知识整合与代码迭代创新。该系统在基因组学(单细胞RNA测序性能提升14%)、地理空间分析(卫星图像分割IoU超0.80)、神经科学(模型训练提速数级)等多领域突破,推动AI从自动化工具升级为科研创新“思想引擎”。

Cognition融资4亿估值102亿,AI编程代理赛道迎里程碑

2024年AI编程代理赛道迎来里程碑,Cognition公司完成4.1亿美元融资,投后估值达102亿美元,由硅谷顶级风投Founders Fund领投,Lux、8VC等现有投资者及Bain Capital Ventures等新资本加持。其核心产品Devin作为“端到端自动化编程代理”,颠覆传统代码辅助工具,具备从需求到部署的全流程开发能力,代码生成准确率超90%,可替代20%-30%常规开发任务,实现从“辅助”到“独立代理”的跨越。本轮资金将用于Devin技术研发与全球扩张,推动AI编程进入“人机协作”新纪元,凸显资本市场对AI重构软件开发模式的高度认可。