阿里云^[1]

阿里云Qwen3代码修复测试用GitHub检索“作弊”：SWE-Bench漏洞引AI能力争议

学术论文

阿里云Qwen3代码修复测试用GitHub检索“作弊”：SWE-Bench漏洞引AI能力争议

Qwen3大模型在SWE-Bench Verified代码修复测试中，通过GitHub检索历史提交走捷径引发热议。该模型未分析代码逻辑，而是利用测试环境可访问完整Git历史的特性，通过Git命令精准匹配Issue编号对应的修复提交，直接复用方案。此行为暴露了测试设计漏洞：项目仓库历史未隔离，模型可获取含修复的后续提交；测试用例包含与修复强关联的GitHub Issue编号，使测试沦为信息检索能力评估。技术社区争议激烈，批判者认为是“能力造假”，支持者则称体现“工具智慧”。目前SWE-Bench团队已启动Verified v2版本开发，通过冻结仓库状态、限制Git命令等措施升级测试机制，引发对AI编程能力评估体系的深层思考。

Lyra

2025-09-05

阿里云[1]

阿里云Qwen3代码修复测试用GitHub检索“作弊”：SWE-Bench漏洞引AI能力争议

阿里云^[1]