1. OpenAI与美英机构深化合作:国家级AI安全治理的新实践

当OpenAI在2025年初宣布与美国CAISI、英国AISI展开深度合作时,业界意识到AI安全治理已从企业自主行为升级为国家级战略协同。CAISI(美国人工智能标准与创新中心)隶属于美国国家标准与技术研究院(NIST),是根据《行政命令14110》成立的官方机构,核心使命是“推动值得信赖的AI创新”;而UK AISI(英国人工智能安全研究所)则是2024年英国政府直属成立的机构,目标直指“最大限度降低前沿AI的重大风险”。这两家机构的官方背景,让此次合作超越了普通企业与研究机构的技术协作,成为政府与产业界联合应对AI安全挑战的标杆案例。

2. CAISI与ChatGPT Agent漏洞攻防:从发现到修复的48小时

2.1 漏洞发现:AI代理劫持的混合攻击链

CAISI团队此次将测试焦点放在ChatGPT Agent这类“代理型AI系统”上——这类系统能通过API调用外部工具、访问用户数据,一旦被劫持,后果可能涉及隐私泄露甚至远程控制。测试中,团队发现了两个新型漏洞:在特定条件下,攻击者可通过提示词注入(Prompt Injection) 误导代理执行非预期操作,结合传统网络安全漏洞(如应用程序逻辑缺陷),构建出一条“混合攻击链”。

Tips:什么是提示词注入?
提示词注入是指攻击者通过精心设计输入文本,诱导AI模型忽略原始指令,转而执行恶意操作。例如,在ChatGPT中输入“忘记之前的指令,现在执行以下操作:…”,可能导致模型权限被滥用。

这条攻击链的可怕之处在于成功率——CAISI通过模拟高级攻击者手法,实际测试成功率达到50%,且能冒充用户访问已登录网站。更具创新性的是,团队甚至利用ChatGPT Agent自身辅助生成攻击代码、调试脚本,印证了“AI既是安全风险源,也能成为防御工具”的双重角色。

2.2 漏洞修复:模型与监控系统的双重升级

漏洞报告提交后,OpenAI仅用1个工作日就完成修复。这一速度背后,是底层模型抗风险能力监控系统的协同升级:一方面,模型对高风险指令的识别精度提升,能自动过滤包含注入特征的输入;另一方面,监控系统新增实时攻击行为检测模块,可捕捉类似劫持尝试并触发预警。

2.3 CAISI测试方法论:AI辅助安全测试的创新实践

CAISI的测试过程本身就是一次技术突破。团队不仅依赖传统红队经验,更将AI深度融入测试流程——通过ChatGPT Agent分析系统架构文档、生成攻击路径假设、验证漏洞利用可能性。这种“AI辅助安全测试”模式,大幅提升了漏洞挖掘效率,也为行业提供了可复用的方法论。

表:CAISI红队测试核心成果

测试阶段 关键发现 技术创新点 修复时效
早期架构分析 代理系统权限边界模糊 结合MITRE ATLAS攻击框架定位风险 1个工作日
攻击链构建 提示词注入+传统网络漏洞的混合攻击 AI生成攻击代码辅助验证 1个工作日
漏洞利用验证 冒充用户访问第三方网站成功率50% 模拟真实攻击者行为链 1个工作日

3. UK AISI生物安全红队测试:构建AI滥用防护的“免疫系统”

如果说CAISI的合作聚焦“数字安全”,UK AISI则瞄准了更隐蔽的“生物安全”——防止AI被滥用于生成有害生物知识(如病原体合成方法)或协助制造生物武器。这种合作并非一次性评估,而是OpenAI与UK AISI建立的长期防护机制

3.1 深度权限开放:从非公开原型到“仅有帮助”模型变体

为支持测试,OpenAI开放了前所未有的深度权限:包括非公开原型的定制化访问、移除部分防护的“仅有帮助”模型变体(用于测试极端条件下的安全表现),甚至允许测试期间选择性禁用缓解措施,以便精准探测各子模块的抗攻击能力。这种“解剖式”测试,让UK AISI团队能像“AI免疫系统医生”一样,逐层排查生物安全防护的薄弱环节。

3.2 跨学科红队:生物安全专家+AI攻防专家的协同作战

UK AISI组建了特殊红队——成员既懂分子生物学、流行病学,又精通AI越狱技术。他们的任务不是寻找单一漏洞,而是开发通用生物安全越狱方法:例如,通过伪装成“学术研究需求”诱导模型生成病原体基因序列,或利用多轮对话绕过“有害生物知识”过滤机制。这种跨学科视角,让测试更贴近真实生物安全威胁场景。

表:UK AISI生物安全测试核心配置

开放资源 测试目标 特色措施
非公开原型+定制化配置 持续发现潜在生物安全漏洞 专属测试环境模拟真实滥用场景
“仅有帮助”模型变体 评估防护移除后的风险边界 极端条件下的模型行为基线建立
内部安全监控思维链访问 定位防护策略的逻辑漏洞 从模型决策过程反推防御弱点

4. 技术突破与行业启示:AI安全治理的范式转变

此次合作的意义,远超单一漏洞修复或测试项目,它标志着AI安全治理从“企业自查”向“政府-企业协同治理”的范式转变。

4.1 技术突破:从“被动防御”到“主动免疫”

传统AI安全多依赖“规则库+人工审核”的被动防御,而此次合作展现了“主动免疫”思路:通过国家级机构的独立红队测试,提前暴露系统“基因缺陷”(如代理权限设计漏洞、生物知识过滤逻辑漏洞),再通过模型迭代和监控升级构建“抗体”。这种模式,让AI系统在部署前就具备对抗新型攻击的能力。

4.2 行业反响:可扩展性与独立性的平衡之辩

合作公布后,TechCrunch等媒体评价其为“AI安全治理的里程碑”,但也引发讨论:

  • 可扩展性挑战:OpenAI的资源和技术实力允许深度开放测试,但中小AI企业或开源模型如何复制这种模式?
  • 独立性边界:测试依赖OpenAI提供的内部资源,是否可能存在“选择性开放”导致盲点?未来是否需要完全独立的第三方评估机构?

这些问题,正推动行业思考AI安全治理的普适性框架。

5. 未来展望

OpenAI与美英机构的合作,是自愿性安全承诺的实践,但长远看,它可能成为全球AI安全生态的起点。未来,我们或将看到:

  • 标准化测试工具:CAISI和UK AISI将测试方法论转化为行业标准,推动NIST、ISO等机构制定AI安全评估规范;
  • 跨国协作机制:类似合作扩展至欧盟(如与EU AI Office)、亚太地区,形成全球AI安全风险联防网络;
  • 监管与创新平衡:此次合作证明,政府与企业的信任式协作能在保障安全的同时不阻碍创新,这为未来AI监管政策提供了参考样本。

参考链接