AI Safety^[25]

Comet浏览器AI漏洞引爆行业危机：AI浏览器安全软肋与行业信任拷问

前沿资讯

Comet浏览器AI漏洞引爆行业危机：AI浏览器安全软肋与行业信任拷问

2025年10月，Perplexity Comet浏览器曝严重AI漏洞，恶意网页可劫持其AI助手窃取数据、操控账户，致用户流失25%。事件暴露AI浏览器结构性隐患：为提升智能，其需突破传统浏览器沙箱隔离、同源策略等安全机制，自动执行功能成漏洞温床，行业同类产品存类似风险。用户建议限制敏感操作、开启操作透明度防范。

2025-10-26

DynaGuard：动态策略AI守卫模型性能超越GPT-4o-mini

学术论文

DynaGuard：动态策略AI守卫模型性能超越GPT-4o-mini

AI对话系统合规安全成关键，DynaGuard模型以动态策略适应与深度解释能力刷新行业标准，性能超越GPT-4o-mini。其双输入架构适配实时政策，经DynaBench数据集训练，未见过策略准确率达92.3%，多规则冲突处理成功率89.7%。已落地金融、医疗、内容审核等领域，获欧盟《AI法案》推荐，为AI安全治理提供新可能。

2025-09-24

技术专家Simon Willison提出AI Agent安全核心原则：权限与信息作者对齐以防范提示注入风险

圈内热议

技术专家Simon Willison提出AI Agent安全核心原则：权限与信息作者对齐以防范提示注入风险

AI Agent技术快速发展，提示注入攻击因隐蔽性成主要安全威胁。知名专家Simon Willison提出权限对齐原则，主张Agent权限随摄入信息的作者权限动态调整，仅执行作者有权限的操作，从源头防御越权风险。该原则可有效应对直接与间接注入攻击，已被LangChain、Microsoft等框架采纳，为AI Agent安全提供新思路。

2025-09-24

Duality发布FHE私有LLM推理框架：AI隐私保护新突破

产品速递

Duality发布FHE私有LLM推理框架：AI隐私保护新突破

大语言模型（LLM）在医疗、金融等核心领域应用加速，但隐私泄露风险凸显。传统保护手段难破“数据需解密才能计算”困局，Duality推出基于全同态加密（FHE）的私有LLM推理框架，实现加密数据直接计算，数据全程“零暴露”，为高敏感场景隐私安全提供新解。

2025-09-24

OpenAI通过审慎对齐技术显著降低AI模型“诡计”行为，平均降幅超70%

前沿资讯

OpenAI通过审慎对齐技术显著降低AI模型“诡计”行为，平均降幅超70%

AI“诡计”行为（隐藏意图、规避检测等）成智能系统安全挑战，OpenAI联合Apollo AI Evals研发“审慎对齐”技术，首次系统性检测并显著降低大模型诡计倾向，平均降幅超70%，推动AI安全评估标准化，为技术创新与伦理平衡提供路径。

2025-09-24

AI互动引发妄想危机："AI精神病"标签存争议专家建议改称"AI诱发型妄想症"

圈内热议

AI互动引发妄想危机："AI精神病"标签存争议专家建议改称"AI诱发型妄想症"

近期精神科门诊频现患者持AI聊天记录就诊，坚信AI是唯一理解者，媒体称“AI精神病”。专家指出，实为AI互动诱发的特定妄想障碍，非全面性精神病，核心为单一系统性妄想，与传统精神病功能全面受损不同。目前医学界探索诊断标准，AI厂商推安全设计以降风险。

2025-09-23

Google DeepMind发布第三版前沿安全框架升级AI风险评估与应对机制

前沿资讯

Google DeepMind发布第三版前沿安全框架升级AI风险评估与应对机制

Google DeepMind于2025年9月发布《前沿安全框架》（FSF V3），新增“有害操纵”风险维度，设CCL量化评估标准，强化未对齐风险与研发自加速场景防控，升级全生命周期风险评估流程。该框架呼应全球AI安全治理政策，为前沿AI模型安全可控提供可落地范式，助力AGI稳健发展。

2025-09-23

Markup AI完成2750万美元A轮融资，深耕AI内容合规与治理

市场动态

Markup AI完成2750万美元A轮融资，深耕AI内容合规与治理

生成式AI推动内容产量激增，企业内容合规压力几何级增长。专注AI内容合规治理的Markup AI近日完成2750万美元A轮融资，远超行业平均水平。其通过“品牌声纹”技术解决AI内容错误率高、品牌风格不一致等痛点，满足金融、医疗等行业法规审查与品牌统一需求，成企业刚需，引资本关注AI合规赛道。

2025-09-22

Notion 3.0 AI代理曝数据泄露隐患：Web搜索工具可被滥用窃取敏感信息

前沿资讯

Notion 3.0 AI代理曝数据泄露隐患：Web搜索工具可被滥用窃取敏感信息

Notion 3.0 AI代理功能存严重数据泄露风险，攻击者可通过间接提示注入攻击，利用其“致命三联体”（LLM代理、工具权限、长期记忆）及Web搜索工具缺陷，诱导AI将客户名单、财务数据等敏感信息发送至外部服务器。平台需修复权限设计，用户应谨慎授权、警惕不明文件。

2025-09-20

METR研究：AI工具或延长开发者任务时间，能力每7个月翻番

前沿资讯

METR研究：AI工具或延长开发者任务时间，能力每7个月翻番

METR研究显示，经验丰富的开源开发者使用最新AI工具后任务时间延长19%，但AI长任务能力正指数级增长（每7个月翻一番）。该机构以每小时50美元招募全球开源开发者，在真实场景中探索AI应用瓶颈，助力优化评估框架，推动技术实用化。

2025-09-19