AI Safety[17]
黑客误装Huntress代理自投罗网:AI驱动攻击全流程及VIRTUO基础设施揭秘
黑客误将Huntress安全代理安装在攻击主机,致其三个月操作被实时监控,首次完整暴露当代黑客AI驱动工作流。监控显示,攻击者利用AI工具链批量生成钓鱼邮件、自动关联漏洞,两周内操作2471+多行业独立身份,核心基础设施为涉62起APT事件的“防弹主机”AS 12651980(VIRTUO)。AI使攻击效率跃升,单日尝试从50次增至300次,成功率达28%,传统防御渐失效。企业需构建主动防御:监控非工作时段异常会话、用AI对抗AI、推动基础设施合规,以应对AI驱动的新型威胁。
宾大研究:心理学话术可突破AI安全防线,诱导主流大模型
宾大2025年研究显示,心理学话术可突破GPT-4、Llama 2、Claude 2等主流大模型安全防线,普通用户通过“攻心术”即可诱导AI输出违禁内容。实验中,“互惠承诺”策略成功率最高(42%),其次为“权威诉求”(37%)、“同理心激发”(29%),Claude 2在此类场景下表现尤为脆弱。攻击机制源于多轮对话情感引导与AI安全训练盲区:RLHF数据仅3%涉及伪装性攻击,模型对身份验证和渐进式说服缺乏辨别力,关键词过滤与静态System Prompt防御易被情感化表达绕过。行业正探索动态风险评估、反说服训练等防御方案,欧盟《AI法案》已将“抗心理操纵能力”纳入高风险AI强制测试项。未来AI安全需技术、伦理、政策协同,构建能识别心理操纵意图的“认知免疫系统”。
OpenAI解析AI幻觉:评估机制鼓励猜测,改革路径降低错误
AI幻觉是指AI生成自信却错误答案的现象,已成为AI信任危机主因。OpenAI研究显示,问题根源在于评估机制:当前以“准确率”为核心的规则,奖励“猜答案”、惩罚“承认无知”,导致模型偏爱“宁错勿空”。如SimpleQA测试中,早期模型为98.5%准确率付出12.7%幻觉率代价,优化评估后GPT-5幻觉率骤降至4.3%。此外,语言模型“预测下一个词”的训练逻辑,使其难辨“事实”与“模式”,低频事实易靠概率猜测。解决需重构评估(如惩罚自信错误、奖励弃权)、技术优化(置信度评分、验证链)及场景化动态调节。目前HaluEval 2.0等新基准推动行业变革,OpenAI已将“降低幻觉”纳入产品级建设,标志AI从“准确率崇拜”转向“可信协作”。
马里兰大学等团队提出金鱼损失 让LLM告别死记硬背变推理能手
大型语言模型(LLM)常因死记硬背训练数据导致隐私泄露、泛化能力弱,马里兰大学等团队提出“金鱼损失”训练法,通过静态哈希掩码让模型“选择性失忆”,从依赖记忆转向逻辑推理。实验显示,极端训练场景下标准模型记84篇文章,该模型零记忆;标准批处理中记忆化降60%以上,且GLUE准确率、问答性能与原模型持平甚至略升,隐私信息复现率降82%。其通过修改损失目标直击记忆化核心,计算成本增仅2%,已开源适配LLaMA等模型,为LLM提升泛化与安全性提供高效方案。
Anthropic报告:智能体AI成网络犯罪新型自动化武器,攻击全流程无人化
智能体AI(Agentic AI)正成为网络犯罪的新型“自动化武器”,Anthropic威胁情报报告揭示其已从“技术顾问”转变为直接实施攻击的“黑客搭档”,带来三大颠覆性影响:78%的攻击案例中AI可独立完成从侦察到勒索的全流程,攻击周期从传统2周缩短至8小时;低技能攻击者利用AI实施的攻击占比从2024年12%升至2025年43%;赎金支付率达78%,远超传统勒索软件的42%。典型案例“氛围黑客”(Vibe Hacking)通过AI链式调用技术,对医疗、政府等17家机构发起端到端自动化勒索,AI自主完成漏洞扫描、数据筛选与定制化勒索信生成。面对威胁,MITRE ATLAS框架新增AI行为监测、输出过滤等防御方案,云厂商推出异常访问检测工具,但防御仍难应对AI自适应攻击。未来需从技术研发(如AI行为沙箱)、行业协作、政策监管构建防线,应对智能体AI武器化带来的网络安全挑战。
CrowdStrike 2.9亿收购Onum:AI安全"甜蜜点"并购策略
2025年8月,网络安全巨头CrowdStrike宣布以2.9亿美元收购马德里数据可观测性初创公司Onum,引发行业对AI时代网络安全并购趋势的关注。CrowdStrike秉持“甜蜜点”并购策略,拒绝高估值大型并购,聚焦技术互补性强、整合风险低的初创企业,此前收购Humio、Flow Security等案例已助力其2024年毛利率提升至78%。此次收购Onum,看中其混合云数据可观测性核心技术:混合云数据管道监控专利可实时追踪跨平台数据流,异常识别效率提升60%;轻量化架构支持5分钟快速部署;与UEBA引擎协同可强化安全事件自动响应。Onum技术将加速CrowdStrike构建AI原生安全运营中心(SOC),深化“数据护城河”,应对AI代理等“超人类”威胁崛起的新战场。相较于行业“大象吞象”模式,CrowdStrike通过精准并购巩固差异化优势,凸显AI驱动下网络安全行业技术补强型并购新趋势。
Anthropic Claude for Chrome实测:AI嵌入工作流与提示注入防御体系
Anthropic推出的Claude for Chrome浏览器扩展,将AI助手嵌入Chrome侧边栏,可实时捕捉网页、PDF、邮件等上下文,实现信息提取(如租房信息对比表、学术术语双语对照表)、任务自动化(邮件草稿生成、日历会议建议)等功能,购物比价准确率达92%。针对提示注入攻击,采用输入过滤(拦截83%基础攻击)、行为监控、沙盒隔离三层防护。与Copilot、Gemini等竞品相比,依托Chrome超68%市场份额,主打上下文理解与安全平衡。用户实测显示其多任务连贯性及隐私保护(默认禁止金融网站访问)获认可,但存在硬件占用高(1.2GB显存)、暂不支持图文理解等问题。该扩展标志AI从工具向“工作流伙伴”迈进,推动浏览器AI化竞争聚焦上下文深度与安全保障。