大语言模型[119]

马里兰大学等团队提出金鱼损失 让LLM告别死记硬背变推理能手

大型语言模型(LLM)常因死记硬背训练数据导致隐私泄露、泛化能力弱,马里兰大学等团队提出“金鱼损失”训练法,通过静态哈希掩码让模型“选择性失忆”,从依赖记忆转向逻辑推理。实验显示,极端训练场景下标准模型记84篇文章,该模型零记忆;标准批处理中记忆化降60%以上,且GLUE准确率、问答性能与原模型持平甚至略升,隐私信息复现率降82%。其通过修改损失目标直击记忆化核心,计算成本增仅2%,已开源适配LLaMA等模型,为LLM提升泛化与安全性提供高效方案。

香港理工大学与达特茅斯学院团队:Prophet解码策略大幅加速扩散语言模型推理

扩散语言模型(DLMs)因并行解码潜力被视为文本生成新方向,但推理效率瓶颈限制其落地。香港理工大学与达特茅斯学院团队发现“早期答案收敛”现象:DLMs在解码早期(20%-40%迭代步数)即可形成稳定语义,后续多为局部优化。基于此提出的Prophet解码策略,通过监测top-2候选token置信度间隙动态停止推理,实现2.8-3.4倍加速,准确率仅微降(如GSM8K加速3.2倍,准确率降0.3%)。该“即插即用”算法无需额外训练,适配主流DLM模型,可将响应延迟压缩至亚秒级,助力智能客服、实时翻译等场景落地,为边缘设备部署开辟路径,推动扩散语言模型从实验室走向产业应用。

微软BitNet.cpp开源:CPU成百亿大模型新引擎,提速6倍降能耗82%

微软开源的BitNet.cpp框架,基于创新1-bit量化技术,让普通CPU成为百亿大模型新引擎,彻底摆脱GPU依赖。该技术通过二进制权重压缩,减少约90%内存占用,精度仅降2.3%。实测显示,消费级CPU运行100B模型推理速度达28.6 tokens/秒,较传统GPU方案提升6.17倍,能耗降低82.2%,内存节省81.6%。框架支持Llama3、Falcon3等主流模型,可广泛应用于边缘计算、个人AI助手、企业降本等场景。其开源特性推动AI民主化,加速“硬件去依赖”趋势,显著降低大模型推理门槛。

OpenAI启动「OpenAI for Science」:GPT-5驱动科学发现新范式

OpenAI正式启动「OpenAI for Science」计划,聚焦AI驱动科学发现,以顶尖学者团队与GPT-5等新一代AI模型为核心支撑。GPT-5凭借逻辑推理与复杂系统建模能力,已在数学优化(17分钟提升经典论文边界值50%)、量子场论(首次扩展高能物理理论框架)、蛋白质设计(与Retro Biosciences合作提升干细胞分化效率30%)、免疫学(加速实验设计与数据分析)等领域实现突破,推动科学研究从「AI辅助」向「虚拟科学家」范式转变。该计划正筹备组建精英团队,预计2025年开放工具平台测试,开启AI赋能基础科学新篇。

腾讯AI Lab TiG框架:14B小模型《王者荣耀》策略超越671B大模型,决策可解释

腾讯AI Lab发布的Think-In-Games(TiG)框架,重新定义了游戏AI决策范式。该框架通过“双循环协同机制”,让140亿参数(14B)大模型在《王者荣耀》中展现超越6710亿参数(671B)模型的策略精度,首次实现游戏决策可解释性。其核心创新在于外层LLM生成自然语言策略(如“优先控制中路视野”),内层强化学习模型执行并反馈,配合GRPO算法实现低成本训练(成本仅为千亿级模型的1/8),宏观动作准确率达90.91%。TiG已应用于《王者荣耀》人机模式升级及《穿越火线》等FPS游戏,未来有望从游戏拓展至自动驾驶、金融风控等领域,为通用AI决策提供高效范式。

智谱AI GLM-4.5登顶伯克利工具调用榜单 性能领先成本仅Claude 1.4%

【GLM-4.5开源大模型登顶伯克利工具调用榜单,AI编程性价比新标杆】智谱AI发布的GLM-4.5大模型在伯克利工具调用排行榜中以94.3%任务完成率超越Claude Opus 4.1(91.2%),运行成本仅为其1.4%,推理速度达280 tokens/秒(Claude Opus 4.1为93 tokens/秒),成当前性价比领先的AI编程解决方案。该模型采用MoE架构,动态激活专家网络提升效率,支持Python、Java等10余种编程语言跨文件调用,已集成VS Code、IntelliJ等IDE插件,覆盖代码生成、调试全流程。开源特性使企业部署成本压缩90%以上,中小团队与开发者可低成本接入顶级AI编程能力,推动行业工具调用效率与成本平衡革新。

美团首秀开源大模型Longcat-Flash-Chat:高性能低成本MoE架构突破

美团正式发布首个开源大模型Longcat-Flash-Chat,定位“高性能、低成本、易部署”通用AI模型,标志其切入通用人工智能赛道。该模型基于560B混合专家(MoE)架构,通过“零计算专家”和跨层并行通信创新,实现动态激活参数18.6B-31.3B调节,推理成本低至0.7美元/百万输出token。性能上,编程能力TerminalBench达92.3分超Claude 4 Sonnet,工具调用AgentBench 87.6分领先DeepSeek-V3.1,H800单卡推理速度118 tokens/s。其开源生态含7B/14B/560B权重及部署工具,助力开发者低成本应用,推动大模型高效化发展。

xAI grok-code-fast-1代码模型实测:速度快50%,效率跃升显著

xAI推出的代码生成模型grok-code-fast-1正引发开发者热议,以“速度与质量双重飞跃”显著提升开发效率。开发者实测显示,其响应延迟普遍低于2秒,代码补全准确率达89%,可将数周复杂任务压缩至数小时完成,尤其擅长解析“模糊需求”直接输出完整代码。技术上,该模型基于MoE架构优化专家路由机制,并搭配自研Synapse推理引擎,动态分配算力实现高效推理。对比竞品Anthropic Sonnet-4,其吞吐量快近50%(87 TPS vs 60 TPS),HumanEval准确率领先7.3个百分点,在8k tokens内稳定性更适配日常迭代开发。目前模型处于早期测试阶段,免费试用延长至9月10日,正吸引注重效率的工程师群体,未来有望在代码生成领域形成三足鼎立格局。

英伟达Q2营收467亿创新高,股价下跌引AI周期市场分歧

英伟达2026财年Q2财报亮眼,营收达467亿美元创纪录,同比增长56%,数据中心业务以411亿美元营收占比88%,核心驱动力为Blackwell平台规模商用。该平台在MLPerf测试中性能领先,AI推理效率提升一个数量级,已落地特斯拉自动驾驶、梅奥诊所药物研发等场景。不过财报公布后股价盘后一度跌超5%,主因云厂商Q3资本开支增速放缓至15%引发采购担忧,叠加年内股价累涨58%后获利了结。长期看,英伟达全栈AI转型成效显著,软件收入同比增120%,300万开发者生态巩固技术壁垒,Blackwell在千亿模型场景的效率优势或成平衡周期波动关键。