智能体[35]

OpenAI董事长Bret Taylor:AI代理重塑客户服务,AI热潮再现互联网泡沫盛况

硅谷老兵、OpenAI前董事长Bret Taylor创立Sierra,以AI代理重塑客户服务。其AI代理具备自主性,可理解需求、访问企业系统执行复杂任务(如套餐变更),区别于传统聊天机器人。采用“按成功处理案例收费”模式,已助力企业处理70%-80%客服请求,平均耗时2分钟,大幅降本增效。

LiveMCP-101框架:开启AI智能体真实世界评估新阶段

AI智能体评估存在“模拟到现实鸿沟”,虚拟测试难测真实可靠性。微软与北大联合发布LiveMCP-101,系首个直接交互真实计算机系统的评估协议,含101项任务,覆盖系统操作、网络管理、安全响应等真实场景,解决传统虚拟测试局限,推动AI从实验室到真实世界的可靠落地。

OpenAI深化美英合作升级AI安全标准 联合红队测试聚焦代理系统与生物安全

OpenAI与美英机构深化AI安全合作,联合CAISI、AISI推动治理升级。CAISI发现ChatGPT Agent提示词注入漏洞,48小时完成模型与监控双重修复;UK AISI开展生物安全测试,构建长期防护机制。此次合作标志AI安全从企业自查迈向政企协同,为行业提供可复用测试方法论。

高德AI出行智能体“小高老师”月活破4亿 日调用量达12亿次

高德AI出行智能体“小高老师”上线不足一月月活破4亿,日调用达12亿次。支持自然语言交互,融合海量POI与实时数据,提供个性化行程规划、酒店预订等一站式服务,推动地图从工具进化为“先于思考”的智能决策伙伴,开启出行“智能体时代”。

字节跳动发布AgentGym-RL:多轮智能体强化学习框架,摒弃监督微调性能超商业模型

字节跳动推出业界首个统一多轮智能体强化学习框架AgentGym,采用纯强化学习路径,无需监督微调,智能体通过与环境交互自主掌握多样化任务。框架含AgentEvo环境集合及模块化设计,覆盖网页交互、游戏策略、具身智能、科学数据分析等27项任务,多项核心指标超越主流商业模型。

上交大开源MobiAgent:全栈移动端AI Agent工具链

上海交大IPADS实验室开源MobiAgent移动端AI智能体工具链,含数据收集、训练、推理加速、自动评测四大模块,支持定制手机AI助手。7B参数模型性能超越GPT-5,AgentRR“肌肉记忆”技术提速2-3倍,端侧处理保障隐私,低功耗降30%-50%能耗,全流程工具链大幅降低开发门槛。

Cognition融资4亿估值102亿,AI编程代理赛道迎里程碑

2024年AI编程代理赛道迎来里程碑,Cognition公司完成4.1亿美元融资,投后估值达102亿美元,由硅谷顶级风投Founders Fund领投,Lux、8VC等现有投资者及Bain Capital Ventures等新资本加持。其核心产品Devin作为“端到端自动化编程代理”,颠覆传统代码辅助工具,具备从需求到部署的全流程开发能力,代码生成准确率超90%,可替代20%-30%常规开发任务,实现从“辅助”到“独立代理”的跨越。本轮资金将用于Devin技术研发与全球扩张,推动AI编程进入“人机协作”新纪元,凸显资本市场对AI重构软件开发模式的高度认可。

百度文心大模型X1.1发布:三大核心能力跨越式提升,技术突破落地多场景

2025年WAVE SUMMIT大会上,百度发布文心大模型X1.1,实现事实性准确率提升34.8%、指令遵循优化12.5%、智能体能力增强9.6%,整体表现比肩GPT-5与Gemini 2.5 Pro。实测中,模型在逻辑推理(如"星球版农夫过河"问题)、事实检验(郑和下西洋伪史纠偏)、智能体多工具协同(小红书露营文案生成)等场景展现强落地能力。技术上采用混合强化学习与自蒸馏数据闭环,叠加思维链+行动链等三大模块强化推理与执行精度。同步升级的飞桨3.2框架,训练MFU达47%、推理2比特压缩降本增效,开源ERNIE-4.5-21B支持中小团队低成本开发。飞桨开发者超2333万,推动AI技术普惠与行业应用落地。

MIT团队DSPy框架:以模块化编程重塑LLM应用开发流程

DSPy框架是MIT主导的开源LLM应用开发工具,以“签名式编程”为核心,通过结构化代码替代传统提示词工程,显著提升复杂AI任务开发效率。其“签名-模块-优化器”三位一体架构,支持任务接口标准化(签名定义输入输出)、LLM调用逻辑封装(内置ChainOfThought、ReAct等模块)及自动化性能优化(如BootstrapFewShot、GEPA等工具),解决了提示词碎片化、系统难维护等痛点。GEPA框架结合遗传算法与帕累托优化,实现多目标(准确率、延迟等)平衡,适用于客服智能体等复杂场景。实战案例Support-Sam客服智能体基于DSPy构建,以不足200行代码实现工单分类、知识库检索等全流程自动化。目前,Shopify、DeepLearning.AI等机构已将其用于生产环境,推动LLM应用开发从“作坊式调优”迈向工程化、模块化新阶段。

月之暗面Kimi K2 0905升级:智能体能力跃升+256K上下文窗口翻倍

月之暗面Kimi K2 0905版本升级带来两大核心突破:智能体(Agentic)能力跃升与上下文窗口翻倍至256K tokens,参数量稳定1T级别,为开发者与企业提供平滑过渡基础。智能体能力方面,Terminal-Bench Hard复杂编程测试得分从14%升至23%,Tau2-Bench Telecom智能体聊天测试从61%提至73%,背后推理链优化算法通过动态拆解任务、实时调试反馈,使复杂指令错误率降40%。256K上下文窗口(约50万字)依托稀疏注意力与动态缓存技术实现,长文档关键信息召回率达92.3%,可一次性处理2000页司法卷宗(如“三体著作权案”材料)、10万分子式数据库或3年工程运维日志,助力律师分析时间从3天缩至4小时、药物筛选从1周减至2小时。目前企业尽调效率提升3倍,咨询行业已应用,虽存在功耗增18%、数据安全需求等挑战,仍推动AI从“执行指令”向“自主解决问题”进化。