智能体[35]

Vercel与OpenAI联合发布开源AI编码平台,GPT-5智能体重构开发流程

Vercel与OpenAI联合发布开源AI编码平台,整合Vercel AI SDK、Gateway、Sandbox技术栈与GPT-5智能体循环,实现AI智能体对代码开发全流程的自主管理,支持从文件生成、命令执行、依赖安装到错误修复的端到端开发,开发者仅需一句指令即可触发。平台四大核心模块构建安全闭环:AI SDK提供标准化接口兼容主流大模型,Gateway管控资源权限与操作日志,Sandbox通过微虚拟机隔离环境保障安全,GPT-5智能体循环具备任务规划、工具调用与结果验证能力。该开源平台(代码托管于GitHub)显著降低原型开发门槛,72%测试者反馈可将MVP搭建时间缩短80%,适用于教育、创业团队等场景,推动AI编码工具从“片段辅助”向“全流程伙伴”升级。

英伟达UDR:策略驱动破解智能体痛点,重构AI研究范式

英伟达通用深度研究系统(UDR)针对金融、医药等领域深度研究智能体(DRT)的模型绑定、策略固化、资源浪费痛点,以“策略驱动”重构AI研究范式。通过解耦LLM与研究逻辑,支持自然语言定制策略、多模型自由接入(如GPT-4、Llama 3协同)及资源精细化控制(GPU占用缩短70%),实现研究效率提升60%、LLM调用成本降低40%。其“两层分离”架构(用户界面层+代理逻辑层)与策略编译、模型适配器等技术,已在金融并购分析(风险评估效率跃升)、医药研发(FDA报告分析时间缩至3小时)等场景验证价值。虽处原型阶段,但其灵活适配高价值研究需求,正推动AI智能体从工具绑定迈向策略自由。

上海AI Lab发布自主科学发现综述,提出Agentic Science框架并上线Intern-Discovery平台

上海人工智能实验室(上海AI Lab)联合顶尖机构发布综述《A Survey on Autonomous Scientific Discovery》,首次提出“Agentic Science”(科研智能体)理论框架,揭示AI从“被动工具”到“主动科研驱动者”的进化路径,标志科学研究迈入AI自主发现新纪元。综述将AI科研角色划分为四阶段:Level 1计算工具(如AlphaFold)、Level 2自动化助理、Level 3自主合伙人(如斯坦福Coscientist系统7分钟合成药物)、Level 4生成式架构师(如伯克利A-Lab 8个月发现41种新材料)。 AI科研智能体依托规划推理、工具使用等五大核心能力,通过动态闭环科研流程,已在生命科学(酶催化效率提升10倍)、材料科学(缩短超导材料发现周期)等多领域突破。上海AI Lab同步上线的Intern-Discovery平台,兼容38种实验室设备接口,支持AI直接操控硬件,降低自主科研门槛,推动跨学科协作。该综述为AI驱动的自主科学发现提供理论蓝图,开启科研范式革新新阶段。

Hello Patient以AI破解医疗沟通"前门危机",解放医护提升效率

医疗沟通“前门危机”下,患者联系诊所近半数尝试未果,医护41%工作时间耗于电话协调,致诊所年均损失18.7万美元。Hello Patient以会话式AI代理破局,通过深度集成EHR系统与HIPAA合规加密技术,自动化预约、分诊等沟通场景,释放医护回归诊室。该公司获ScaleVP领投2250万美元A轮融资,累计达3020万美元,瞄准46亿美元“患者前门”市场。其核心优势在于EHR深度适配与零留存数据架构,支持语音/短信双通道服务,已覆盖急诊、医美等多领域。医疗会话式AI赛道年增速34%,Hello Patient凭技术壁垒与合规护城河,正引领医疗沟通智能化变革。

OpenRouter集成OpenAI Responses API实现隐私、推理与成本的三重突破

OpenRouter集成OpenAI最新Responses API,标志AI模型接口从“单一响应”向“智能推理”技术跃迁。该API作为completions接口增强版,以无状态架构、动态缓存等创新,实现隐私、推理与成本三重突破:支持零数据保留(ZDR)模式,满足医疗、金融等隐私敏感场景合规需求;专为“思考型模型”设计,通过嵌入思考标记追踪中间逻辑,复杂推理能力提升15-30%,法律文档分析等场景准确率显著提高;动态缓存机制减少20-40%重复计算,降低延迟与成本。开发者迁移便捷,电商、教育等领域案例显示,其可提升响应速度28%以上、降低API成本超30%。OpenRouter集成推动AI服务智能化与经济性平衡,加速AI技术向中小企业渗透。

字节跳动Seed团队发布Robix:机器人单模型一体化智能破解散装大脑困局

【Robix机器人全能大模型:字节跳动突破传统机器人多模块拼接瓶颈,引领单模型一体化智能时代】传统机器人因语言交互、任务规划、感知模块“散装”协同低效,模块通信耗时占决策时间40%以上。2025年字节跳动Seed团队推出Robix,首次实现推理、规划与自然语言交互单模型集成,通过图像与语言输入直接完成全流程处理,减少信息损耗。其核心依托思维链推理(模拟人类分步思考)与三阶段递进训练(持续预训练-监督微调-强化学习),在GR-3测试中任务进度达92.5%,领先GPT-4o(64.4%)和Gemini 2.5 Pro(88.2%),长时任务成功率92%超越竞品。该突破推动机器人行业从“模块数量”转向“智能深度”竞争,助力复杂场景落地。

Slashy AI:自然语言跨应用自动化,解放办公30%耗时

Slashy AI:跨应用智能执行者,破解职场多应用切换效率困境。据调研,职场人日均切换8-10个应用,30%工作时间耗于重复数据搬运。Slashy AI通过连接Gmail、Notion、LinkedIn等15+主流办公应用,以“自然语言驱动的自动化”实现跨平台任务主动执行,从被动回答转向主动行动。其自研工具链直连应用底层API,单一智能体架构提升任务准确性,错误率较多智能体降低40%,响应速度提升30%。对比Zapier需手动配置、ChatGPT仅输出信息,Slashy可动态拆解任务(如“整理会议attendees背景生成Notion文档”),自动调用工具完成闭环。典型场景如会议背景生成,5分钟替代1小时人工;LinkedIn批量获客自动筛选发送邮件。用户反馈重复性操作减少60%,每天多2小时深度工作。现公测中,免费版每日100积分,企业版提供定制化方案,助力职场人告别复制粘贴,提升办公效率。

OSWorld Verified:构建可复现CUA评测基准,破解SOTA声明乱象

计算机使用代理(CUA)作为AI驱动生产力变革的核心力量,正通过GUI操作、CLI执行及跨应用协作赋能办公自动化等场景。然而,行业长期受困于SOTA声明不可复现、评测环境差异大、数据泄露等问题,导致研究低效与信任危机。为此,AI评估机构推出OSWorld Verified公开排行榜,构建首个统一、可复现的CUA评测基准。该平台通过标准化硬件/操作系统环境、固定公开数据集及多维评分指标,解决结果不可比难题,已对GPT-4o、Claude 3等模型完成基准测试。其“四步闭环验证”机制与防作弊设计,正推动CUA行业从“自说自话”迈向透明化,为技术落地提供可信赖的能力参考,助力构建开放信任的AI生产力生态。

Anthropic Claude Code四个月11.5万用户:揭秘“自用自改”产品增长逻辑

Anthropic的Claude Code成2025智能编程赛道黑马:发布四月用户破11.5万,73%为付费企业用户,从Cursor夺取38%市场份额,周活增长12%。其秘诀在于“自用自改”哲学:团队60%工作时长用产品,24小时反馈bug、36小时修复,红队测试组通过极端场景训练,使复杂边界案例正确率提升27%。面对“智能退化”争议,48小时推出Expert Mode,专业用户留存回升至92%。产品以“极简入口+深度扩展”设计,从CLAUDE.md上下文注入演进到Hooks系统与子智能体,支撑任务分解与多步骤执行。它正推动编程范式变革,从代码生成转向目标导向、交互式协作,重新定义开发者与AI协同模式。

清华北航联合发布BSC-Nav:让具身智能拥有动态类脑空间记忆

具身智能机器人在物理世界常因空间记忆不足"笨手笨脚",而清华与北航联合研发的BSC-Nav类脑空间认知框架,正通过模仿生物大脑空间记忆机制破解这一难题。该框架构建地标记忆、认知地图、工作记忆三大模块,实现动态空间记忆:地标模块优先记住关键物体,认知地图动态更新环境变化(内存效率提升45%),工作模块将模糊指令识别准确率提至92%。测试显示,其长距离导航成功率达89.7%,远超传统模型;已吸引12家机器人企业测试,可赋能家用机器人自适应新环境、工业机器人实时响应场景变化,为具身智能"物理觉醒"提供核心技术支撑。