工具调用[18]

MiniMax发布开源大模型MiniMax-M2:Agentic工具调用能力比肩GPT-5/Claude,登顶开源LLM智能榜首

2025年10月MiniMax发布开源大语言模型MiniMax-M2,MIT许可证实现企业低门槛部署,兼容主流API与框架。其Agentic工具调用能力接近GPT-5、Claude,多项评测突破开源瓶颈,采用稀疏MoE架构平衡性能与效率,综合智能居开源首位,助力企业低成本构建高性价比智能自动化系统。

OpenAI发布Apps SDK:ChatGPT原生集成Zillow、Canva等第三方应用 重塑AI应用生态

OpenAI 2025年DevDay发布的Apps SDK,让ChatGPT从对话工具跃升为应用平台,支持无缝调用Zillow、Canva、Spotify等第三方应用。依托MCP协议与GPT-5,实现上下文共享与一站式交互,用户可在对话中完成房源查询、海报设计、歌单生成等操作,效率提升且门槛降低,标志AI与第三方服务进入“无缝协作”新阶段。

LLM驱动MCP服务器:Cloudflare“Code Mode”启发新一轮技术探索

AI驱动的自动化工作流正迎革新,Code Mode范式崛起:Cloudflare提出LLM生成TypeScript代码替代传统工具调用,结合Deno沙盒安全执行,提升工作流开发效率40%。开源项目codemode-mcp进一步融合MCP协议,探索"代码+工具"协同,推动复杂任务动态编排,重塑AI驱动任务处理模式。

AI代理上下文工程实践:Manus项目的六大核心经验

AI代理规模化应用中,上下文管理是核心瓶颈。Manus团队总结六大上下文工程经验,通过KV-Cache优化、工具遮罩机制、外部记忆系统等,解决性能与成本难题,揭示AI代理从工具向智能体进化逻辑,助力高效落地。

谷歌推出AP2协议 为AI助手与商家安全合规交易奠定技术基础

谷歌推出AP2协议,赋能AI助手实现安全自动支付,重塑商业交互。其核心为“授权书”机制,明确用户、AI身份及商品类型、价格上限等约束,基于W3C可验证凭证防篡改。联合万事达、银联国际、阿里等60+企业,覆盖支付、电商等领域,推动AI从信息处理迈向价值交换,开启智能支付新时代。

MCP社区激辩工具信任标注:SEP-1487提案提议新增trustedHint明确安全边界

Model Context Protocol(MCP)协议在AI工具生态扩张中面临工具安全与数据信任挑战。SEP-1487提案引发热议,核心为新增trustedHint注解明确工具信任状态,默认“不信任”以解决当前协议信任定义模糊问题。这场争辩不仅关乎技术细节,更推动AI工具生态对安全边界的深层探索。

Rowboat发布AI辅助IDE 推动多智能体系统开发进入新时代

多智能体系统成AI开发新趋势,破解单智能体上下文污染、知识盲区等痛点。Rowboat IDE作为一站式开发工具,以“AI工作流操作系统”定位,通过Skipper自动拆解任务、集成数百种外部工具、RAG增强信息准确性,降低开发门槛。支持会议助手、客户支持等场景,无需编写“胶水代码”,让多智能体协作开发更高效。

百度ERNIE-4.5-21B-A3B-Thinking登顶HuggingFace文本模型趋势榜

百度ERNIE-4.5-21B-A3B-Thinking登顶HuggingFace全球文本模型趋势榜,总榜位列第三,中国AI技术再获国际认可。该模型采用MoE架构与稀疏激活设计,210亿总参数仅激活30亿,实现轻量高性能。支持128K长上下文(约25万字)及高效工具调用,开源降低应用门槛,推动金融、医疗等复杂场景落地。

Anthropic Claude AI重大升级:可直接生成Excel/PPT/PDF办公文件

Claude AI迎来重大升级,新增服务器端隔离沙箱环境,支持直接生成和编辑Excel表格、PowerPoint演示文稿、PDF文档等20+格式办公文件,从智能顾问升级为主动协作者,大幅缩短需求到交付流程。通过独立Linux容器、完整工具链及原生文件引擎,实现“对话即生产力”——用户仅需自然语言描述需求,即可自动完成数据清洗、图表生成、格式排版,3分钟内交付可下载的成品文件,避免多工具切换。实测电商数据可视化、财务模型搭建等场景,可快速生成带动态公式的Excel或含趋势图表的PPT。相比ChatGPT等工具,其优势在于原生格式兼容、独立沙箱数据自动销毁保障安全,且直接输出成品文件。目前Max/Team/Enterprise版本已开放预览,Pro版即将上线,助力企业用户提升办公效率,实现人机协同新体验。

MIT团队DSPy框架:以模块化编程重塑LLM应用开发流程

DSPy框架是MIT主导的开源LLM应用开发工具,以“签名式编程”为核心,通过结构化代码替代传统提示词工程,显著提升复杂AI任务开发效率。其“签名-模块-优化器”三位一体架构,支持任务接口标准化(签名定义输入输出)、LLM调用逻辑封装(内置ChainOfThought、ReAct等模块)及自动化性能优化(如BootstrapFewShot、GEPA等工具),解决了提示词碎片化、系统难维护等痛点。GEPA框架结合遗传算法与帕累托优化,实现多目标(准确率、延迟等)平衡,适用于客服智能体等复杂场景。实战案例Support-Sam客服智能体基于DSPy构建,以不足200行代码实现工单分类、知识库检索等全流程自动化。目前,Shopify、DeepLearning.AI等机构已将其用于生产环境,推动LLM应用开发从“作坊式调优”迈向工程化、模块化新阶段。