1. MobiAgent:端侧AI Agent全栈工具链的开源突破
让手机AI Agent自动完成订外卖、订酒店、网购等日常任务,正从科幻场景走向现实。长期以来,移动端智能体的开发被数据采集、模型训练、端侧部署的全流程技术门槛所限制,只有少数科技大厂能掌控核心能力。如今,上海交通大学IPADS实验室开源的MobiAgent打破了这一壁垒——这是一套完整的端侧AI Agent全栈工具链,覆盖数据收集、模型训练、推理加速和自动评测全流程,首次让个人用户与开发者能从零开始定制专属手机Agent。其7B参数规模的模型在真实场景下性能超越GPT-5,还能通过“肌肉记忆”机制将任务执行速度提升2-3倍,彻底打通了移动智能体从开发到落地的最后一公里。
2. 全流程开放
MobiAgent的核心突破之一,是将构建手机Agent的全流程彻底开放。传统AI训练中,标注数据的高昂成本和低效率是主要瓶颈,而MobiAgent通过轻量级工具与AI辅助机制解决了这一问题。用户可通过简单工具采集手机操作轨迹(点击、滑动、输入等),甚至部分重复任务可由大模型自动录制操作,大幅提升数据采集效率。
数据收集后,系统利用通用视觉语言模型(如Gemini 2.5 Pro)自动生成“带思路”的训练数据——不仅记录操作步骤,还标注每一步背后的逻辑推理过程。这些数据会进一步通过自动化精炼流程优化,调整任务难度、描述长度等参数,确保训练出的Agent具备强泛化能力,能适应不同APP界面和任务场景。
3. MobiMind智能大脑:三人小组架构的协同机制
MobiAgent的“智能大脑”MobiMind采用了分工明确的“三人小组”架构,让模型训练更高效,任务理解与执行能力显著提升。
- Planner(规划师):负责理解复杂任务并拆解为可执行的子步骤。例如“订明天上海到北京的高铁票”会被拆解为“打开购票APP→登录账号→选择出发地/目的地→选择日期→筛选车次→下单”等子任务。
- Decider(决策者):基于当前屏幕截图内容(如APP界面元素、按钮位置),判断下一步具体操作(如“点击搜索框”“滑动到下一页”)。
- Grounder(执行者):将抽象指令精准映射为屏幕坐标,执行点击、输入等物理操作,确保指令落地的准确性。
这种“拆解-判断-执行”的协同机制,避免了单一模型处理复杂任务时的效率低下问题,让智能体在动态变化的手机界面中保持高可靠性。
4. AgentRR加速框架:“肌肉记忆”如何提升执行效率
智能体不仅需要“聪明”,还需要“敏捷”。MobiAgent团队开发的AgentRR(Agent Record & Replay) 加速框架,赋予智能体类似人类“肌肉记忆”的能力——通过复用历史操作轨迹,跳过重复的大模型推理过程。
4.1 AgentRR的工作原理
AgentRR将已执行过的任务轨迹以树结构(ActTree)存储,每个节点记录操作步骤、界面状态和任务目标。当遇到新任务时,轻量级潜意识模型会快速比对当前任务与历史轨迹的相似度:若判定为同类任务(如“搜附近火锅店”与“搜附近电影院”的前几步操作一致),则直接复用历史操作,无需调用大模型重新推理。
4.2 效率提升数据
实测显示,在模拟真实用户请求分布(80%请求集中于20%高频任务)的场景下,AgentRR的动作复用率表现如下:
请求分布类型 | 动作复用率(%) | 任务执行速度提升倍数 |
---|---|---|
高频任务场景 | 85 | 3 |
常规任务场景 | 60 | 2 |
高频任务中,85%的动作可直接复用,相当于智能体“记住”了熟练操作,执行速度提升3倍;即使在常规场景下,复用率也达60%,效率提升2倍。
5. MobiFlow评测基准:真实场景下的性能超越
为公平评估移动智能体的实际能力,团队开发了贴近真实动态GUI环境的评测基准MobiFlow。该基准覆盖社交、影音、购物、旅行、外卖等主流国产APP,采用“里程碑评分法”——以任务关键节点(如“成功定位附近餐厅”“完成订单支付”)为评分标准,避免了传统评测“非满分即零分”的粗粒度问题,能更细致地衡量Agent在复杂界面中的表现。
5.1 主流模型性能对比
在MobiFlow基准测试中,MobiAgent的7B模型展现了显著优势:其平均任务完成分不仅超越了GPT-5、Gemini 2.5 Pro等顶级闭源大模型,也领先于同规模的其他开源GUI Agent模型。更重要的是,MobiAgent能可靠地识别任务终点,避免了部分模型因“无法判断任务完成”导致的“无限循环”问题。
模型名称 | 规模 | 平均完成分 | 核心优势 |
---|---|---|---|
MobiAgent (7B) | 7B | 最高 | 任务终止可靠性强,效率高 |
GPT-5 | 闭源 | 次高 | 通用能力强,但端侧适配弱 |
Gemini 2.5 Pro | 闭源 | 次高 | 视觉理解优秀,复用率低 |
开源GUI Agent模型 | 7B | 较低 | 端侧部署轻量,泛化性弱 |
6. 开源生态与未来:人人定制专属AI的可能性
MobiAgent已开放完整的开源资源,包括论文、代码仓库、预训练模型集合及可直接安装的APP,用户可快速上手定制专属Agent:
- 论文地址:https://arxiv.org/abs/2509.00531
- AgentRR论文:https://arxiv.org/abs/2505.17716
- 项目仓库:https://github.com/IPADS-SAI/MobiAgent
- 模型集合:https://huggingface.co/IPADS-SAI/collections
- 体验APP:https://github.com/IPADS-SAI/MobiAgent/releases/download/v1.0/Mobiagent.apk
这套工具链的开源,不仅降低了移动端Agent的开发门槛,更可能推动“个人专属AI”的普及——未来用户无需编程能力,即可通过录制操作、标注需求,让手机自动处理个性化任务(如“每周一自动订咖啡”“根据天气推荐穿搭”)。随着端侧AI能力的提升,智能手机的交互范式或将从“人操作手机”转向“AI替人操作”,真正实现“能动口不动手”的智能体验。
评论