当科技巨头纷纷布局通用人工智能(AGI)赛道时,亚马逊的动作始终备受关注。这家以电商和云计算为基石的企业,正通过一个位于旧金山的神秘实验室,悄然改写AI竞争的格局。2023年9月成立的Amazon AGI SF Lab,不仅标志着亚马逊从基础设施服务向前沿AI研发的战略转向,更因华人科学家David Luan的加盟,成为全球AGI领域不可忽视的新势力。

1. 亚马逊的AGI野心

在ChatGPT引爆AI浪潮后,科技公司的竞争焦点逐渐从“大语言模型”转向“能行动的智能体”——即Agent。这类AI系统不仅能理解语言,更能自主完成复杂任务,如操作软件、处理数据、甚至替代人类执行重复性工作。对于亚马逊而言,Agent的崛起既是威胁也是机遇:若第三方Agent抢占用户交互入口,其电商、广告等核心业务将面临冲击;反之,若能率先掌握下一代Agent技术,便能以“AI助手”身份巩固生态优势。

1.1 从AWS到AGI

亚马逊的AI布局并非一蹴而就。早期,其AI资源主要投向AWS的基础设施服务(如SageMaker机器学习平台),为企业提供算力和工具。但随着AGI成为科技竞争的“终极战场”,亚马逊开始将资源向核心技术研发倾斜。2023年9月,Amazon AGI SF Lab在旧金山正式成立,实验室负责人David Luan在接受《The Verge》采访时直言:“亚马逊的目标不是做另一个聊天机器人,而是让AI真正‘走进’人类的工作流。”

1.2 旧金山实验室的成立

实验室选址旧金山并非偶然——这里聚集了全球顶尖AI人才,且靠近硅谷的技术生态。更关键的是,亚马逊为实验室配备了“双重引擎”:

  • 数据优势:依托电商、AWS、Prime Video等业务,亚马逊积累了海量用户行为数据(如购物习惯、软件操作日志),这些“真实世界的交互记录”成为训练Agent的核心资产;
  • 算力支撑:AWS的全球云基础设施为大模型训练提供了充足的GPU资源,尤其在强化学习所需的大规模并行计算上具备先天优势。

2. 顶尖团队集结

一家实验室的成败,往往取决于“掌舵人”和核心团队。亚马逊AGI实验室能在短时间内崭露头角,离不开David Luan及其带领的“梦之队”。

2.1 David Luan

David Luan的履历堪称“AI界的跨界传奇”。6岁移居美国后,他15岁便获得计算机科学证书,2011年创办的深度学习公司曾为奥巴马政府改进执法记录仪技术。2018年加入OpenAI后,他推动了GPT-2、GPT-3的工程化落地,是大语言模型从“实验室概念”走向实用的关键推手。

2022年,Luan与Transformer架构核心作者Ashish Vaswani、Niki Parmar联合创立Adept AI,率先提出“Agentic AI”理念——即AI应从“会说话”进化为“能行动”。Adept不到一年融资超4亿美元,其首款模型ACT-1可通过自然语言指令自动操作浏览器、填写表格,这一技术后来成为亚马逊Agent研发的基础。

Tips:什么是Agentic AI?
Agentic AI(智能代理)是能自主理解目标、规划步骤、执行任务的AI系统。与传统对话式AI不同,它强调“行动能力”,例如帮用户自动订机票(查询信息→填写表单→确认支付)、处理Excel数据(分析需求→编写公式→生成报告)等,核心是“闭环解决问题”。

2.2 实验室核心团队

Luan为亚马逊AGI实验室组建了一支“全栈型”团队,成员覆盖基础研究、工程落地、产品化全链条:

姓名 角色/专长 核心贡献
David Luan 实验室负责人 战略规划,推动Agent技术从Adept向亚马逊生态迁移
Pieter Abbeel 强化学习专家 主导“自我博弈”训练框架,提升Agent复杂任务能力
Erich Elsen 多模态AI研究员 优化GPU计算效率,支持多模态数据(文本+界面截图)训练
Kelsey Szot 产品负责人 推动Nova Act从技术原型到商用产品的落地

3. Agent模型的创新路径

亚马逊AGI实验室的技术突破,源于一套独特的“实战化训练”思路。当多数企业仍依赖公开数据集训练AI时,亚马逊选择让Agent在“真实工具环境”中“边练边学”。

3.1 “健身房”策略:让AI在ERP和Excel里“健身”

Luan团队认为,训练Agent就像培养运动员——不能只靠“看视频学习”,必须“下场实战”。为此,实验室打造了一个“AI健身房”:将企业常用工具(如SAP ERP系统、AutoCAD设计软件、Excel表格、电子病历系统)接入训练平台,让Agent通过“试错”自主学习操作逻辑。

例如,训练Agent处理财务报表时,AI会先尝试用自然语言指令调用Excel函数,若结果错误(如公式逻辑混乱),系统会通过“强化学习”反馈错误原因,AI再调整策略重新尝试。通过数百万次“自我博弈”,Agent逐渐掌握复杂工具的操作规律,甚至能应对“界面按钮位置变化”“格式异常”等真实场景问题。

AI专家Andrej Karpathy曾评价:“当互联网高质量数据逐渐枯竭,企业内部的‘操作日志’将成为AGI竞争的‘黄金矿脉’。亚马逊的‘健身房’策略,本质是把数据优势转化为技术壁垒。”

3.2 从ACT-1到Nova Act:技术遗产的进化

实验室的技术根基可追溯至Adept AI的ACT-1模型(2022年发布),该模型首次实现“用自然语言控制屏幕操作”。加入亚马逊后,团队融合了两项核心技术:

  • Adept的Agent框架:ACT-1的“界面理解+操作执行”能力,以及Fuyu模型的多模态处理技术(可理解截图、PDF等非文本信息);
  • 亚马逊自研Nova大模型:优化长文本理解和复杂任务规划能力,尤其擅长拆解“多步骤指令”(如“分析近三个月销售数据,生成图表并发送给财务总监”)。

4. 首款产品亮相

2024年初,亚马逊AGI实验室发布首款产品——Amazon Nova Act,正式向外界展示其Agent技术实力。这款模型在公开测试中表现亮眼,迅速引发行业关注。

4.1 性能表现:ScreeSpot测试中94%准确率的背后

Nova Act的核心优势在于“精准理解界面元素”。在Agent领域权威基准测试ScreeSpot中,模型需要根据自然语言指令定位屏幕上的按钮、输入框等元素(如“点击页面右上角的‘提交’按钮”),Nova Act的准确率达到93.8%,远超行业平均水平(约75%)。另一项测试Ground UI显示,其完成“多步骤表单填写”的成功率达82%,接近人类操作水平。

测试项目 测试内容 Nova Act表现 行业平均
ScreeSpot 界面元素定位准确率 93.8% 75%
Ground UI 多步骤表单填写成功率 82% 60%

4.2 技术内核:强化学习与自我博弈的融合

Nova Act的性能源于“强化学习+多模态输入”的技术组合:

  • 强化学习:通过“奖励机制”优化操作策略——正确完成任务(如成功提交表单)获得正向奖励,错误操作(如点击无效按钮)则扣分,AI通过数百万次迭代逐渐“学会”最优路径;
  • 多模态输入:同时处理文本指令(如“填写客户邮箱”)和界面截图(识别输入框位置),解决了传统AI“看不懂屏幕”的痛点。

5. 团队流动与行业启示

Nova Act的成功背后,隐藏着一段关于“人才与理念”的行业故事。Adept AI的创始团队曾被视为“Agent赛道的梦之队”,但核心成员的分歧却为这段合作埋下伏笔。

5.1 创始人分歧:从Adept到Essential AI的裂变

2022年,David Luan与Transformer架构核心作者Ashish Vaswani、Niki Parmar联合创立Adept AI。然而不到一年,Vaswani便宣布离职。据《Latent Space》播客披露,分歧源于“技术路线之争”:Vaswani主张深耕基础模型架构创新,而Luan更倾向于“快速落地实用产品”。随后,Parmar也选择离开,与Vaswani共同创立新公司Essential AI,继续探索基础模型研究。

这一变动虽未影响Adept的技术积累,却反映出AGI领域的普遍挑战:如何平衡“长期研究”与“短期商业化”。Luan在加入亚马逊后曾坦言:“大公司的优势在于——你可以同时拥有‘仰望星空’的资源和‘脚踏实地’的土壤。”

5.2 人才争夺:AGI赛道的“隐形战争”

Adept团队的“反向收购”(亚马逊未收购公司,仅吸纳核心人才和技术授权)并非孤例。近年来,科技巨头纷纷通过“人才并购”加速AGI布局:谷歌收购DeepMind、微软投资OpenAI、Meta挖角FAIR团队。亚马逊的策略则更为“轻量”——通过灵活的合作模式吸纳顶尖人才,同时避免收购带来的整合成本。

6. 未来展望

随着Nova Act的落地,亚马逊AGI实验室已成为AGI赛道的重要玩家。其核心优势在于“技术+场景”的闭环:Agent技术解决“如何行动”,亚马逊生态(电商、企业服务、消费硬件)提供“行动的场景”。

亚马逊计划分阶段推进Nova Act的落地:2024年先向AWS企业客户开放API(如帮程序员自动调试代码、帮财务处理报表),2025年整合进Alexa智能音箱(如“帮我订下周的机票,并同步到日历”),最终目标是让Agent成为用户与亚马逊生态的“交互中枢”。

亚马逊的AGI布局为行业提供了一种新思路:不追求“通用智能”的虚名,而是聚焦“解决具体问题的能力”。通过“数据-场景-技术”的三角循环,亚马逊正在构建一个“用Agent巩固生态,用生态反哺Agent”的正向循环。正如David Luan所言:“AGI的终极形态不是‘超人类智能’,而是‘无处不在的可靠助手’——这正是亚马逊想做的事。”

从电商推荐算法到AWS算力平台,再到如今的AGI实验室,亚马逊的每一步都在证明:科技竞争的关键,永远是“将资源转化为解决问题的能力”。而Agent技术,或许正是亚马逊在下一个十年保持领先的“秘密武器”。

参考链接