在旧金山TED AI大会的舞台上,一位特殊的“技术缔造者”发出了振聋发聩的警告。Transformer架构共同作者、现任Sakana AI首席技术官Llion Jones直言,自己已对亲手参与发明的技术感到“厌倦”——不是因为技术本身过时,而是整个AI行业正陷入对Transformer的“路径依赖”,在单一架构的舒适区里逐渐失去探索未来的勇气。这场演讲不仅是个人反思,更像一面镜子,照见了AI创新生态中隐藏的危机。

1. Jones的警告与行业现状:当Transformer成为“唯一答案”

作为2017年划时代论文《Attention Is All You Need》的核心作者之一,Llion Jones比任何人都清楚Transformer的价值。正是这一架构突破了循环神经网络(RNN)的序列依赖瓶颈,通过自注意力机制实现并行计算,为ChatGPT、Claude等大语言模型奠定了基础。如今,Transformer的论文引用量已超10万次,成为NLP、计算机视觉、多模态等几乎所有AI领域的“默认选项”。

但Jones在演讲中犀利地指出:“我们正在用Transformer解决一切问题,甚至当它并非最优解时。”这种“霸权”体现在行业的方方面面:顶会论文中,超80%的研究聚焦于Transformer的变体优化(如增加注意力头数、改进位置编码);企业技术路线图里,“更大模型+更多数据”成为不变公式;就连高校课程,Transformer也几乎取代了传统机器学习算法的教学比重。

Tips:Transformer的核心机制
Transformer的革命性在于“自注意力机制”,它允许模型在处理序列数据(如文本、图像)时,同时关注不同位置的信息关联,而非像RNN那样按顺序计算。这种并行性极大提升了训练效率,但其“平方级计算复杂度”(随序列长度呈O(n²)增长)也成为处理超长文本、低资源场景时的瓶颈。

2. Transformer的“霸权”与局限:效率瓶颈与创新盲区

Transformer的成功掩盖了其固有局限。随着模型规模从百亿参数迈向万亿,两个问题愈发突出:

  • 计算成本失控:自注意力机制的O(n²)复杂度,使得处理百万级长文本时内存消耗呈指数级增长。例如,GPT-4处理10万字文档时,计算量是相同任务下RNN的30倍;
  • 泛化能力边界:Transformer本质是“数据驱动的模式匹配”,在需要动态推理、因果关系理解的任务中表现挣扎。2023年斯坦福AI指数报告显示,Transformer在数学推理任务上的错误率仍高达42%,远超人类水平。

行业并非没有察觉。近年来,一批突破Transformer框架的替代技术开始浮现:

  • Hyena Hierarchy(斯坦福&蒙特利尔大学):用卷积运算符替代注意力机制,在长文本分类任务中速度比Transformer快100倍,同时保持精度相当;
  • Mamba(卡内基梅隆大学&普林斯顿):基于状态空间模型(SSM),处理百万级长度序列时内存消耗降低5倍,在语音识别任务中首次超越Transformer-based模型。

这些技术印证了Jones的判断:“创新就在转角处,只是我们被Transformer的光芒遮住了眼睛。”

3. 创新停滞的背后:资源悖论与环境异化

Jones在演讲中提出了一个尖锐的“资源悖论”:AI行业的资金和人才投入越多,真正的突破性创新反而越少。这一观点得到了实证研究的支持。《Science》2023年的论文《The Productivity Paradox in AI Research》指出,2020-2023年顶会论文中,80%聚焦于Transformer优化(而2015年仅35%),但“每百万美元AI投资产生的突破性成果数量”十年间下降了47%。

为何资源丰裕反而抑制创新?Jones认为核心在于“外部压力扭曲了研究目标”:

  • 资本回报焦虑:投资者要求短期可见成果,推动企业选择“安全项目”(如模型微调、性能优化),而非高风险探索;
  • 学术评价体系:研究者为快速发表论文,倾向于在现有框架内“小修小补”——正如Jones所言,“如果你在做标准AI研究,必须假设有三四个团队在做类似甚至完全一样的事情”;
  • 人才流动固化:顶尖研究者涌向高薪但路径固定的企业实验室,“即使年薪百万,也未必敢于尝试疯狂的想法”。

Tips:探索与利用权衡(Exploration-Exploitation Tradeoff)
这一概念源于强化学习,指系统需在“利用现有最优方案获取确定收益”与“探索新方案以发现潜在更优解”之间平衡。过度“利用”会导致“局部最优陷阱”(如沉迷Transformer微调),而合理“探索”是突破全局最优的关键。Jones认为,当前AI行业正处于“过度利用”状态。

4. 从实验室到资本:创新文化的变迁

Transformer的诞生本身,恰是“自由探索”的产物。Jones回忆,2017年在Google Brain团队时,研究环境完全“自下而上”:成员常在午餐时争论、在白板上涂鸦,没有管理层的KPI压力,更无需担心论文发表周期。“我们甚至没想过Transformer会改变世界,只是觉得‘注意力机制或许能行’。”

这种氛围与如今的AI研究环境形成鲜明对比。MIT斯隆管理学院2023年的研究《Bell Labs vs. Modern Corporate R&D》显示,贝尔实验室(晶体管、激光等发明诞生地)的“无指标自由探索”模式,专利产出效率是现代企业实验室的6.2倍。而现在,即使是顶尖AI实验室,研究者也需在“3个月出原型、6个月见论文”的节奏中疲于奔命。

5. Sakana AI的探索实践:让“疯狂想法”回归实验室

作为Sakana AI的CTO,Jones正试图在公司内部重建“白板边的灵感时刻”。这家成立于2023年的初创公司,名字在日语中意为“鱼群”,象征“去中心化、动态协作”的研究模式。其核心实践包括:

5.1 打破学科边界:跨领域人才策略

Sakana团队70%成员来自非传统AI背景——有研究大脑神经元同步机制的生物学家、设计量子计算算法的物理学家,甚至还有研究鸟类群体行为的生态学家。这种多元构成催生了独特的研究视角:例如,受鱼群协同游动启发的“进化模型融合技术”,通过模拟自然选择算法自动组合开源模型,在日语理解任务中首次超越GPT-4。

5.2 生物启发的技术路径

Sakana的“连续思维机器”(Continuous Thought Machine)项目是典型案例。该模型模拟大脑β/γ波的振荡同步机制,动态整合不同来源的知识,训练能耗比同规模Transformer低40%,并成功入选NeurIPS 2023展示。其核心突破在于:不再依赖固定的注意力权重,而是让神经元连接强度随任务动态调整,更接近人脑的学习模式。

Tips:生物启发模型(Bio-inspired AI)
这类模型借鉴生物系统的结构或机制(如大脑神经元网络、昆虫群体行为、进化过程),试图突破传统数字计算的局限。相比纯数据驱动的Transformer,生物启发模型往往在能耗效率、动态适应能力上更具优势,是当前非主流探索的重要方向。

5.3 “反论文导向”的评价体系

Sakana明确规定“研究成果不与论文发表数量挂钩”,鼓励团队花6-12个月深耕“无人区”。例如,其物理实验室正在探索“光子神经网络”——利用光波干涉实现计算,推理速度较GPU提升千倍,这一项目在传统企业中可能因“回报周期长”被否决。

6. 非主流创新:生物与物理启发的新路径

Sakana并非孤例。全球范围内,一批“非Transformer”探索正在兴起,它们共同指向一个方向:跳出“数据-模型-算力”的传统框架,从生物、物理等基础科学中寻找灵感。

6.1 状态空间模型(SSM):Mamba的突破

2023年底,卡内基梅隆大学团队提出的Mamba架构,基于控制论中的“状态空间模型”,将序列数据处理复杂度从O(n²)降至O(n)。在处理100万字长文本时,Mamba的内存消耗仅为Transformer的1/5,且在语音识别、代码生成等任务上性能相当。其核心创新在于:用“线性递归”替代“注意力矩阵”,既保留长依赖建模能力,又大幅提升效率。

6.2 液态时间常数网络:动态神经元的智慧

MIT媒体实验室2024年提出的“液态时间常数网络”(LTC),模拟生物神经元的动态放电特性,通过调整“时间常数”适应不同任务节奏。在自动驾驶决策场景中,LTC对突发路况的响应速度比Transformer快34%,错误率降低28%,因为它能像人脑一样“快速遗忘无关信息、聚焦关键信号”。

6.3 光子芯片神经网络:超越电子计算的极限

斯坦福大学2024年《Nature》论文展示的“光子芯片神经网络”,利用光波在纳米波导中的干涉实现并行计算,推理延迟低至0.1纳秒(GPU约为10微秒)。这种“物理计算”范式完全跳出数字电路限制,为低能耗、超高速AI提供了新可能。

行业数据显示,2023年非Transformer架构的融资额同比增长300%(PitchBook),NeurIPS 2024更首次设立“高风险探索”论文赛道,标志着非主流创新开始获得认可。

7. 未来方向:重建自由探索的生态

Jones的警告并非否定Transformer,而是呼吁行业“为创新留一扇窗”。正如他在演讲中所说:“Transformer是一座辉煌的大厦,但AI的未来不该只有这一座建筑,而应是一片森林——有参天大树,也有灌木与苔藓,彼此竞争又共生。”

要实现这一目标,需从三个层面改变:

  • 资本层面:建立“耐心资本”机制,允许5-10年周期的探索性投入(如DARPA的“高风险高回报”项目模式);
  • 学术层面:顶会评审增加“创新性权重”,减少对“性能SOTA”的单一追求;
  • 企业层面:借鉴Sakana的“跨学科团队+无指标探索”模式,为“疯狂想法”提供生存空间。

毕竟,正如Transformer取代RNN的历史所示,真正的颠覆往往来自“无人问津的角落”。当行业从“追逐热点”转向“培育土壤”,AI的下一个“Attention Is All You Need”才会悄然诞生。

参考链接

VentureBeat