1. 扩散大模型的“甜蜜烦恼”:全局规划与效率的两难

近年来,扩散大语言模型(dLLM)凭借独特的并行解码和双向注意力机制,逐渐成为突破自回归模型(AR)效率瓶颈的“新希望”。与传统AR模型只能“顺着写”不同,dLLM能像人类写作时“瞻前顾后”——生成当前内容时,不仅参考前文,还能提前规划后续文本方向,这种“全局视野”让它在长文档创作、逻辑推理等任务中表现突出。

但“全局视野”的代价是高昂的计算冗余。为了实现“未卜先知”,dLLM需要对所有未来文本(即“后缀token”)进行双向注意力计算,导致推理速度大打折扣。目前学界存在两条路线:要么像LLaDA那样保留完整全局注意力,牺牲效率;要么像Block Diffusion那样仅关注局部块,丢失全局规划能力。如何让模型“既看得远,又跑得稳”?杜克大学陈怡然团队提出的DPad方法,给出了一份颠覆性答案。

2. DPad揭秘:从“草稿纸”机制看模型如何“未卜先知”

要理解DPad的创新,首先得搞懂dLLM的核心——“草稿纸”机制。不同于AR模型的“单向生成”,dLLM在解码时会把文本序列分成三类token,通过动态协作实现全局规划:

Token类型 语义信息 位置信息 作用说明
前缀token 完整 完整 已生成的“定稿内容”,提供上下文基础
当前块token 部分 完整 正在生成的“当前章节”,需要精雕细琢
后缀token 初始无 完整 未来文本的“草稿纸”,逐步记录规划信息

其中,后缀token是dLLM的“秘密武器”。它们初始时像一张张空白草稿纸(仅含位置信息),随着模型层(Transformer block)的推进,会逐步“写”入未来内容的规划——这就是模型“未卜先知”的关键。

2.1 “写-读”流程:模型如何把“未来计划”传给当前生成?

dLLM的“草稿纸”运作分两步:

  • 写入(Write):在浅层网络(如第0层),后缀token通过注意力机制从前缀和当前块“吸收”信息,比如生成第一章时,提前在草稿纸上记下第二章的提纲;
  • 读取(Read):在深层网络(如第1层),当前块再从这些“写满规划”的草稿纸中“读取”信息,确保当前内容与未来方向一致。

这个过程像极了人类写作:先在草稿纸上列好后续章节的要点,再回头打磨当前段落——浅层负责“打草稿”,深层负责“精修当前内容并参考草稿”。

3. 冗余洞察:为什么模型“记不住”远处的“草稿”?

既然“草稿纸”机制如此高效,为什么dLLM的推理速度还是很慢?杜克大学团队通过实验发现了一个关键问题:草稿纸存在大量“无效记录”

团队分析注意力分布时发现,距离当前块越远的后缀token,被写入的草稿内容越相似——就像你写第一章时,给第十章列的提纲和给第十一章列的几乎一样,纯属浪费精力。更有趣的是,当强行删除这些“远处草稿”后,模型准确率几乎没受影响:它会自动把注意力转移到邻近的草稿纸上,用近处的信息“补全”丢失的规划。

这揭示了一个重要规律:模型对当前生成影响最大的,是“最近的几张草稿纸”,远处的草稿重要性会随距离迅速衰减。就像人类创作时,当前章节会反复修改,临近章节列详细提纲,而更远的章节只需记下模糊灵感——过度关注远处细节,反而是“费力不讨好”。

4. DPad解决方案:动态窗口+先验丢弃,让推理“轻装上阵”

基于“草稿纸冗余”的发现,DPad提出了一种免训练、即插即用的优化方案,核心思路是“聚焦近处,精简远处”:

4.1 动态滑动窗口:只保留“有用的草稿纸”

DPad在解码前会动态划定一个“关注窗口”:只保留当前块附近的后缀token(距离越近,保留概率越高),远处的冗余token直接丢弃。比如生成第5段时,只保留第6-8段的草稿纸,第9段及以后的“远期规划”暂时“留白”。

4.2 先验丢弃策略:从源头减少无效计算

不同于传统剪枝需要微调模型,DPad的“丢弃”在解码开始前就完成——无需修改模型结构,也不用重新训练,直接在推理阶段“砍掉”冗余计算。这种“先验丢弃”既保证了效率,又避免了精度损失。

用团队的话说:“DPad让模型学会‘抓大放小’——重要的未来规划近在咫尺,远处的留白反而给了模型更多灵活调整的空间。”

5. 61倍加速+精度无损:DPad的“性能答卷”

效果如何?实验数据给出了答案:在LLaDA等主流dLLM上,DPad实现了端到端61.4倍推理加速,而精度损失不到0.5%(如WikiText-2数据集上,困惑度PPL仅从18.32轻微升至18.41)。对比现有方案,优势一目了然:

方法 推理加速倍数 精度损失 全局规划能力
全局双向注意(LLaDA) 1x
块内双向注意(Block Diffusion) 10x 明显
DPad 61.4x <0.5%

更关键的是,DPad的“免训练”特性让它能轻松集成到现有模型中。开源代码显示,其核心模块仅需基于PyTorch和Hugging Face Transformers库,通过sliding_window.py管理动态窗口,distance_dropout.py控制丢弃概率,开发者可快速复现效果。

6. 从实验室到产业:DPad如何推动扩散模型落地?

DPad的意义不止于“加速”。它首次实现了dLLM在“效率-全局规划”上的“鱼与熊掌兼得”,为扩散模型的工业化落地扫清了关键障碍:

  • 实时场景适配:61倍加速让dLLM能支撑实时长文本生成(如代码补全、报告撰写),响应速度接近传统AR模型;
  • 边缘设备部署:计算量大幅降低后,原本需要GPU支持的dLLM,有望在手机、边缘终端等资源受限设备上运行;
  • 模型设计新范式:“草稿纸冗余”的发现提示,未来模型可进一步优化注意力分配,比如动态调整“草稿纸”的详略程度。

正如伯克利大学教授Pieter Abbeell评价:“DPad不仅是一次优化,更是对扩散模型推理机制的重新思考——它告诉我们,有时候‘少算一点’,反而能‘算得更好’。”

参考链接