1. LLM推理的硬件困境:当内存成为AI算力的“拦路虎”

大语言模型(LLM)的推理性能正成为AI落地的关键指标,尤其是在手机、智能家居等边缘设备中,实时响应和低功耗需求日益迫切。尽管低比特量化技术(如2比特、4比特)已大幅降低模型计算量,但核心瓶颈依然存在——通用矩阵向量乘法(GeMV)操作中,数据在处理器与内存间的频繁搬运,导致延迟和能耗居高不下。传统解决方案要么依赖专用AI芯片(如GPU、NPU),成本高昂;要么尝试“内存计算”(In-Memory Computing),却因需修改DRAM硬件或数据预处理复杂,难以在消费级设备中普及。

2025年3月,日本九州大学与中国科学院计算所团队联合提出的MVDRAM系统,为这一困境带来了突破性思路:在完全未经修改的标准DDR4 DRAM上实现高效GeMV计算,首次将普通内存从“被动存储器”转变为“主动计算单元”,让低比特LLM推理速度和能效实现数量级提升。

2. MVDRAM的核心突破:用“数据流魔术”激活DRAM的计算潜能

MVDRAM的创新并非依赖硬件改造,而是通过算法与内存协议的深度协同设计,挖掘标准DRAM的物理特性。DRAM本质上由大量存储单元组成,通过行、列地址定位数据,其模拟电路特性(如电荷共享)可天然支持简单的数学运算。传统“Processing-Using-DRAM”(PUD)方案虽尝试利用这一特性,但因需对输入数据进行复杂的比特转置和格式重排,实际性能被预处理开销抵消。

MVDRAM的关键在于将GeMV计算的数学结构与DRAM的物理存储结构精准对齐

  • 输入向量映射至DRAM行:将LLM推理中的输入激活向量直接存入DRAM的连续行地址,利用行缓冲一次性加载全部数据;
  • 权重矩阵按列分布:模型权重矩阵按列分割后存入不同DRAM列,与输入向量的行操作形成天然的并行乘累加环境;
  • 消除数据搬运成本:通过内存控制器指令编排,让DRAM内部直接完成“行向量×列权重”的并行计算,结果通过列电流读出,避免传统方案中“数据从内存到CPU再返回”的冗余流程。

这一设计使标准DRAM(如美光MT40A1G16 DDR4芯片)无需任何硬件修改,仅通过调整内存访问时序和指令序列,即可变身“计算型内存”。

3. 实验验证:从GeMV操作到端侧LLM推理的性能跃升

研究团队在四组DDR4 DRAM模块上进行了全面测试,结果显示MVDRAM在低比特场景下性能显著超越传统处理器实现:

3.1 GeMV核心操作性能

在2比特、4比特量化精度下,MVDRAM的GeMV计算延迟较CPU实现降低5.1-7.29倍,能效(计算量/功耗)提升22.8-30.5倍。以2比特权重为例,单次GeMV操作耗时从1.2毫秒压缩至0.16毫秒,同时能耗从每操作1.8微焦降至0.06微焦,相当于手机芯片上“用1度电完成原本30度电的计算任务”。

3.2 端到端LLM推理表现

在OPT-125M模型(2比特、4比特量化)的推理测试中,MVDRAM展现出实际应用价值:

  • 2比特量化场景:推理吞吐量达传统CPU方案的2.18倍,能效提升3.04倍,可支持每秒23.5个token的生成速度(传统方案约10.7个);
  • 4比特量化场景:吞吐量提升1.31倍,能效2.35倍,平衡了精度与性能需求。

值得注意的是,这些结果均在未修改DRAM硬件、未增加额外芯片成本的前提下实现,证明了技术的商用可行性。

4. 与传统方案对比:MVDRAM为何能打破“存算墙”?

内存计算并非新概念,MVDRAM的独特价值在于解决了传统方案的落地痛点

技术方案 硬件修改需求 支持GeMV能力 实际能效提升 商用成本
传统CPU/GPU 支持 1×(基准)
Ambit(PUD方案) 需定制DRAM 部分支持 3-5×
SIMDRAM 仅简单运算 1.5-2×
CIMA 需3D堆叠内存 支持 8-10× 极高
MVDRAM 高效支持 22.8-30.5×

传统PUD方案(如Ambit)需厂商定制DRAM芯片,难以普及;SIMDRAM仅支持逻辑运算,无法高效处理矩阵乘法;CIMA依赖3D堆叠内存(如HBM),成本是普通DRAM的10倍以上。MVDRAM首次在“零硬件修改、低成本、高效GeMV”三个维度同时突破,为边缘设备提供了“用现有内存跑更快AI”的路径。

5. 产业影响:边缘AI的“降门槛”革命与局限性

MVDRAM的出现或将重塑AI硬件的发展逻辑:

  • 降低边缘设备AI部署成本:手机、智能家居、IoT设备无需额外集成NPU或专用AI芯片,仅通过软件优化即可提升LLM推理性能,直接惠及数十亿存量设备;
  • 缓解数据中心算力压力:部分轻量化LLM推理任务可下沉至终端,减少云端服务器负载,降低数据传输延迟和隐私风险;
  • 推动存算融合技术普及:证明“算法优化+标准硬件”可实现专用架构的性能,为后续DDR5/LPDDR5内存的计算能力挖掘提供参考。

不过,MVDRAM当前仍有局限性:仅支持4比特以下低精度运算,高精度场景(如FP16、INT8)性能提升有限;DRAM的行缓冲冲突和模拟计算精度误差需通过数据交错分布和校准机制缓解,复杂模型适配仍需优化。

6. 未来展望

研究团队在论文中提到,MVDRAM的下一步发展将聚焦三个方向:

  • 接口升级:适配DDR5/LPDDR5内存(更高带宽、更低功耗),预计性能可再提升30%-50%;
  • 多Bank并行优化:通过DRAM多Bank数据交错存储,支持更大规模模型(如OPT-1.3B)的并行推理;
  • 精度扩展:探索混合精度计算模式,将低比特MVDRAM计算与高精度处理器协同,覆盖更多AI任务场景。

这一技术背后,是九州大学与中科院计算所团队长期的“DRAM协议创新+AI硬件协同设计”积累——2023年其在ISSCC发表的“基于DRAM的内存减法技术”,已为MVDRAM的模拟计算能力奠定基础。随着LLM模型向“更小、更快、更省电”方向发展,MVDRAM或将成为端侧AI算力突破的关键拼图。

参考链接