模型压缩[6]

阿拉伯语AI模型新突破:Hala项目以创新管线与Slerp技术引领指令与翻译领域

阿拉伯语AI长期受低资源困境制约,Hala模型家族通过FP8压缩、Slerp合并及“翻译-调优”技术管线,实现阿拉伯语指令遵循与翻译任务SOTA性能,为低资源语言AI提供可复制范式,推动政务、教育等场景落地。

vLLM与Thinking Machines组建新研发团队 加速开源推理引擎生态建设与大模型服务能力提升

vLLM作为开源推理引擎明星,凭借PagedAttention技术突破LLM推理效率瓶颈。近日核心开发者Woosuk Kwon携手Thinking Machines组建新团队,聚焦Blackwell GPU适配、分布式推理优化及万亿参数模型支持,加速开源生态建设,助力企业低成本部署大模型,推动AI应用落地“最后一公里”。

上交大开源MobiAgent:全栈移动端AI Agent工具链

上海交大IPADS实验室开源MobiAgent移动端AI智能体工具链,含数据收集、训练、推理加速、自动评测四大模块,支持定制手机AI助手。7B参数模型性能超越GPT-5,AgentRR“肌肉记忆”技术提速2-3倍,端侧处理保障隐私,低功耗降30%-50%能耗,全流程工具链大幅降低开发门槛。

Unsloth框架:重新定义开源LLM微调的效率与稳定性标准

Unsloth作为新兴开源LLM微调框架,凭借内存优化技术与主流模型缺陷修复能力,重新定义本地化训练标准:在A100显卡上实现Llama-3 8B模型训练速度提升3.2倍、显存占用减少80%,且零精度损失。其通过OpenAI Triton内核重构计算模块,结合分层梯度检查点与4-bit量化技术,将Llama-3.1-8B微调显存需求从48GB降至12GB,使消费级RTX 4090也能胜任专业卡任务。团队深度参与开源生态,已修复Qwen3 128K上下文崩溃、Phi-3位置编码偏移等主流模型缺陷,相关补丁被llama.cpp、Microsoft等项目采纳。支持微调与RLHF一体化流程,广泛应用于法律科技(如LexNex合同分析)、电商客服(如ShopBot回复优化)等领域,经社区验证内存优化效果显著,有效降低中小团队AI个性化成本门槛。

九州大学与中科院计算所MVDRAM:标准DDR4 DRAM变身计算单元,端侧LLM推理提速

大语言模型(LLM)推理在手机、智能家居等边缘设备中面临内存瓶颈,数据搬运导致延迟与能耗居高不下。2025年3月,日本九州大学与中科院计算所团队联合提出MVDRAM系统,通过算法与内存协议协同设计,让标准DDR4 DRAM无需硬件修改即可变身“计算型内存”,破解存算墙难题。 MVDRAM创新将输入向量映射至DRAM行、权重矩阵按列分布,利用DRAM物理特性实现内部并行乘累加,消除数据冗余搬运。实验显示,在2/4比特量化下,其GeMV计算延迟较CPU降低5.1-7.29倍,能效提升22.8-30.5倍;端侧LLM推理(如OPT-125M模型)吞吐量达传统方案1.31-2.18倍,2比特场景每秒可生成23.5个token。 该技术无需额外硬件成本,可直接赋能数十亿存量边缘设备,大幅降低端侧AI部署门槛,为DDR5/LPDDR5存算融合发展提供新路径,推动边缘智能高效落地。

微软BitNet.cpp开源:CPU成百亿大模型新引擎,提速6倍降能耗82%

微软开源的BitNet.cpp框架,基于创新1-bit量化技术,让普通CPU成为百亿大模型新引擎,彻底摆脱GPU依赖。该技术通过二进制权重压缩,减少约90%内存占用,精度仅降2.3%。实测显示,消费级CPU运行100B模型推理速度达28.6 tokens/秒,较传统GPU方案提升6.17倍,能耗降低82.2%,内存节省81.6%。框架支持Llama3、Falcon3等主流模型,可广泛应用于边缘计算、个人AI助手、企业降本等场景。其开源特性推动AI民主化,加速“硬件去依赖”趋势,显著降低大模型推理门槛。