学术论文 [53]

分享值得关注的AI方向学术论文与研究

语音语言模型(LSLM)破局:全球首个开源端到端框架LLaSO树立研究新基准

在语音语言模型(LSLM)面临架构碎片化、数据不透明等瓶颈时,北京深度逻辑智能推出全球首个完全开源、端到端语音大模型框架LLaSO。该框架含数据对齐(1200万样本)、指令微调(1350万样本)、评估基准(1.5万测试样本)三大核心组件,解决行业痛点,推动语音AI迈向开放可及未来。
Lyra Lyra
2025-09-16

上海交大与字节跳动联合推出RhymeRL 强化学习训练速度提升2.6倍

强化学习训练中Rollout阶段效率瓶颈突出,上海交大与字节跳动联合发布RhymeRL框架,通过挖掘历史数据序列与长度分布相似性,创新HistoSpec批量验证与HistoPipe调度策略,实现端到端吞吐量2.6倍提升,且精度零损失,有效突破大模型训练效率瓶颈。
Lyra Lyra
2025-09-14

LiveMCP-101框架:开启AI智能体真实世界评估新阶段

AI智能体评估存在“模拟到现实鸿沟”,虚拟测试难测真实可靠性。微软与北大联合发布LiveMCP-101,系首个直接交互真实计算机系统的评估协议,含101项任务,覆盖系统操作、网络管理、安全响应等真实场景,解决传统虚拟测试局限,推动AI从实验室到真实世界的可靠落地。
Lyra Lyra
2025-09-14

脑启发式大模型SpikingBrain发布:长序列处理提速百倍 能效优化破Transformer瓶颈

中国团队研发的SpikingBrain脑启发大模型,突破LLM长上下文处理瓶颈,通过脑启发脉冲计算、线性注意力机制及动态路由MoE结构,实现百倍推理加速与97.7%能耗降低。支持4M-token超长文本分析,适配法律、医疗及边缘计算场景,依托国产MetaX硬件平台,为非Transformer架构LLM提供自主可控高效方案。
Lyra Lyra
2025-09-14

NVIDIA发布SATLUTION:LLM自主进化SAT求解器

布尔可满足性问题(SAT)作为NP完全问题,是芯片验证、漏洞检测等领域的技术基石。传统SAT求解器依赖专家手工优化,面临代码复杂、迭代低效瓶颈。NVIDIA推出SATLUTION框架,以LLM驱动完整代码库进化,通过AI自主迭代与分布式验证,在国际竞赛中超越人类冠军方案,多场景性能领先,开启AI重塑复杂系统开发新范式。
Lyra Lyra
2025-09-12

Backprompting技术革新LLM健康建议防护栏:小模型准确率超GPT-4o

LLM健康建议安全需防护栏保障,数据稀缺成技术落地瓶颈。IBM提出Backprompting技术,通过四步流程生成合成不良数据,破解数据难题。其训练的1000万参数小模型健康建议识别准确率超GPT-4o,推动医疗等垂直领域AI安全防护普及,为AI安全提供新范式。
Lyra Lyra
2025-09-12

字节跳动发布AgentGym-RL:多轮智能体强化学习框架,摒弃监督微调性能超商业模型

字节跳动推出业界首个统一多轮智能体强化学习框架AgentGym,采用纯强化学习路径,无需监督微调,智能体通过与环境交互自主掌握多样化任务。框架含AgentEvo环境集合及模块化设计,覆盖网页交互、游戏策略、具身智能、科学数据分析等27项任务,多项核心指标超越主流商业模型。
Lyra Lyra
2025-09-12

Skypilot研究:网络与存储优化让分布式生成式AI训练提速10倍,打破GPU性能瓶颈惯性思维

生成式AI训练中,网络与存储性能是被低估的隐藏瓶颈。Skypilot团队实验显示,在不更换GPU、不修改代码的情况下,仅优化网络带宽(10Gbps→100Gbps)和存储类型(标准云SSD→本地NVMe),分布式训练速度可提升10倍,打破“GPU决定一切”认知。这一发现凸显数据传输与读取效率的关键作用,Skypilot框架助力简化基础设施优化,为AI训练提速提供新路径。
Lyra Lyra
2025-09-12

顶级大模型“扰动文字”测试集体“翻车”

顶级视觉语言模型(如GPT-4o、Gemini等)在扰动文字前识别能力大幅下降,人类却可轻松解读,暴露AI非标准文本理解局限。因AI依赖模式匹配缺乏结构理解,在中文成语切割重组、英文彩色叠加等实验中近乎崩溃,且在多书写系统中普遍存在。此缺陷致教育、文献处理受限,更存安全漏洞,攻击者或用扰动文字绕过AI审查。研究建议通过强化结构先验知识、扩充复杂训练数据等改进,揭示AI与人类认知本质差异。
Lyra Lyra
2025-09-11

ETH与MATS发布突破性研究:实时检测AI长文本实体幻觉 筑牢高风险领域安全防线

大模型“幻觉”问题制约医疗、法律等高风险领域应用,ETH与MATS团队提出创新实时检测方案。该方法突破传统局限,实现实体级精准识别,低成本实时标记错误实体,无需昂贵外部验证,支持700亿参数模型。可提升AI生成内容可靠性,相关数据集与代码已开源,助力高风险领域安全应用。
Lyra Lyra
2025-09-11

杜克大学陈怡然团队DPad方法:破解扩散大模型全局规划与效率两难,实现61倍加速

扩散大语言模型(dLLM)凭借全局规划能力在长文本生成等任务中表现突出,但因需对未来文本进行双向注意力计算,存在计算冗余、推理速度慢的痛点。杜克大学陈怡然团队提出的DPad方法,通过动态窗口聚焦近处关键“草稿纸”(后缀token)、先验丢弃远处冗余信息,实现效率与规划的平衡。该方案无需训练即可即插即用,在主流dLLM上实现61倍推理加速,精度损失不足0.5%,为实时长文本生成、边缘设备部署等场景扫清障碍,推动扩散模型工业化落地。
Lyra Lyra
2025-09-10

蚂蚁集团AQ-MedAI提出DIVER框架:RAG技术从关键词匹配迈向逻辑链推理

传统RAG技术依赖关键词匹配,在医学诊断、数学证明等复杂任务中难以挖掘深度逻辑关联。为此,BRIGHT基准应运而生,聚焦推理密集型检索评价。蚂蚁集团提出DIVER框架,通过“预处理→查询扩展→推理检索→重排序”四阶段协同,将推理嵌入检索全流程,实现从关键词到逻辑链的跨越。该框架登顶BRIGHT基准,nDCG@10得分45.8,在医学、数学、编程等场景显著提升检索准确率,且泛化性强。目前论文、代码及模型已开源,助力AI从信息匹配迈向逻辑推理,赋能医疗辅助诊断、教育解题等领域发展。
Lyra Lyra
2025-09-10