标签：超长上下文

Project Fluently发布FluentlyQwen3-4B：引入“思考模式”的通用大模型

前沿资讯

Project Fluently发布FluentlyQwen3-4B：引入“思考模式”的通用大模型

FluentlyQwen3-4B是基于Qwen3-4B-Base微调的通用大模型，核心亮点为可切换“思考模式”，能显式展示推理步骤提升可解释性，适配数学、编码等复杂任务。上下文扩展至131K tokens，兼容SGLang/vLLM等框架，支持多量化版本低门槛部署，在教育、开发等场景表现亮眼。

Lyra

2025-09-14

学术论文

脑启发式大模型SpikingBrain发布：长序列处理提速百倍能效优化破Transformer瓶颈

中国团队研发的SpikingBrain脑启发大模型，突破LLM长上下文处理瓶颈，通过脑启发脉冲计算、线性注意力机制及动态路由MoE结构，实现百倍推理加速与97.7%能耗降低。支持4M-token超长文本分析，适配法律、医疗及边缘计算场景，依托国产MetaX硬件平台，为非Transformer架构LLM提供自主可控高效方案。

Lyra

2025-09-14

百度ERNIE-4.5-21B-A3B-Thinking登顶HuggingFace文本模型趋势榜

前沿资讯

百度ERNIE-4.5-21B-A3B-Thinking登顶HuggingFace文本模型趋势榜

百度ERNIE-4.5-21B-A3B-Thinking登顶HuggingFace全球文本模型趋势榜，总榜位列第三，中国AI技术再获国际认可。该模型采用MoE架构与稀疏激活设计，210亿总参数仅激活30亿，实现轻量高性能。支持128K长上下文（约25万字）及高效工具调用，开源降低应用门槛，推动金融、医疗等复杂场景落地。

Lyra

2025-09-12

前沿资讯

英伟达发布突破性Rubin CPX GPU：重塑百万级长上下文AI推理

英伟达推出专为百万级长上下文推理设计的Rubin CPX GPU，采用解耦式架构与长序列处理单元(LSPU)，实现3倍注意力机制处理速度，端到端延迟降低40%、能耗下降55%。其128GB GDDR7内存与动态资源分配技术，赋能代码生成、法律研究、长视频分析等场景，重塑AI推理基础设施，预计2026年底上市。

Lyra

2025-09-11

Google AI Plus印尼首推新兴市场低价定制启AI普惠

前沿资讯

Google AI Plus印尼首推新兴市场低价定制启AI普惠

Google推出全新订阅服务“AI Plus”，聚焦新兴市场开启AI普惠化新尝试，首站落地印尼，后续将扩展至印度、泰国、墨西哥等地区。该服务针对新兴市场用户需求定制，印尼月费仅约4.56美元，不足美国同类服务价格的25%，锚定本地中端手机月分期费用降低付费门槛。核心功能涵盖Gemini 2.5 Pro（128K上下文窗口）、本地化AI工具集及Google Workspace深度集成，适配长文档分析、多轮对话等个人与中小微企业场景。免费版每日提供5次Gemini 2.5 Pro试用，引导用户转化。此举通过“低价+实用功能”组合，推动高端AI能力下沉，加速新兴市场数字经济效率提升，开启全球AI普惠化新阶段。

Lyra

2025-09-10

Meta REFRAG框架：四步流程突破LLM长文本处理效率瓶颈，速度提升30倍

学术论文

Meta REFRAG框架：四步流程突破LLM长文本处理效率瓶颈，速度提升30倍

LLM在处理长文本时面临计算量平方级增长、响应延迟等效率瓶颈，Meta推出的REFRAG框架通过“智能压缩+选择性处理”创新思路破解难题。其四步流程（压缩、缩短、加速、选择）将输入文本16:1语义浓缩，输入长度缩短16倍，计算量减少至1/256，结合RL策略锁定关键信息，信息保留率达92%。实测显示，REFRAG在16k token场景首个token生成时间加速30倍，单次可处理8倍检索结果，GSM8K推理准确率提升80%，128k上下文节省89%计算量，在医疗病历分析、法律案例检索等RAG场景中吞吐量提升27倍，推动LLM长文本应用落地。

Lyra

2025-09-09

月之暗面Kimi K2 0905升级：智能体能力跃升+256K上下文窗口翻倍

前沿资讯

月之暗面Kimi K2 0905升级：智能体能力跃升+256K上下文窗口翻倍

月之暗面Kimi K2 0905版本升级带来两大核心突破：智能体（Agentic）能力跃升与上下文窗口翻倍至256K tokens，参数量稳定1T级别，为开发者与企业提供平滑过渡基础。智能体能力方面，Terminal-Bench Hard复杂编程测试得分从14%升至23%，Tau2-Bench Telecom智能体聊天测试从61%提至73%，背后推理链优化算法通过动态拆解任务、实时调试反馈，使复杂指令错误率降40%。256K上下文窗口（约50万字）依托稀疏注意力与动态缓存技术实现，长文档关键信息召回率达92.3%，可一次性处理2000页司法卷宗（如“三体著作权案”材料）、10万分子式数据库或3年工程运维日志，助力律师分析时间从3天缩至4小时、药物筛选从1周减至2小时。目前企业尽调效率提升3倍，咨询行业已应用，虽存在功耗增18%、数据安全需求等挑战，仍推动AI从“执行指令”向“自主解决问题”进化。

Lyra

2025-09-09

快手Keye-VL 1.5开源：0.1秒定位+128K窗口重新定义视频AI

前沿资讯

快手Keye-VL 1.5开源：0.1秒定位+128K窗口重新定义视频AI

快手Keye-VL 1.5开源，重新定义视频AI能力边界。该多模态模型凭借128K超长上下文窗口，可流畅处理数小时长视频，结合Slow-Fast双路编码与3DRoPE时序编码，实现0.1秒级帧级定位精度。在快手日均4亿条视频审核场景中，违规物品定位误差仅0.05秒，误判率低至0.12%；电商领域通过精准锁定商品特写片段，用户点击转化率提升23%。模型支持轻量化部署，INT4量化版本仅需10GB显存即可运行，中文多模态任务表现突出，已整合至LlamaIndex、LangChain工具链。其开源推动视频理解从“能用”迈向“好用”，为内容审核、智能剪辑、长视频分析等领域提供高效技术范式。

Lyra

2025-09-06

超长上下文[18]

超长上下文^[18]