多模态[47]
中科院自动化所联合香港院AI中心破解多模态大模型灾难性遗忘难题
多模态大模型在学习新任务时易出现“灾难性遗忘”,导致旧知识丢失。中科院自动化所团队构建“理论-工具-实践”三位一体体系破解此难题:发布生成式AI持续学习全景综述,涵盖LLMs、MLLMs等四大模型类型;提出UCIT/FCIT评估基准,解决数据泄露与联邦场景评测问题;研发HiDe-LLaVA方法,分层优化仅调2.4%参数,旧任务衰减率低至3.8%。方案降低部署成本,保障医疗、自动驾驶等关键任务稳定,开源资源推动行业创新,为AI“终身学习”提供新范式。
快手Keye-VL 1.5开源:0.1秒定位+128K窗口重新定义视频AI
快手Keye-VL 1.5开源,重新定义视频AI能力边界。该多模态模型凭借128K超长上下文窗口,可流畅处理数小时长视频,结合Slow-Fast双路编码与3DRoPE时序编码,实现0.1秒级帧级定位精度。在快手日均4亿条视频审核场景中,违规物品定位误差仅0.05秒,误判率低至0.12%;电商领域通过精准锁定商品特写片段,用户点击转化率提升23%。模型支持轻量化部署,INT4量化版本仅需10GB显存即可运行,中文多模态任务表现突出,已整合至LlamaIndex、LangChain工具链。其开源推动视频理解从“能用”迈向“好用”,为内容审核、智能剪辑、长视频分析等领域提供高效技术范式。
清华北航联合发布BSC-Nav:让具身智能拥有动态类脑空间记忆
具身智能机器人在物理世界常因空间记忆不足"笨手笨脚",而清华与北航联合研发的BSC-Nav类脑空间认知框架,正通过模仿生物大脑空间记忆机制破解这一难题。该框架构建地标记忆、认知地图、工作记忆三大模块,实现动态空间记忆:地标模块优先记住关键物体,认知地图动态更新环境变化(内存效率提升45%),工作模块将模糊指令识别准确率提至92%。测试显示,其长距离导航成功率达89.7%,远超传统模型;已吸引12家机器人企业测试,可赋能家用机器人自适应新环境、工业机器人实时响应场景变化,为具身智能"物理觉醒"提供核心技术支撑。
中国学习平板Q2出货增44.6%,科大讯飞AI学习机首登销售额榜首
2025年第二季度中国学习平板市场出货量达154万台,同比激增44.6%,科大讯飞AI学习机首次登顶全行业销售额榜首,上半年业务收入同比翻番。作为高端市场领导者,其凭借首创“AI精准学”体系,通过AI 1对1精准学、答疑辅导等功能实现个性化学习,并推出AI手写笔、类自然光护眼技术等硬件创新,推动行业标准升级。依托讯飞星火X1大模型,其“AI幻觉率”低至3%,远优于行业15%的平均水平,叠加“人工智能+教育”政策支持,在高端市场占比持续提升。随着技术深耕与用户认可,科大讯飞正从高端领跑迈向全场景智能教育解决方案引领者,驱动行业进入“技术+需求”双轮增长新阶段。
LangChain 1.0 Alpha推出标准化内容块,破解多模态开发数据孤岛
多模态开发中,文本、图像等数据碎片化处理导致“数据孤岛”,开发效率低且扩展难。LangChain 1.0 Alpha推出“标准化内容块”,以统一`MessageContent`类重构数据流转,实现多模态数据“即插即用”。其通过互操作性(模型间直接读取同结构数据)、提升开发效率(原型开发时间缩短40%,适配代码减少60%)、模块化扩展(复用组件跨项目协作),解决多模态开发核心痛点。支持Python(优化数据管道与本地部署)和JavaScript/TypeScript(轻量化前端集成),已落地Snowflake、MongoDB等企业场景,Notion插件开发效率提升60%。该标准化方案推动LLM应用从“重复造轮子”迈向“模块化组装”,加速多模态生态协作。
Cloudflare Radar AI洞察:AI爬虫流量失衡冲击内容价值与数据主权
Cloudflare Radar推出AI洞察功能,透视AI重塑网络流量格局:2025年中期AI爬虫79.8%流量用于模型训练,五大工具商占超80%份额,爬取-引用比失衡至200:1,仅13.5%生成式结果附原始链接,冲击内容权益。生成式AI服务热度基于DNS数据,ChatGPT因多模态、Midjourney因移动端、Claude因免费API登榜。超12万家网站用AI Crawl Control反击,通过扩展robots.txt语法及600+爬虫指纹库精准管控。行业博弈中,AI洞察以透明数据推动新平衡,助力内容生产者从AI发展获合理回报。
谷歌Gemini 2.5 Flash Image:多模态AI重塑图像创作边界
谷歌正式发布AI图像模型Gemini 2.5 Flash Image(前身为“nano-banana”),凭借多图语义级融合、2D转8视角3D模型及图像逻辑推理三大核心功能引发行业关注。该模型基于Diffusion Transformer架构,可实现跨图片光影匹配与跨模态理解,支持林黛玉服饰+赛博朋克背景等创意合成,单张产品图生成8视角3D模型,甚至能通过图像计算几何题、解析科学图表。目前已在Gemini平台及Google AI Studio免费开放,API按张计费(0.039美元/图),助力设计师高效完成创意合成、3D建模等任务,基于NeRF技术与27万张用户测试图优化,大幅降低专业图像创作门槛,重新定义AI驱动的视觉设计边界。