标签：多模态

OpenVision 2掀起视觉预训练“减法革命”，以极简设计挑战CLIP霸权：砍掉文本编码器与对比学习，仅保留图像→描述生成任务，训练效率提升1.5-2倍、显存占用减半，性能媲美CLIP，在OCR、图表理解等细粒度任务更优。依托Recap-DataComp-1B v2高质量数据，推动视觉大模型降门槛。

Lyra

2025-09-16

全球大模型开源生态报告2.0发布：中美贡献超四成核心力量，AI编程工具爆发式增长

前沿资讯

全球大模型开源生态报告2.0发布：中美贡献超四成核心力量，AI编程工具爆发式增长

《全球大模型开源开发生态全景与趋势报告2.0》发布，蚂蚁开源联合Inclusion AI勾勒AI开源生态。数据显示，62%核心项目诞生于“GPT时刻”后，平均年龄30个月，迭代加速至2-3个月；中美开发者贡献超40%，成“双核引擎”。技术上，MoE架构突破参数瓶颈，多模态成主流，AI编程工具爆发重塑开发流程，中国以开放权重策略推动生态创新。

Lyra

2025-09-15

马拉维农民借AI聊天机器人Ulangizi应对气候危机，农业生产模式悄然变革

产品速递

马拉维农民借AI聊天机器人Ulangizi应对气候危机，农业生产模式悄然变革

马拉维农民灾后借AI助手Ulangizi重获生机。这款基于LLaMA模型、依托WhatsApp的工具，提供病虫害诊断、种植管理及气候适应建议，助农户如Alex Maere改种土豆增收超800美元。Ulangizi推动经验种植转向科学管理，为非洲应对气候变化、农业数字化开辟新路径。

Lyra

2025-09-15

产品速递

Google Gemini登顶美国App Store免费榜：Nano Banana AI图像编辑模型驱动

Google Gemini登顶美区App Store免费榜，内置Nano Banana AI图像编辑模型成关键。该模型以角色一致性控制（解决主体失真）、多模态交互（支持13图融合、地图标记生成）、高效处理（单次10-20秒）为核心优势，免费用户每日可编100张图，正重塑社交创作、3D打印等场景，成AI图像编辑新标杆。

Lyra

2025-09-15

前沿资讯

快手可灵团队发布MIDAS框架：64倍压缩与500ms低延迟实现数字人多模态实时交互

快手可灵团队发布MIDAS框架，破解数字人实时交互高延迟与多模态融合难题，端到端延迟<500ms，支持音频、文本、姿态协同控制。通过64倍压缩自编码器、双阶段生成设计，实现自然对话、跨语言歌唱等场景落地，推动虚拟主播、元宇宙社交等领域数字人交互升级。

Lyra

2025-09-14

多模态[57]

多模态^[57]