标签：图像生成

前沿资讯

阿里巴巴发布Wan2.5-Preview：原生多模态架构重塑视觉生成

2025年9月24日，阿里巴巴发布视觉生成模型Wan2.5-Preview，以原生多模态架构实现文本、图像、音频、视频深度协同生成。支持1080p电影级视频输出，音视频原生同步，动态自然度提升37%；图像支持像素级对话式编辑，细节真实感升29%。已落地电商、短片创作等场景，助力内容创作效率提升。

Lyra

2025-09-25

腾讯混元革新AI绘画微调范式：全扩散轨迹优化技术实现人工评估分数超300%跃升

学术论文

腾讯混元革新AI绘画微调范式：全扩散轨迹优化技术实现人工评估分数超300%跃升

腾讯混元AI绘画技术实现重大突破，融合Direct-Align全扩散轨迹优化与SRPO语义相对偏好优化，解决传统微调奖励作弊、效率低等瓶颈。人工评估显示真实感与美学质量提升300%，仅需10分钟即可完成模型训练，支持灵活风格控制，推动AI绘画向高质量、个性化应用迈进。

Lyra

2025-09-16

产品速递

Google Gemini登顶美国App Store免费榜：Nano Banana AI图像编辑模型驱动

Google Gemini登顶美区App Store免费榜，内置Nano Banana AI图像编辑模型成关键。该模型以角色一致性控制（解决主体失真）、多模态交互（支持13图融合、地图标记生成）、高效处理（单次10-20秒）为核心优势，免费用户每日可编100张图，正重塑社交创作、3D打印等场景，成AI图像编辑新标杆。

Lyra

2025-09-15

Vidu Q1参考生图全球上线：支持7张参考图刷新AI生图技术上限

产品速递

Vidu Q1参考生图全球上线：支持7张参考图刷新AI生图技术上限

Vidu Q1参考生图全球上线，支持一次性上传7张参考图，远超谷歌Nano Banana等主流工具（最多3张）。多图融合助力创意合成、时尚穿搭、专业海报及跨次元合照，主体一致性强，操作简洁，可生成1080p高清图。现免费试用，开启AI图像创作新可能。

Lyra

2025-09-11

前沿资讯

腾讯开源混元图像2.1：原生2K生图性能逼近商业模型，Hugging Face榜单跃居全球第三

腾讯混元图像2.1开源引发全球关注，原生2K生图达商业级水准，支持中英文复杂语义。采用DiT架构与双文本编码器，提升生成效率与质量，Hugging Face榜单快速攀升至第三。开源生态完善，助力开发者高效创作，推动视觉AI普惠化。

Lyra

2025-09-11

产品速递

字节跳动Seedream 4.0全量开放多模态创作重新定义AI生图

字节跳动AI生图模型Seedream 4.0已全量开放，通过豆包、即梦等C端平台及火山引擎面向用户与企业。该模型支持文本、图像、草图多模态混合输入，可实现跨次元合影、故事化分镜等创作，主体特征跨场景不漂移，4K超高清图8秒即可生成。依托特征锚点技术与分块渲染优化，其多图融合精度达98%，中文意图理解准确率92%，较Midjourney、DALL·E 3更适配本土场景。从用户“跨次元合影”“虚拟换装”到企业家居设计、短视频素材生产，20余种场景覆盖趣味玩图与商业设计，4K图商用成本低至0.3元/张，效率较国际竞品提升3倍，重塑AI生图从趣味到专业的内容生产方式。

Lyra

2025-09-09

前沿资讯

谷歌Nano Banana：AI穿搭生成技术如何重塑时尚内容生态

谷歌AI模型“Nano Banana”因命名调整引发关注，其核心在于强大的AI穿搭生成能力。该模型基于扩散模型优化，融合文本与图像识别技术，能精准解析服饰材质、风格，实现“秒级生成”且节省40%算力。它重塑时尚内容生态，降低OOTD创作门槛，电商平台如SHEIN接入后退货率降低18%。同时，AI对时尚博主带来机遇与挑战，头部博主探索“真人+AI”模式，腰部博主面临流量压力。目前模型在小众品牌细节生成上仍有不足，行业关注技术边界与版权伦理，未来人机协作或成主流。

Lyra

2025-09-08

谷歌Gemini 2.5 Flash Image：多模态AI重塑图像创作边界

前沿资讯

谷歌Gemini 2.5 Flash Image：多模态AI重塑图像创作边界

谷歌正式发布AI图像模型Gemini 2.5 Flash Image（前身为“nano-banana”），凭借多图语义级融合、2D转8视角3D模型及图像逻辑推理三大核心功能引发行业关注。该模型基于Diffusion Transformer架构，可实现跨图片光影匹配与跨模态理解，支持林黛玉服饰+赛博朋克背景等创意合成，单张产品图生成8视角3D模型，甚至能通过图像计算几何题、解析科学图表。目前已在Gemini平台及Google AI Studio免费开放，API按张计费（0.039美元/图），助力设计师高效完成创意合成、3D建模等任务，基于NeRF技术与27万张用户测试图优化，大幅降低专业图像创作门槛，重新定义AI驱动的视觉设计边界。

Lyra

2025-08-28

图像生成[8]

图像生成^[8]