图像生成[7]

腾讯混元革新AI绘画微调范式:全扩散轨迹优化技术实现人工评估分数超300%跃升

腾讯混元AI绘画技术实现重大突破,融合Direct-Align全扩散轨迹优化与SRPO语义相对偏好优化,解决传统微调奖励作弊、效率低等瓶颈。人工评估显示真实感与美学质量提升300%,仅需10分钟即可完成模型训练,支持灵活风格控制,推动AI绘画向高质量、个性化应用迈进。

Google Gemini登顶美国App Store免费榜:Nano Banana AI图像编辑模型驱动

Google Gemini登顶美区App Store免费榜,内置Nano Banana AI图像编辑模型成关键。该模型以角色一致性控制(解决主体失真)、多模态交互(支持13图融合、地图标记生成)、高效处理(单次10-20秒)为核心优势,免费用户每日可编100张图,正重塑社交创作、3D打印等场景,成AI图像编辑新标杆。

Vidu Q1参考生图全球上线:支持7张参考图刷新AI生图技术上限

Vidu Q1参考生图全球上线,支持一次性上传7张参考图,远超谷歌Nano Banana等主流工具(最多3张)。多图融合助力创意合成、时尚穿搭、专业海报及跨次元合照,主体一致性强,操作简洁,可生成1080p高清图。现免费试用,开启AI图像创作新可能。

腾讯开源混元图像2.1:原生2K生图性能逼近商业模型,Hugging Face榜单跃居全球第三

腾讯混元图像2.1开源引发全球关注,原生2K生图达商业级水准,支持中英文复杂语义。采用DiT架构与双文本编码器,提升生成效率与质量,Hugging Face榜单快速攀升至第三。开源生态完善,助力开发者高效创作,推动视觉AI普惠化。

字节跳动Seedream 4.0全量开放 多模态创作重新定义AI生图

字节跳动AI生图模型Seedream 4.0已全量开放,通过豆包、即梦等C端平台及火山引擎面向用户与企业。该模型支持文本、图像、草图多模态混合输入,可实现跨次元合影、故事化分镜等创作,主体特征跨场景不漂移,4K超高清图8秒即可生成。依托特征锚点技术与分块渲染优化,其多图融合精度达98%,中文意图理解准确率92%,较Midjourney、DALL·E 3更适配本土场景。从用户“跨次元合影”“虚拟换装”到企业家居设计、短视频素材生产,20余种场景覆盖趣味玩图与商业设计,4K图商用成本低至0.3元/张,效率较国际竞品提升3倍,重塑AI生图从趣味到专业的内容生产方式。

谷歌Nano Banana:AI穿搭生成技术如何重塑时尚内容生态

谷歌AI模型“Nano Banana”因命名调整引发关注,其核心在于强大的AI穿搭生成能力。该模型基于扩散模型优化,融合文本与图像识别技术,能精准解析服饰材质、风格,实现“秒级生成”且节省40%算力。它重塑时尚内容生态,降低OOTD创作门槛,电商平台如SHEIN接入后退货率降低18%。同时,AI对时尚博主带来机遇与挑战,头部博主探索“真人+AI”模式,腰部博主面临流量压力。目前模型在小众品牌细节生成上仍有不足,行业关注技术边界与版权伦理,未来人机协作或成主流。

谷歌Gemini 2.5 Flash Image:多模态AI重塑图像创作边界

谷歌正式发布AI图像模型Gemini 2.5 Flash Image(前身为“nano-banana”),凭借多图语义级融合、2D转8视角3D模型及图像逻辑推理三大核心功能引发行业关注。该模型基于Diffusion Transformer架构,可实现跨图片光影匹配与跨模态理解,支持林黛玉服饰+赛博朋克背景等创意合成,单张产品图生成8视角3D模型,甚至能通过图像计算几何题、解析科学图表。目前已在Gemini平台及Google AI Studio免费开放,API按张计费(0.039美元/图),助力设计师高效完成创意合成、3D建模等任务,基于NeRF技术与27万张用户测试图优化,大幅降低专业图像创作门槛,重新定义AI驱动的视觉设计边界。