扩散模型[8]

腾讯混元革新AI绘画微调范式:全扩散轨迹优化技术实现人工评估分数超300%跃升

腾讯混元AI绘画技术实现重大突破,融合Direct-Align全扩散轨迹优化与SRPO语义相对偏好优化,解决传统微调奖励作弊、效率低等瓶颈。人工评估显示真实感与美学质量提升300%,仅需10分钟即可完成模型训练,支持灵活风格控制,推动AI绘画向高质量、个性化应用迈进。

AI视频生成初创公司Higgsfield完成5000万美元A轮融资,GFT Ventures领投

AI视频生成公司Higgsfield完成5000万美元A轮融资,以“Click-to-Video”技术简化视频创作,吸引超1100万用户,瞄准6000亿短视频市场。融资将用于扩展企业级功能、扩充团队及市场推广,助力从个人到企业用户高效创作,推动内容产业生态重塑,同时面临市场竞争等挑战。

蚂蚁集团与人大联合发布业界首个原生MoE架构扩散语言模型LLaDA-MoE 即将开源

蚂蚁集团与人大联合研发业界首个原生MoE架构dLLM——LLaDA-MoE。该模型基于20TB数据训练,性能比肩主流自回归模型,推理速度有数倍优势,即将完全开源。其融合动态路由与扩散机制,在代码生成、数学推理等任务表现突出,为AI领域提供新研究方向与高效解决方案。

腾讯开源混元图像2.1:原生2K生图性能逼近商业模型,Hugging Face榜单跃居全球第三

腾讯混元图像2.1开源引发全球关注,原生2K生图达商业级水准,支持中英文复杂语义。采用DiT架构与双文本编码器,提升生成效率与质量,Hugging Face榜单快速攀升至第三。开源生态完善,助力开发者高效创作,推动视觉AI普惠化。

爱诗科技完成6000万美元B轮融资 刷新国内视频生成领域单次最大融资纪录 PixVerse V5图生视频全球第一

AI视频生成企业爱诗科技获阿里巴巴领投6000万美元B轮融资,系国内视频生成领域最大单次融资。公司以“让每个人成为生活的导演”为愿景,全球用户超1亿,自研PixVerse模型完成五次迭代,V5版本图生视频全球测评第一,开放平台半年生成视频超千万次,覆盖动态壁纸、公益等多元场景。

杜克大学陈怡然团队DPad方法:破解扩散大模型全局规划与效率两难,实现61倍加速

扩散大语言模型(dLLM)凭借全局规划能力在长文本生成等任务中表现突出,但因需对未来文本进行双向注意力计算,存在计算冗余、推理速度慢的痛点。杜克大学陈怡然团队提出的DPad方法,通过动态窗口聚焦近处关键“草稿纸”(后缀token)、先验丢弃远处冗余信息,实现效率与规划的平衡。该方案无需训练即可即插即用,在主流dLLM上实现61倍推理加速,精度损失不足0.5%,为实时长文本生成、边缘设备部署等场景扫清障碍,推动扩散模型工业化落地。

谷歌Nano Banana:AI穿搭生成技术如何重塑时尚内容生态

谷歌AI模型“Nano Banana”因命名调整引发关注,其核心在于强大的AI穿搭生成能力。该模型基于扩散模型优化,融合文本与图像识别技术,能精准解析服饰材质、风格,实现“秒级生成”且节省40%算力。它重塑时尚内容生态,降低OOTD创作门槛,电商平台如SHEIN接入后退货率降低18%。同时,AI对时尚博主带来机遇与挑战,头部博主探索“真人+AI”模式,腰部博主面临流量压力。目前模型在小众品牌细节生成上仍有不足,行业关注技术边界与版权伦理,未来人机协作或成主流。

香港理工大学与达特茅斯学院团队:Prophet解码策略大幅加速扩散语言模型推理

扩散语言模型(DLMs)因并行解码潜力被视为文本生成新方向,但推理效率瓶颈限制其落地。香港理工大学与达特茅斯学院团队发现“早期答案收敛”现象:DLMs在解码早期(20%-40%迭代步数)即可形成稳定语义,后续多为局部优化。基于此提出的Prophet解码策略,通过监测top-2候选token置信度间隙动态停止推理,实现2.8-3.4倍加速,准确率仅微降(如GSM8K加速3.2倍,准确率降0.3%)。该“即插即用”算法无需额外训练,适配主流DLM模型,可将响应延迟压缩至亚秒级,助力智能客服、实时翻译等场景落地,为边缘设备部署开辟路径,推动扩散语言模型从实验室走向产业应用。