AIGC[17]

B站开源IndexTTS-2.0:零样本TTS迈入情感与时长双维度精准控制新时代

B站Index团队开源新一代文本转语音模型IndexTTS-2.0,创新“时间编码”机制实现情感与时长双维度精准控制,支持零样本多情感、跨语言合成及自然语言描述引导情绪,性能指标超越现有SOTA,已在B站AI视频创作大规模应用,为开发者提供先进TTS研究实践平台。

李飞飞团队研发Marble模型:自动化生成超大规模3D虚拟世界

李飞飞团队Marble 3D世界生成模型,可通过文本或图像提示生成超大规模、细节丰富且空间连贯的虚拟环境,为3D AIGC领域带来新突破。该模型融合扩散模型、NeRF及大型语言模型技术,有望赋能游戏开发、元宇宙构建及自动驾驶模拟训练等场景,引发业界对其计算效率与可控性的关注。

腾讯混元革新AI绘画微调范式:全扩散轨迹优化技术实现人工评估分数超300%跃升

腾讯混元AI绘画技术实现重大突破,融合Direct-Align全扩散轨迹优化与SRPO语义相对偏好优化,解决传统微调奖励作弊、效率低等瓶颈。人工评估显示真实感与美学质量提升300%,仅需10分钟即可完成模型训练,支持灵活风格控制,推动AI绘画向高质量、个性化应用迈进。

快手可灵AI数字人技术公开:从对口型到全身表演,数字人迈入“会表演”时代

快手可灵AI推出Kling-Avatar数字人技术,突破传统数字人僵硬局限,通过多模态大语言模型实现"全身自然表演"。支持文本/音频/图像输入,生成含表情、肢体、情绪的流畅视频,口型精准、动作连贯。技术已开放公测,助力虚拟主播、动画制作等内容创作,重新定义数字人表演边界。

小红书发布FireRedTTS-2对话合成模型 重塑AI播客与多语言语音生成

小红书发布新一代对话合成模型FireRedTTS-2,双模块驱动革新:离散语音编码器提升效率与语义,双Transformer合成模型实现多说话人自然切换。解决行业灵活性不足、发音错误等痛点,流式解码低延迟,支持多语言,自然度逼近真人,赋能AI播客、智能对话等场景,成AIGC音频重要工具。

西湖大学发布AiraXiv与DeepReview:AI生成论文筛选评审前沿方案

AI生成论文激增致学术界“水文”筛查难题,西湖大学WestlakeNLP发布创新方案:AiraXiv预印本平台(首个AI生成论文专属渠道)与DeepReview AI审稿系统(模拟专家思考链)。二者协同实现AI论文分类管理、分钟级审稿,大幅提升筛选效率,破解传统审稿压力,引领AI时代学术评审新范式。

AI视频生成初创公司Higgsfield完成5000万美元A轮融资,GFT Ventures领投

AI视频生成公司Higgsfield完成5000万美元A轮融资,以“Click-to-Video”技术简化视频创作,吸引超1100万用户,瞄准6000亿短视频市场。融资将用于扩展企业级功能、扩充团队及市场推广,助力从个人到企业用户高效创作,推动内容产业生态重塑,同时面临市场竞争等挑战。

蚂蚁百宝箱发布Tbox超级智能体:多智能体协同驱动软件业进入“成果即服务”新纪元

蚂蚁百宝箱发布Tbox超级智能体,以多智能体协同推动AI向成果即服务(SaaO)跃迁。用户通过自然语言指令,无需代码即可分钟级获取PPT、网页等专业成果,支持按成果计费,重塑AI价值交付逻辑。

YC W25新秀Adam AI:AI驱动CAD,以语言指令重塑物理世界设计流程

Adam AI是旧金山Y Combinator初创公司,以“语言即设计”的Text-to-CAD技术革新CAD设计。用户通过自然语言或语音即可生成CAD模型,大幅降低3D打印等领域设计门槛,兼容专业软件提升工程师效率,正重塑物理世界数字化构建方式。

Vidu Q1参考生图全球上线:支持7张参考图刷新AI生图技术上限

Vidu Q1参考生图全球上线,支持一次性上传7张参考图,远超谷歌Nano Banana等主流工具(最多3张)。多图融合助力创意合成、时尚穿搭、专业海报及跨次元合照,主体一致性强,操作简洁,可生成1080p高清图。现免费试用,开启AI图像创作新可能。