视频生成[16]

OpenAI发布Sora 2:分级开放免费与Pro版,新增音频生成与自我插入功能

OpenAI新一代AI视频生成器Sora 2正式亮相,带来音频同步生成、“自我插入”等突破性升级,支持音画一体创作与个性化形象融入视频。其采用分级开放策略:免费版限邀请测试,Pro版绑定ChatGPT Pro订阅,解锁长时长、高分辨率等全功能。该技术不仅提升内容创作效率,更重新定义AI视频工具商业化路径,引发行业广泛关注。

阿里巴巴发布Wan2.5-Preview:原生多模态架构重塑视觉生成

2025年9月24日,阿里巴巴发布视觉生成模型Wan2.5-Preview,以原生多模态架构实现文本、图像、音频、视频深度协同生成。支持1080p电影级视频输出,音视频原生同步,动态自然度提升37%;图像支持像素级对话式编辑,细节真实感升29%。已落地电商、短片创作等场景,助力内容创作效率提升。

YouTube 20周年:AI驱动下一个“大爆炸”

YouTube成立20周年:从2005年前PayPal员工创立的视频分享平台,凭UGC模式崛起,2006年被Google以16.5亿美元收购,如今估值达5500亿美元。当前押注AI为“下一个大爆炸”,推出AI创作工具矩阵,涵盖生成视频、智能剪辑与个性化推荐,提升创作效率10倍,驱动内容生产革命,重塑数字媒体行业规则。

Wan2.2视频模型发布:AI视频生成迈入电影级美学与720P高效输出新阶段

2025年9月,Wan-AI团队发布Wan2.2基础视频模型,采用MoE架构解决"高质量与高效率"核心矛盾,结合电影级美学数据集与50亿参数模型,将720P@24fps高清视频生成带入消费级硬件时代。支持角色动画、音频驱动,开源生态完善,重新定义AI视频创作边界。

Luma Labs AI发布Ray3:全球首个推理视频模型带来工作室级HDR创作

Luma Labs发布全球首个推理视频模型Ray3,以工作室级HDR输出、快速草稿模式及先进物理一致性三大核心能力,重新定义AI视频生成技术边界。现于Dream Machine平台免费开放,助力专业创作者与普通用户实现从“AI草稿”到“专业级内容”的跨越。

生数科技完成数亿元A轮融资 Vidu多模态大模型加速全球布局

生数科技完成数亿元A轮融资,博华资本领投,百度战投等跟投。其核心产品Vidu多模态大模型对标OpenAI Sora,具备图文音视频生成能力,以参考生成、主体库功能解决行业痛点,服务京东、亚马逊等头部客户,ARR超2000万美元,覆盖200+国家,推动AI内容生产变革。

YouTube CEO专访:AI赋能创作者,变现新模式与电视市场新布局

2025年YouTube“Made on YouTube”活动上,CEO Neal Mohan发布AI工具矩阵,覆盖内容创作(背景生成、智能编辑)、直播优化及品牌合作,助力创作者简化流程、提升变现效率,推动从流量依赖转向多元收益。平台同时发力电视大屏,以技术重构内容生态,重新定义产业未来。

宇树科技开源UnifoLM-WMA-0:机器人动作预测通用世界模型

宇树科技开源世界模型UnifoLM-WMA-0,实现机器人动作预测与环境仿真一体化,通过双模式架构精准预判物理交互后果,降低试错成本,推动通用机器人从被动执行向主动决策升级。开源代码、模型权重及推理工具已上线GitHub,助力开发者快速应用于机械臂抓取、避障等场景。

快手可灵AI数字人技术公开:从对口型到全身表演,数字人迈入“会表演”时代

快手可灵AI推出Kling-Avatar数字人技术,突破传统数字人僵硬局限,通过多模态大语言模型实现"全身自然表演"。支持文本/音频/图像输入,生成含表情、肢体、情绪的流畅视频,口型精准、动作连贯。技术已开放公测,助力虚拟主播、动画制作等内容创作,重新定义数字人表演边界。

英伟达推出NVIDIA Rubin CPX GPU:首款百万级token上下文AI推理芯片,性能与内存双重突破

英伟达发布新一代AI推理GPU Rubin CPX,专为超大上下文处理与生成式视频打造,配备128GB GDDR7内存、30 PFLOPS算力(NVFP4精度优化),集成视频编解码单元,投资回报率达50倍,2026年底上市,重塑AI推理效率与应用边界。