多模态生成AI赛道再迎重磅消息:生数科技宣布完成数亿元A轮融资,由博华资本领投,百度战投、北京市人工智能产业投资基金等老股东持续跟投,建发新兴投资等产业资本新晋加入。这家成立仅两年的公司,凭借其多模态大模型“Vidu”在技术与商业化上的亮眼表现,正迅速成为全球AI内容生成领域的焦点。
1. 数亿元A轮融资落地,资本加注多模态赛道
此次融资并非生数科技首次获得资本青睐。在此之前,公司已完成天使轮、天使+轮、Pre-A轮等多轮融资,投资方名单中不乏启明创投、蚂蚁集团、百度战投等一线机构。而本轮融资的领投方博华资本,在硬科技与AI领域投资经验丰富,其入局进一步印证了生数科技在多模态赛道的头部地位。
生数科技的核心团队源自清华大学人工智能研究院,技术底蕴深厚。CEO骆怡航博士在公开场合多次强调,多模态生成技术正处于“从实验室走向生产力”的关键阶段。此次融资资金将主要用于三方面:一是持续突破Vidu模型的智能上限,拓展技术应用广度;二是加强产品生态建设与用户服务;三是加速全球商业布局,深化与海外客户的合作。
Tips:多模态大模型指能够同时理解和生成文本、图像、音频、视频等多种模态信息的人工智能模型,是当前AI领域的核心发展方向之一。其技术难点在于跨模态信息的统一表征与生成一致性,应用场景覆盖内容创作、智能交互、工业设计等多个领域。
2. Vidu多模态大模型:技术硬实力与核心突破
作为生数科技的核心产品,Vidu多模态大模型自2023年4月发布以来,始终保持着快速迭代节奏。其定位是“对标OpenAI Sora的全栈式内容生成工具”,目前已覆盖图片、视频、音频生成完整能力,并在“可控性”与“一致性”两大技术痛点上实现突破。
2.1 对标Sora与Nano Banana:技术路线与差异化优势
在视频生成领域,OpenAI Sora凭借对物理世界的精细模拟能力,至今仍是行业标杆。而Vidu被业界认为是“国内最接近Sora技术路线的模型”——两者均采用Diffusion Model(扩散模型)与Transformer架构结合的技术路径,支持生成高清、长时序视频。不过,Vidu在“参考生成”功能上另辟蹊径:用户可上传参考图或视频片段,模型能精准还原主体特征(如人物面容、物体形态)并生成新内容,这一能力使其在商业素材创作中更具实用性。
2024年9月发布的Vidu Q1生图模型,则直接对标Google的Nano Banana。与侧重轻量化部署的Nano Banana不同,Vidu Q1聚焦“高精度还原”:支持同时输入7张参考图(国内多图参考数量上限),在多人、多场景生成中能精准保持主体面貌与特征。这一功能仅用两个月研发完成,距离Google发布Nano Banana仅隔10天,展现出极强的技术响应速度。
2.2 核心功能创新:从主体库到“参考生”能力
Vidu的“主体库”功能是其商业化的关键抓手。创作者可将人物、物体等核心主体上传至库中,生成视频或图片时直接调用,确保主体特征在不同场景中保持一致。截至目前,该功能已积累超100万主体资产,使用次数突破2000万次,有效解决了AI生成中“主体漂移”的行业痛点。凭借在参考生成领域的技术领先,生数科技也被业内称为“参考生之父”。
此外,Vidu的视频生成能力持续进化:累计生成视频超4亿条,其中核心的“参考生成视频”超1亿条,商业内容素材占比过半。这意味着其已从“技术演示工具”转变为真正的生产力工具,广泛应用于广告制作、电商营销等实战场景。
2.3 业务数据印证:从实验室到生产力工具
以下核心数据直观展现了Vidu的商业化进展:
指标 | 数值 | 说明 |
---|---|---|
年度经常性收入(ARR) | $2000万+ | 上线8个月内实现,验证商业化能力 |
覆盖国家/地区 | 200+ | 全球化业务布局初步成型 |
累计生成视频数量 | 4亿+ | 含1亿+核心参考生成视频 |
商业内容素材占比 | 50%+ | 生产力场景渗透加深 |
主体库资产数量 | 100万+ | 创作者核心资源沉淀 |
Tips:年度经常性收入(ARR)是衡量SaaS类产品商业化能力的核心指标,指将当前季度收入年化后的金额。Vidu在8个月内实现2000万美元ARR,意味着其单月稳定收入已超160万美元,在AI生成领域处于全球第一梯队。
3. 商业化提速:头部客户覆盖与场景落地
生数科技的商业化能力同样亮眼。目前,其B端客户已覆盖电商、媒体、品牌、办公软件等多个领域,包括京东、亚马逊、飞书、央视动漫、安踏、荣耀、联想等头部企业。
在电商领域,与京东、亚马逊的合作聚焦“商品视频自动化生成”。传统电商商品视频需专业团队拍摄剪辑,单条成本数百至数千元,而通过Vidu,商家上传商品图与文案即可生成多风格视频,成本降低90%以上,效率提升数十倍。安踏、飞鹤等品牌则将Vidu用于营销素材制作,快速生成适配抖音、小红书等平台的短视频内容。
媒体与办公场景中,央视动漫利用Vidu辅助动画分镜生成,飞书则计划将其能力集成至办公套件,支持用户一键生成汇报演示视频。海外市场方面,生数科技已与头部互联网公司HubX达成合作,探索Vidu在海外社交媒体内容创作中的应用。
4. 多模态赛道竞争加剧,生数科技的领跑逻辑
当前,多模态生成AI已进入“技术竞速”与“商业化卡位”并行的阶段。全球范围内,OpenAI Sora凭借先发优势占据技术高地,Runway、Pika等创业公司聚焦细分场景,Google、Meta等巨头则通过开源模型扩大影响力。而在国内,字节跳动、阿里巴巴、百度等大厂加速布局,魔珐科技、硅基智能等创业公司亦各有侧重。
生数科技的竞争优势在于“技术迭代速度”与“商业化落地能力”的双轮驱动:一方面,其从视频生成拓展至图文音全模态,Q1生图模型10天内对标Google,展现出极强的研发响应速度;另一方面,2000万美元ARR与50%商业素材占比,证明其已打通“技术-产品-收入”闭环。
此次融资后,生数科技计划加大模型研发投入,探索更长时序、更高精度的内容生成,并深化全球市场布局。随着AI内容生成技术从“能用”向“好用”进化,生数科技能否持续领跑,推动多模态技术重塑数字内容生产方式,值得行业持续关注。
评论