标签：多模态

爱诗科技完成6000万美元B轮融资刷新国内视频生成领域单次最大融资纪录 PixVerse V5图生视频全球第一

市场动态

爱诗科技完成6000万美元B轮融资刷新国内视频生成领域单次最大融资纪录 PixVerse V5图生视频全球第一

AI视频生成企业爱诗科技获阿里巴巴领投6000万美元B轮融资，系国内视频生成领域最大单次融资。公司以“让每个人成为生活的导演”为愿景，全球用户超1亿，自研PixVerse模型完成五次迭代，V5版本图生视频全球测评第一，开放平台半年生成视频超千万次，覆盖动态壁纸、公益等多元场景。

Lyra

2025-09-11

Interfaze LLM Alpha：模块化多模态架构成开发者工具链新选择

产品速递

Interfaze LLM Alpha：模块化多模态架构成开发者工具链新选择

2025年9月推出的Interfaze LLM Alpha，是专为开发者打造的多模态AI工具链。其核心创新在于Router-Modules架构，通过“小模型专精+大模型统筹”模式，高效解决结构化数据提取、网页信息抓取、代码安全执行及OCR解析等开发痛点，冷启动延迟降低75%，内存占用节省70%。工具兼容OpenAI API协议，开发者可无缝迁移现有应用，无需重构代码。实测显示，其LinkedIn公司描述抓取准确率达92%，结构化数据提取F1值95.3，成本较GPT-4.1低57%，适合高频爬虫与批量处理场景。作为模块化架构代表，Interfaze推动AI模型从“参数竞赛”转向“架构优化”，为开发者提供高效、低成本的多模态开发解决方案。

Lyra

2025-09-10

产品速递

字节跳动Seedream 4.0全量开放多模态创作重新定义AI生图

字节跳动AI生图模型Seedream 4.0已全量开放，通过豆包、即梦等C端平台及火山引擎面向用户与企业。该模型支持文本、图像、草图多模态混合输入，可实现跨次元合影、故事化分镜等创作，主体特征跨场景不漂移，4K超高清图8秒即可生成。依托特征锚点技术与分块渲染优化，其多图融合精度达98%，中文意图理解准确率92%，较Midjourney、DALL·E 3更适配本土场景。从用户“跨次元合影”“虚拟换装”到企业家居设计、短视频素材生产，20余种场景覆盖趣味玩图与商业设计，4K图商用成本低至0.3元/张，效率较国际竞品提升3倍，重塑AI生图从趣味到专业的内容生产方式。

Lyra

2025-09-09

TeleAI提出ATE框架破解VLA模型跨本体泛化难题，数据需求减少90%

学术论文

TeleAI提出ATE框架破解VLA模型跨本体泛化难题，数据需求减少90%

在具身智能领域，视觉-语言-动作（VLA）模型是实现机器人通用操作的核心，但跨本体泛化难题（不同机器人硬件适配需大量数据）制约落地。中国电信人工智能研究院（TeleAI）提出ATE框架，通过“调分布”破解痛点：无需修改模型架构，以双阶段“对齐-引导”设计，先将目标本体动作分布嵌入预训练潜空间，再用少量数据引导策略更新。该框架使数据需求减少90%、训练时间缩短50%，跨本体泛化准确率提升15-20%，兼容主流VLA模型。开源代码与技术资料已发布，可快速适配工业、家庭等场景机器人，大幅降低具身智能落地门槛，推动机器人从实验室走向柔性制造、家庭服务等真实场景。

Lyra

2025-09-09

Alterego：“意念打字”革命，Silent Sense技术开启无声人机交互

产品速递

Alterego：“意念打字”革命，Silent Sense技术开启无声人机交互

Alterego：重新定义人机交互的“意念打字”革命。其搭载的“Silent Sense”技术，无需出声或动手，通过捕捉默念时口腔、喉部肌肉细微肌电信号，经深度神经网络实时解码为文字或指令，误码率低于5%。核心优势在于无声交互与免提操作，适配图书馆、会议、驾驶等多场景，且通过个性化校准和本地加密保障隐私。可提升办公效率、辅助飞行员等专业人士作业，更能为语言障碍者搭建沟通桥梁。2024年商用在即，Alterego正以“一念直达”的体验，开启人机交互新篇章。

Lyra

2025-09-09

市场动态

Hello Patient以AI破解医疗沟通"前门危机"，解放医护提升效率

医疗沟通“前门危机”下，患者联系诊所近半数尝试未果，医护41%工作时间耗于电话协调，致诊所年均损失18.7万美元。Hello Patient以会话式AI代理破局，通过深度集成EHR系统与HIPAA合规加密技术，自动化预约、分诊等沟通场景，释放医护回归诊室。该公司获ScaleVP领投2250万美元A轮融资，累计达3020万美元，瞄准46亿美元“患者前门”市场。其核心优势在于EHR深度适配与零留存数据架构，支持语音/短信双通道服务，已覆盖急诊、医美等多领域。医疗会话式AI赛道年增速34%，Hello Patient凭技术壁垒与合规护城河，正引领医疗沟通智能化变革。

Lyra

2025-09-08

前沿资讯

谷歌Nano Banana：AI穿搭生成技术如何重塑时尚内容生态

谷歌AI模型“Nano Banana”因命名调整引发关注，其核心在于强大的AI穿搭生成能力。该模型基于扩散模型优化，融合文本与图像识别技术，能精准解析服饰材质、风格，实现“秒级生成”且节省40%算力。它重塑时尚内容生态，降低OOTD创作门槛，电商平台如SHEIN接入后退货率降低18%。同时，AI对时尚博主带来机遇与挑战，头部博主探索“真人+AI”模式，腰部博主面临流量压力。目前模型在小众品牌细节生成上仍有不足，行业关注技术边界与版权伦理，未来人机协作或成主流。

Lyra

2025-09-08

Anycoder平台Carrot（胡萝卜）AI：专攻创意编程，游戏3D生成能力亮眼

前沿资讯

Anycoder平台Carrot（胡萝卜）AI：专攻创意编程，游戏3D生成能力亮眼

AI模型命名迎来趣味化新潮流，继谷歌“Nano Banana”后，神秘模型“Carrot（胡萝卜）”登陆Anycoder平台引发热议。作为Hugging Face上的AI代码模型横向对比实验室，Carrot与DeepSeek V3、Gemini 2.5 Pro等明星模型同台竞技，凭借创意编程场景深度优化形成差异化优势，尤其在游戏开发、3D建模及动画生成等视觉化编程任务中表现亮眼。社区实测显示，其可快速生成“兔子躲胡萝卜子弹”互动小游戏、体素风格3D宝塔花园及P5.js超粒子动画，代码生成效率与创意实现能力获开发者认可。这种以蔬果命名的趋势不仅降低技术认知门槛，更推动AI代码模型向垂直场景专精化发展，为创意编程领域注入新活力。

Lyra

2025-09-08

产品速递

拍我AI限时免费开放，零门槛体验AI视频创作轻量化新纪元

9月5日-10日，国内AI视频生成平台“拍我AI”（PixVerse中国版）启动免费开放日活动，用户可零门槛体验AI视频创作新纪元。作为首批集成谷歌Gemini 2.5 Flash Image（Nano Banana）技术的平台，其凭借低延迟特性，30秒短片数秒生成，支持文生视频（3秒）与图生视频（30秒），搭配Agent助手自动生成脚本、音效字幕，简化“上传-生成-微调”流程。模板覆盖宠物短剧、3D手办动画等多元场景，全球用户已破亿，所有视频自动添加“AI生成”水印保障合规。即刻参与，零门槛体验谷歌技术加持的轻量化创作，让灵感秒变动态画面！

Lyra

2025-09-07

字节跳动Seed团队发布Robix：机器人单模型一体化智能破解散装大脑困局

前沿资讯

字节跳动Seed团队发布Robix：机器人单模型一体化智能破解散装大脑困局

【Robix机器人全能大模型：字节跳动突破传统机器人多模块拼接瓶颈，引领单模型一体化智能时代】传统机器人因语言交互、任务规划、感知模块“散装”协同低效，模块通信耗时占决策时间40%以上。2025年字节跳动Seed团队推出Robix，首次实现推理、规划与自然语言交互单模型集成，通过图像与语言输入直接完成全流程处理，减少信息损耗。其核心依托思维链推理（模拟人类分步思考）与三阶段递进训练（持续预训练-监督微调-强化学习），在GR-3测试中任务进度达92.5%，领先GPT-4o（64.4%）和Gemini 2.5 Pro（88.2%），长时任务成功率92%超越竞品。该突破推动机器人行业从“模块数量”转向“智能深度”竞争，助力复杂场景落地。

Lyra

2025-09-07

多模态[57]

多模态^[57]