腾讯混元革新AI绘画微调范式:全扩散轨迹优化技术实现人工评估分数超300%跃升
腾讯混元AI绘画技术实现重大突破,融合Direct-Align全扩散轨迹优化与SRPO语义相对偏好优化,解决传统微调奖励作弊、效率低等瓶颈。人工评估显示真实感与美学质量提升300%,仅需10分钟即可完成模型训练,支持灵活风格控制,推动AI绘画向高质量、个性化应用迈进。
字节跳动港大联合发布Mini-o3:低成本复现并超越o3视觉推理
字节跳动与香港大学联合开发的开源模型Mini-o3,实现多轮视觉推理突破:以最多6轮训练数据,支持测试时数十轮深度推理,解决传统模型训练成本高、推理深度有限痛点。在高难度视觉搜索任务中超越现有开源模型,依托VisualProbe数据集与两阶段训练法,推动机器人视觉、医疗影像等领域应用。
蚂蚁集团推出全球首个智能眼镜可信连接框架gPass 重构数字生活入口
AI眼镜成下一代智能终端,但面临生态碎片化难题。蚂蚁集团推出全球首个智能眼镜可信连接技术框架gPass,以安全、交互、连接为核心,破解软硬件不统一、应用匮乏、服务割裂痛点,构建全链路安全防护、自然多模态交互及跨设备协同标准,已落地支付、文旅、医疗等场景,加速行业普及,重新定义数字生活入口。
华为发布全新机器人学习开源Python框架Ark
华为诺亚方舟实验室等联合推出开源Python机器人学习框架Ark,旨在解决传统机器人开发依赖C/C++、学习门槛高、工具链分散等瓶颈。框架深度兼容PyTorch等AI生态,支持仿真与实机无缝切换,兼顾Python易用性与高性能,助力降低开发门槛、加速机器人自主智能创新。
快手可灵AI数字人技术公开:从对口型到全身表演,数字人迈入“会表演”时代
快手可灵AI推出Kling-Avatar数字人技术,突破传统数字人僵硬局限,通过多模态大语言模型实现"全身自然表演"。支持文本/音频/图像输入,生成含表情、肢体、情绪的流畅视频,口型精准、动作连贯。技术已开放公测,助力虚拟主播、动画制作等内容创作,重新定义数字人表演边界。
语音语言模型(LSLM)破局:全球首个开源端到端框架LLaSO树立研究新基准
在语音语言模型(LSLM)面临架构碎片化、数据不透明等瓶颈时,北京深度逻辑智能推出全球首个完全开源、端到端语音大模型框架LLaSO。该框架含数据对齐(1200万样本)、指令微调(1350万样本)、评估基准(1.5万测试样本)三大核心组件,解决行业痛点,推动语音AI迈向开放可及未来。
OpenVision 2发布:极简生成式视觉预训练摒弃对比学习,性能效率全面超越CLIP
OpenVision 2掀起视觉预训练“减法革命”,以极简设计挑战CLIP霸权:砍掉文本编码器与对比学习,仅保留图像→描述生成任务,训练效率提升1.5-2倍、显存占用减半,性能媲美CLIP,在OCR、图表理解等细粒度任务更优。依托Recap-DataComp-1B v2高质量数据,推动视觉大模型降门槛。
AI医疗平台Doctronic完成2000万美元A轮融资,以生成式AI推动从初筛到诊疗的“AI医生”服务普及
AI医疗平台Doctronic完成2000万美元A轮融资,Lightspeed领投。其“AI前置初筛+人类医生兜底”模式,依托生成式AI+代理式架构实现高效问诊,累计处理1500万次医疗对话,每周服务5万次,助力解决挂号难、偏远地区就医不便等医疗可及性痛点,推动“AI+医疗”创新落地。
Trigger.dev开源平台发布:状态快照技术赋能AI代理与工作流开发
Trigger.dev是Y Combinator孵化的开源AI工作流平台,基于CRIU技术实现任务"存档读档",解决Serverless超时限制与长时任务资源占用痛点。支持小时/天级任务无间断运行,等待时释放资源,跨服务器恢复,内存压缩率超60%。对比传统工具,冷启动减少83%,状态一致性更高,已助力AI视频生成、招聘匹配等场景降本增效,开发者可自托管或使用云服务快速接入。
Meta与EssilorLuxottica合作Ray-Ban HUD智能眼镜泄露:集成AI导航与sEMG腕带手势控制
Meta Ray-Ban HUD智能眼镜集成Meta AI与实时步行导航,单眼HUD设计平衡信息与现实观察。创新sEMG腕带实现手势控制,解放双手提升交互效率。与EssilorLuxottica合作,定位实用时尚,预计2025年发布,引领可穿戴设备新潮流。
OpenAI推出GPT-5-Codex:智能编程迈入新时代,Codex平台全面升级
OpenAI 2025年发布GPT-5-Codex,深度优化的AI编程助手。核心“agentic coding”实现从辅助到自主协作,能主动规划任务、处理复杂项目(如大规模重构),动态平衡效率与深度:简单任务token减93.7%,复杂任务推理时间翻倍。结合Codex CLI开源及IDE扩展,重新定义开发者与AI协作,提升开发效率。
Meta新论文LSP方法陷争议:被指忽视前人研究,创新性存疑
Meta新论文《Language Self-Play》提出LSP方法,通过单一模型自我博弈(挑战者-解决者角色切换)实现大模型无数据训练,结合强化学习优化,实验显示性能接近数据驱动模型。但该方法因被指忽视2023-2025年相关前人研究,引发学术争议。
全球首个商业化叠衣机器人Isaacs正式上岗洗衣房
全球首个商业化叠衣机器人Isaacs于旧金山Tumble Laundry洗衣房正式上岗,由前苹果AI高管团队创立的Weave Robotic研发。其搭载自主VLA模型,实现70%自主叠衣,AI主导+人工辅助提升效率,解决传统机器人痛点,开启智能叠衣服务商业化时代。
OpenAI华人明星研究员姚顺雨离职,开启AI“下半场”新篇章
OpenAI核心研究员姚顺雨离职引AI界关注。这位清华姚班校友、普林斯顿博士,以ReAct、思维树等成果成AI推理领域领军者,提出“AI下半场”理论,推动行业从技术突破转向现实价值落地。其动向或影响全球AI人才流动与技术方向。
英伟达推出NVIDIA Rubin CPX GPU:首款百万级token上下文AI推理芯片,性能与内存双重突破
英伟达发布新一代AI推理GPU Rubin CPX,专为超大上下文处理与生成式视频打造,配备128GB GDDR7内存、30 PFLOPS算力(NVFP4精度优化),集成视频编解码单元,投资回报率达50倍,2026年底上市,重塑AI推理效率与应用边界。
全球大模型开源生态报告2.0发布:中美贡献超四成核心力量,AI编程工具爆发式增长
《全球大模型开源开发生态全景与趋势报告2.0》发布,蚂蚁开源联合Inclusion AI勾勒AI开源生态。数据显示,62%核心项目诞生于“GPT时刻”后,平均年龄30个月,迭代加速至2-3个月;中美开发者贡献超40%,成“双核引擎”。技术上,MoE架构突破参数瓶颈,多模态成主流,AI编程工具爆发重塑开发流程,中国以开放权重策略推动生态创新。
小红书发布FireRedTTS-2对话合成模型 重塑AI播客与多语言语音生成
小红书发布新一代对话合成模型FireRedTTS-2,双模块驱动革新:离散语音编码器提升效率与语义,双Transformer合成模型实现多说话人自然切换。解决行业灵活性不足、发音错误等痛点,流式解码低延迟,支持多语言,自然度逼近真人,赋能AI播客、智能对话等场景,成AIGC音频重要工具。
OpenAI与微软签署谅解备忘录 战略合作开启新篇章聚焦AI工具与安全
2025年9月,OpenAI与微软签署新阶段非约束性谅解备忘录,标志AI战略合作升级。双方合作基于超130亿美元投资,微软Azure提供算力支持,OpenAI技术赋能其产品;新协议以安全为核心原则,将深化技术研发与商业化,巩固行业领先地位,影响全球AI生态格局。
马拉维农民借AI聊天机器人Ulangizi应对气候危机,农业生产模式悄然变革
马拉维农民灾后借AI助手Ulangizi重获生机。这款基于LLaMA模型、依托WhatsApp的工具,提供病虫害诊断、种植管理及气候适应建议,助农户如Alex Maere改种土豆增收超800美元。Ulangizi推动经验种植转向科学管理,为非洲应对气候变化、农业数字化开辟新路径。
OpenAI董事长Bret Taylor:AI代理重塑客户服务,AI热潮再现互联网泡沫盛况
硅谷老兵、OpenAI前董事长Bret Taylor创立Sierra,以AI代理重塑客户服务。其AI代理具备自主性,可理解需求、访问企业系统执行复杂任务(如套餐变更),区别于传统聊天机器人。采用“按成功处理案例收费”模式,已助力企业处理70%-80%客服请求,平均耗时2分钟,大幅降本增效。