多模态[57]

OpenAI与Jony Ive首次对话AI硬件项目:聚焦修复人机关系,打造自然融入生活的AI伴侣

OpenAI与Jony Ive合作推进秘密AI硬件项目,融合OpenAI多模态AI与LoveFrom设计哲学,以无屏幕交互、情感感知重塑人机关系。基于环境计算技术,设备可感知情绪、融入生活场景,从效率工具转向“伙伴”角色,是科技行业对人性化技术的重要探索。

全球首个时间序列原生模态开源语言模型OpenTSLM发布:突破传统AI时间盲区,多任务效率提升超千倍

OpenTSLM是斯坦福大学等机构研发的首个原生时间序列语言模型,突破传统模型长序列处理效率低、LLM无法理解时序动态特征的瓶颈。通过创新交叉注意力架构,效率提升数百倍,实现临床级准确性,支持医疗等领域自然语言交互,已开源,开启“时间智能”新可能。

OpenAI发布Sora 2:分级开放免费与Pro版,新增音频生成与自我插入功能

OpenAI新一代AI视频生成器Sora 2正式亮相,带来音频同步生成、“自我插入”等突破性升级,支持音画一体创作与个性化形象融入视频。其采用分级开放策略:免费版限邀请测试,Pro版绑定ChatGPT Pro订阅,解锁长时长、高分辨率等全功能。该技术不仅提升内容创作效率,更重新定义AI视频工具商业化路径,引发行业广泛关注。

医疗AI高分幻象:GPT-5等模型基准测试外的脆弱真相

医疗AI领域正面临"高分神话"与临床实战的割裂挑战。GPT-5等多模态模型虽在MedQA等权威基准测试中超越人类专家,却在真实场景暴露脆弱性:依赖文本"猜图"、提示词敏感致诊断反转、编造伪医学逻辑等问题频发。当前行业正从"题库刷分"转向临床导向评估,通过人类-AI协作指标、动态测试集等革新,保障医疗AI安全落地。

Dayflow:视觉语言模型驱动,重新定义macOS语义化工作追踪

传统时间追踪工具仅记录应用使用时长,难以区分具体活动。2024年macOS应用Dayflow借助视觉语言模型(VLM)分析屏幕内容,将抽象的应用时长转化为“审阅PR评论”“调试代码”等语义化活动记录,实现从应用级到活动级的精准追踪。支持本地运行保护隐私,帮助用户回溯时间分配、优化工作习惯,重新定义个人工作追踪颗粒度。

谷歌Search Live美国上线:AI驱动视频搜索开启实时互动新纪元

2025年9月谷歌推出Search Live功能,将实时视频与AI深度融合,用户通过手机摄像头拍摄场景提问,AI即可即时语音回答并推送资源链接,实现“所见即所问”。该功能打破传统文字搜索局限,依托VidLens引擎实现低延迟处理,支持生活决策、故障排查等场景,开启搜索交互新范式。

阿里巴巴发布Wan2.5-Preview:原生多模态架构重塑视觉生成

2025年9月24日,阿里巴巴发布视觉生成模型Wan2.5-Preview,以原生多模态架构实现文本、图像、音频、视频深度协同生成。支持1080p电影级视频输出,音视频原生同步,动态自然度提升37%;图像支持像素级对话式编辑,细节真实感升29%。已落地电商、短片创作等场景,助力内容创作效率提升。

阿里巴巴通义千问发布Qwen3-VL系列视觉语言模型 开源旗舰性能超越Gemini 2.5 Pro

2024年6月,阿里巴巴通义千问团队发布Qwen3-VL系列开源视觉语言模型,刷新业界视觉-文本交互认知,在复杂推理、工具协同、长内容理解等核心维度突破闭源模型。提供可直接商用版本,将视觉智能从“被动识别”推向“主动认知与执行”,为多模态AI产业化落地提供新可能,显著降低应用门槛。

阿里巴巴发布Qwen3-Omni:多语言全模态模型性能比肩Gemini 2.5 Pro

2025年9月22日,阿里巴巴通义千问推出多模态大模型Qwen3-Omni,原生端到端支持文本、图像、音频、视频全模态输入,实时流式交互延迟800毫秒内,对标Google Gemini 2.5 Pro。36项音视频测试22次刷新SOTA,填补开源高精度音频字幕技术空白,支持多语言,灵活部署并商业化落地。

Windsurf发布Code-Supernova:智能编码模型开启200K上下文与图像输入新时代

Windsurf推出新一代智能编码模型Code-Supernova,以200K超长上下文窗口、原生图像输入能力为核心亮点,可处理大型代码库、直转设计稿/架构图为代码,搭配Agentic自我调试功能,直击复杂项目开发与跨界协作痛点。目前该模型限时向个人用户免费开放,刷新专用编码模型技术边界,为开发者工具生态带来新可能。