标签：多模态

OpenAI与Jony Ive首次对话AI硬件项目：聚焦修复人机关系，打造自然融入生活的AI伴侣

产品速递

OpenAI与Jony Ive首次对话AI硬件项目：聚焦修复人机关系，打造自然融入生活的AI伴侣

OpenAI与Jony Ive合作推进秘密AI硬件项目，融合OpenAI多模态AI与LoveFrom设计哲学，以无屏幕交互、情感感知重塑人机关系。基于环境计算技术，设备可感知情绪、融入生活场景，从效率工具转向“伙伴”角色，是科技行业对人性化技术的重要探索。

Lyra

2025-10-09

学术论文

全球首个时间序列原生模态开源语言模型OpenTSLM发布：突破传统AI时间盲区，多任务效率提升超千倍

OpenTSLM是斯坦福大学等机构研发的首个原生时间序列语言模型，突破传统模型长序列处理效率低、LLM无法理解时序动态特征的瓶颈。通过创新交叉注意力架构，效率提升数百倍，实现临床级准确性，支持医疗等领域自然语言交互，已开源，开启“时间智能”新可能。

Lyra

2025-10-02

OpenAI发布Sora 2：分级开放免费与Pro版，新增音频生成与自我插入功能

前沿资讯

OpenAI发布Sora 2：分级开放免费与Pro版，新增音频生成与自我插入功能

OpenAI新一代AI视频生成器Sora 2正式亮相，带来音频同步生成、“自我插入”等突破性升级，支持音画一体创作与个性化形象融入视频。其采用分级开放策略：免费版限邀请测试，Pro版绑定ChatGPT Pro订阅，解锁长时长、高分辨率等全功能。该技术不仅提升内容创作效率，更重新定义AI视频工具商业化路径，引发行业广泛关注。

Lyra

2025-10-01

圈内热议

医疗AI高分幻象：GPT-5等模型基准测试外的脆弱真相

医疗AI领域正面临"高分神话"与临床实战的割裂挑战。GPT-5等多模态模型虽在MedQA等权威基准测试中超越人类专家，却在真实场景暴露脆弱性：依赖文本"猜图"、提示词敏感致诊断反转、编造伪医学逻辑等问题频发。当前行业正从"题库刷分"转向临床导向评估，通过人类-AI协作指标、动态测试集等革新，保障医疗AI安全落地。

Lyra

2025-09-25

产品速递

Dayflow：视觉语言模型驱动，重新定义macOS语义化工作追踪

传统时间追踪工具仅记录应用使用时长，难以区分具体活动。2024年macOS应用Dayflow借助视觉语言模型(VLM)分析屏幕内容，将抽象的应用时长转化为“审阅PR评论”“调试代码”等语义化活动记录，实现从应用级到活动级的精准追踪。支持本地运行保护隐私，帮助用户回溯时间分配、优化工作习惯，重新定义个人工作追踪颗粒度。

Lyra

2025-09-25

谷歌Search Live美国上线：AI驱动视频搜索开启实时互动新纪元

产品速递

谷歌Search Live美国上线：AI驱动视频搜索开启实时互动新纪元

2025年9月谷歌推出Search Live功能，将实时视频与AI深度融合，用户通过手机摄像头拍摄场景提问，AI即可即时语音回答并推送资源链接，实现“所见即所问”。该功能打破传统文字搜索局限，依托VidLens引擎实现低延迟处理，支持生活决策、故障排查等场景，开启搜索交互新范式。

Lyra

2025-09-25

阿里巴巴发布Wan2.5-Preview：原生多模态架构重塑视觉生成

前沿资讯

阿里巴巴发布Wan2.5-Preview：原生多模态架构重塑视觉生成

2025年9月24日，阿里巴巴发布视觉生成模型Wan2.5-Preview，以原生多模态架构实现文本、图像、音频、视频深度协同生成。支持1080p电影级视频输出，音视频原生同步，动态自然度提升37%；图像支持像素级对话式编辑，细节真实感升29%。已落地电商、短片创作等场景，助力内容创作效率提升。

Lyra

2025-09-25

前沿资讯

阿里巴巴通义千问发布Qwen3-VL系列视觉语言模型开源旗舰性能超越Gemini 2.5 Pro

2024年6月，阿里巴巴通义千问团队发布Qwen3-VL系列开源视觉语言模型，刷新业界视觉-文本交互认知，在复杂推理、工具协同、长内容理解等核心维度突破闭源模型。提供可直接商用版本，将视觉智能从“被动识别”推向“主动认知与执行”，为多模态AI产业化落地提供新可能，显著降低应用门槛。

Lyra

2025-09-24

前沿资讯

阿里巴巴发布Qwen3-Omni：多语言全模态模型性能比肩Gemini 2.5 Pro

2025年9月22日，阿里巴巴通义千问推出多模态大模型Qwen3-Omni，原生端到端支持文本、图像、音频、视频全模态输入，实时流式交互延迟800毫秒内，对标Google Gemini 2.5 Pro。36项音视频测试22次刷新SOTA，填补开源高精度音频字幕技术空白，支持多语言，灵活部署并商业化落地。

Lyra

2025-09-23

Windsurf发布Code-Supernova：智能编码模型开启200K上下文与图像输入新时代

前沿资讯

Windsurf发布Code-Supernova：智能编码模型开启200K上下文与图像输入新时代

Windsurf推出新一代智能编码模型Code-Supernova，以200K超长上下文窗口、原生图像输入能力为核心亮点，可处理大型代码库、直转设计稿/架构图为代码，搭配Agentic自我调试功能，直击复杂项目开发与跨界协作痛点。目前该模型限时向个人用户免费开放，刷新专用编码模型技术边界，为开发者工具生态带来新可能。

Lyra

2025-09-22

多模态[57]

多模态^[57]