多模态[47]

Meta Connect 2025前瞻:智能眼镜、Meta AI与Llama模型领衔创新看点

Meta Connect 2025发布两款智能眼镜:高端带屏Hypernova(800美元,与Prada合作,探索AR技术)和大众无屏Ray-Ban Meta(300美元,主打日常使用)。Meta AI月活超10亿,但Llama 4模型开发推迟;元宇宙Horizon Worlds将引入AI NPC。展现其AR/AI/元宇宙协同布局与市场分层策略。

PaddlePaddle发布OCR堆栈重大更新 聚焦解决VLM文本定位与幻觉难题

通用VLM处理密集文档OCR时存定位不准与内容幻觉痛点,阻碍金融医疗等行业落地。PaddlePaddle PP-OCRv4以分治策略优化,通过PP-YOLOE检测、SVTR识别模块,密集文本定位F1-score达0.95,幻觉率降75%,大幅提升行业数据处理准确性。

高德AI出行智能体“小高老师”月活破4亿 日调用量达12亿次

高德AI出行智能体“小高老师”上线不足一月月活破4亿,日调用达12亿次。支持自然语言交互,融合海量POI与实时数据,提供个性化行程规划、酒店预订等一站式服务,推动地图从工具进化为“先于思考”的智能决策伙伴,开启出行“智能体时代”。

ORCA-DL AI大模型突破海洋气候预测范式:厄尔尼诺预报时长20个月优于传统模型

海洋是地球气候关键“能量库”,传统物理模型因计算限制难突破。ORCA-DL AI大模型通过学习CMIP6数据,以神经网络捕捉海洋三维动态,实现厄尔尼诺20个月预警、海洋热浪精准捕捉及十年尺度稳定模拟,重塑气候预测范式,助力防灾减灾与气候决策。

Vidu Q1参考生图全球上线:支持7张参考图刷新AI生图技术上限

Vidu Q1参考生图全球上线,支持一次性上传7张参考图,远超谷歌Nano Banana等主流工具(最多3张)。多图融合助力创意合成、时尚穿搭、专业海报及跨次元合照,主体一致性强,操作简洁,可生成1080p高清图。现免费试用,开启AI图像创作新可能。

顶级大模型“扰动文字”测试集体“翻车”

顶级视觉语言模型(如GPT-4o、Gemini等)在扰动文字前识别能力大幅下降,人类却可轻松解读,暴露AI非标准文本理解局限。因AI依赖模式匹配缺乏结构理解,在中文成语切割重组、英文彩色叠加等实验中近乎崩溃,且在多书写系统中普遍存在。此缺陷致教育、文献处理受限,更存安全漏洞,攻击者或用扰动文字绕过AI审查。研究建议通过强化结构先验知识、扩充复杂训练数据等改进,揭示AI与人类认知本质差异。

腾讯开源混元图像2.1:原生2K生图性能逼近商业模型,Hugging Face榜单跃居全球第三

腾讯混元图像2.1开源引发全球关注,原生2K生图达商业级水准,支持中英文复杂语义。采用DiT架构与双文本编码器,提升生成效率与质量,Hugging Face榜单快速攀升至第三。开源生态完善,助力开发者高效创作,推动视觉AI普惠化。

YouTube多语言音频功能全面开放 创作者国际观看时长显著增长

YouTube多语言音频功能已面向全球创作者开放,支持AI生成40+语言配音,大幅降低国际分发成本,非主要语言观众观看时长平均增超25%。配合多语言缩略图测试及数据洞察工具,助创作者精准定位全球受众,提升国际互动率与观看量,突破语言壁垒触达更广阔市场。

2025服贸会上小猿全系智能软硬件亮相

2025服贸会上,小猿全系智能软硬件亮相,AI学习机T4的超拟人1V1老师、销量破百万的墨水屏学练机(护眼+AI学练)及免费AI软件引关注,以教育AI融合推动个性化辅导与校园数字化,助力教育普惠新路径。

商汤「日日新V6.5」多模态大模型登顶OpenCompass全球榜单 超越Gemini 2.5 Pro与GPT-5

商汤「日日新V6.5」多模态大模型在OpenCompass评测中以82.2分超越Gemini 2.5 Pro与GPT-5,成全球领先。核心「图文交错思维链」技术贴近人类认知,优化视觉编码器与多模态网络,推理效率提升超三倍,标志中国AI在多模态通用智能领域迈入新阶段。