商汤「日日新V6.5」多模态大模型登顶OpenCompass全球榜单超越Gemini 2.5 Pro与GPT-5

2025-09-11

11 0

1. 商汤「日日新V6.5」登顶OpenCompass多模态榜单

近日，国际权威的大模型评测平台OpenCompass公布了最新的多模态大模型学术榜单（Multi-modal Academic Leaderboard）。来自中国的人工智能企业商汤科技，其研发的多模态大模型「日日新V6.5」（SenseNova-V6.5 Pro）以82.2分的综合成绩拔得头筹，这一分数不仅显著领先，更是超越了此前表现优异的国际知名模型如Gemini 2.5 Pro（80.1分）和GPT-5（79.8分）。这一突破性进展标志着中国在多模态通用智能领域的技术实力已跻身全球前列，引发了业界的广泛关注。

2. 日日新V6.5的核心竞争力

商汤科技「日日新V6.5」的登顶并非偶然，其背后是多项关键技术的创新突破。其中，最引人注目的便是国内首次实现的「图文交错思维链」技术。商汤科技联合创始人、执行董事及首席科学家林达华在其论文中曾指出，智能的本质在于与外界自主交互，而多模态信息感知与处理能力是通用人工智能（AGI）不可或缺的基础。「日日新V6.5」正是践行了这一理念，通过融合逻辑推理与形象思维，使模型能够将部分推理过程以图形化方式表达出来。

这种能力使得AI不再仅仅依赖文本进行线性思考，而是可以像人类一样，在处理复杂问题时，结合文字描述和图像信息进行交叉验证和辅助推理。例如，在分析一份包含图表的数据报告时，模型不仅能理解文字说明，还能直接“看懂”图表中的趋势、比例关系，并将两者结合起来形成更全面、准确的判断。这不仅极大提升了模型对复杂任务的理解力，也为其在真实世界场景中的应用奠定了坚实基础，使其成为国内首个具备商业级形象思维与图文交错思维能力的大模型。

Tips：什么是「思维链」（Chain of Thought, CoT）？
思维链是大模型领域的一种重要技术，指的是模型在解决复杂问题时，能够像人类一样，逐步展示其推理过程，而不是直接给出答案。这有助于提升模型推理的透明度、可靠性和准确性，尤其在数学计算、逻辑推理等任务上效果显著。「图文交错思维链」则是将这一概念扩展到了图文融合的场景。

3. 效率与性能的双重飞跃

除了在「图文交错思维链」上的创新，「日日新V6.5」在推理能力与运行效率上也实现了双重提升，这对于大模型的实际落地至关重要。

在算法范式层面，「日日新V6.5」采用了以思维链为载体、强化学习为主要途径的创新方法。通过构建“生成-验证-学习”的闭环机制，模型能够在不断尝试和反馈中优化自身的推理路径和能力。这使得模型在数理逻辑、代码生成、GUI界面操作、复杂图表分析以及其他高阶认知任务上的表现得到了显著增强。

而在架构设计上，商汤团队进行了精妙的优化。他们对视觉编码器进行了轻量化设计，同时加深了多模态大模型的主干网络。这一“一减一加”的组合策略，在确保模型性能不打折扣甚至有所提升的前提下，使得整体运行效率提升超过三倍。这意味着模型能够在更低的硬件成本下提供更快速的响应，其性能成本曲线得到了大幅优化，为大规模商业化应用扫清了重要障碍。

以下表格清晰对比了「日日新V6.5」与国际主流多模态模型在OpenCompass榜单上的核心表现：

模型名称	综合成绩	性能效率提升	主要技术突破
日日新V6.5	82.2	3倍+	图文交错思维链、轻量视觉编码器
Gemini 2.5 Pro	80.1	1x	通用多模态架构
GPT-5	79.8	1x	大规模语言-视觉融合

注：数据来源于OpenCompass多模态学术榜单。

4. OpenCompass榜单

「日日新V6.5」此次登顶的OpenCompass榜单，其权威性是业界公认的。该平台由上海人工智能实验室推出，是一个一站式的大模型评估平台。它致力于提供公平、开源且可复现的评测标准，评测范围广泛，涵盖了语言理解、多模态交互、安全性、具身智能以及金融、医疗等特定行业应用。

OpenCompass的多模态学术榜单尤其注重模型在真实场景中的应用价值，而非仅仅是实验室环境下的理论性能。其评测体系采用了主客观相结合的方法，例如引入了CircularEval和LLM-as-a-Judge（即利用大语言模型作为评判者）等先进策略，力求对模型的综合能力进行全方位、深层次的诊断。因此，能够在该榜单上名列前茅，充分证明了「日日新V6.5」具备强大的实际应用潜力和行业认可度。

5. 商汤科技的战略布局

商汤科技在多模态通用智能领域的领先，并非一日之功，而是其长期战略布局的结果。公司采用“基础设施-模型-应用”三位一体的战略，持续推进多模态AI技术从数字空间走向物理世界的各个角落。

依托不断进化的多模态大模型能力，商汤科技正在构建端到端的产品技术竞争力。「日日新V6.5」已开始支持一系列实际场景的落地，例如智能办公助手、具身智能平台（如商汤的“悟能”平台）以及更自然的机器人交互系统。这些应用正在推动AI技术在金融分析、医疗诊断、工业质检等多个领域的深度融合与创新应用。林达华博士认为，多模态通用智能是迈向AGI（通用人工智能）的必由之路，而商汤的技术进步无疑为整个行业树立了新的标杆。

6. 产业影响与未来展望

「日日新V6.5」的登顶，其意义远不止于一个榜单成绩。它不仅彰显了中国AI企业在多模态核心技术领域的硬实力，也预示着全球多模态大模型竞争格局正在发生深刻变化。中国力量的崛起，将为全球AI技术的发展注入新的活力。

展望未来，随着多模态AI能力的持续突破，人工智能系统将更加贴近人类自然的认知与交互方式——通过视觉、听觉、语言等多种感官通道获取信息，并进行综合理解与决策。这将进一步促进数字世界与物理世界的深度协同与融合，催生出更多创新的产品、服务和商业模式，深刻改变我们的工作与生活。商汤科技等领先企业的探索，无疑为这条充满潜力的发展路径提供了宝贵的技术范式和应用经验。

参考链接

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系aipmgo@163.com删除。

Chegg因AI冲击裁员45% 原CEO Rosensweig回归领导

教育科技行业正遭AI剧烈冲击，美国在线学习平台Chegg近期裁员45%（388人）并换帅，原CEO Dan Rosensweig回归推动转型。数据显示，AI已致传统作业辅导市场三年缩水32%，Chegg核心订阅用户锐减23%。此次调整被视为行业洗牌信号，企业需将AI融入学习过程以突围。

Lyra

14 0

MiniMax发布开源大模型MiniMax-M2：Agentic工具调用能力比肩GPT-5/Claude，登顶开源LLM智能榜首

2025年10月MiniMax发布开源大语言模型MiniMax-M2，MIT许可证实现企业低门槛部署，兼容主流API与框架。其Agentic工具调用能力接近GPT-5、Claude，多项评测突破开源瓶颈，采用稀疏MoE架构平衡性能与效率，综合智能居开源首位，助力企业低成本构建高性价比智能自动化系统。

Lyra

15 0

Comet浏览器AI漏洞引爆行业危机：AI浏览器安全软肋与行业信任拷问

2025年10月，Perplexity Comet浏览器曝严重AI漏洞，恶意网页可劫持其AI助手窃取数据、操控账户，致用户流失25%。事件暴露AI浏览器结构性隐患：为提升智能，其需突破传统浏览器沙箱隔离、同源策略等安全机制，自动执行功能成漏洞温床，行业同类产品存类似风险。用户建议限制敏感操作、开启操作透明度防范。

Lyra

13 0

苹果休斯顿工厂提前出货AI服务器支撑Apple Intelligence及私有云核心算力

苹果AI赛道布局提速，其美国休斯顿新工厂已提前启动AI服务器出货，较原计划大幅提前。依托美国CHIPS法案及德州补贴，叠加与台积电合作实现供应链周期压缩，该工厂为Apple Intelligence平台及私有云计算注入核心算力。其端云协同架构通过定向传输技术实现数据隐私与算力平衡，或将为行业树立算力、隐私、安全三位一体新标准。

Lyra

14 0

商汤「日日新V6.5」多模态大模型登顶OpenCompass全球榜单 超越Gemini 2.5 Pro与GPT-5

1. 商汤「日日新V6.5」登顶OpenCompass多模态榜单

2. 日日新V6.5的核心竞争力

3. 效率与性能的双重飞跃

4. OpenCompass榜单

5. 商汤科技的战略布局

6. 产业影响与未来展望

参考链接

推荐阅读

Chegg因AI冲击裁员45% 原CEO Rosensweig回归领导

MiniMax发布开源大模型MiniMax-M2：Agentic工具调用能力比肩GPT-5/Claude，登顶开源LLM智能榜首

Comet浏览器AI漏洞引爆行业危机：AI浏览器安全软肋与行业信任拷问

苹果休斯顿工厂提前出货AI服务器 支撑Apple Intelligence及私有云核心算力

评论

商汤「日日新V6.5」多模态大模型登顶OpenCompass全球榜单超越Gemini 2.5 Pro与GPT-5

苹果休斯顿工厂提前出货AI服务器支撑Apple Intelligence及私有云核心算力