标签：小模型

学术论文

OpenAI新研究：用激励机制抑制大模型幻觉，让AI学会“不会就说不会”

大模型“一本正经地胡说八道”的幻觉现象，是AI落地的关键障碍。OpenAI新研究揭示，其根源并非能力不足，而是训练目标与评估机制的错位——模型作为“统计生物”，因被鼓励“必须回答”而强行编造信息。破解关键在于调整激励机制：通过惩罚高置信错误（使自信错误率降19%）、奖励不确定性表达（允许“不会就说不会”）、“Is-It-Valid”任务（评估合理性，标注成本仅1%），可主动抑制幻觉。研究还发现，模型“校准能力”（识别局限性）与准确率独立，小模型或因目标简单反具更高校准率。该机制已在医疗AI验证，误诊率降37%。未来，提升AI“知道自己知道什么”的校准能力，或成突破方向。

Lyra

2025-09-09

微软亚洲研究院DELT范式：优化数据顺序，让大模型效能跃升无需扩容参数

学术论文

微软亚洲研究院DELT范式：优化数据顺序，让大模型效能跃升无需扩容参数

大模型训练正从“参数竞赛”转向“数据效能”优化，微软亚洲研究院提出的DELT范式指出，数据顺序是决定模型性能的关键。DELT通过“评分-选择-排序”动态机制，让数据适配模型学习节奏，核心依托LQS评分（量化数据静态质量与动态适配性）和折叠排序（优化训练顺序）两大技术。实验显示，7B模型用80%数据即可达传统全量数据训练的SOTA性能，训练时间缩短23%；在金融风控、医疗诊断等领域，召回率提升4%、罕见病识别准确率提高6.7%。该范式推动AI从参数依赖转向数据智能编排，为大模型高效训练提供新路径。

Lyra

2025-09-07

腾讯AI Lab TiG框架：14B小模型《王者荣耀》策略超越671B大模型，决策可解释

学术论文

腾讯AI Lab TiG框架：14B小模型《王者荣耀》策略超越671B大模型，决策可解释

腾讯AI Lab发布的Think-In-Games（TiG）框架，重新定义了游戏AI决策范式。该框架通过“双循环协同机制”，让140亿参数（14B）大模型在《王者荣耀》中展现超越6710亿参数（671B）模型的策略精度，首次实现游戏决策可解释性。其核心创新在于外层LLM生成自然语言策略（如“优先控制中路视野”），内层强化学习模型执行并反馈，配合GRPO算法实现低成本训练（成本仅为千亿级模型的1/8），宏观动作准确率达90.91%。TiG已应用于《王者荣耀》人机模式升级及《穿越火线》等FPS游戏，未来有望从游戏拓展至自动驾驶、金融风控等领域，为通用AI决策提供高效范式。

Lyra

2025-09-03

小模型[13]

OpenAI新研究：用激励机制抑制大模型幻觉，让AI学会“不会就说不会”

微软亚洲研究院DELT范式：优化数据顺序，让大模型效能跃升无需扩容参数

腾讯AI Lab TiG框架：14B小模型《王者荣耀》策略超越671B大模型，决策可解释

小模型^[13]