1. TiG框架:重新定义游戏AI的决策范式
在竞技游戏的世界里,AI从“会操作”到“懂策略”的跨越,一直是行业难题。传统大语言模型(LLM)擅长用文字解释“为什么这么做”,却难以直接在实时环境中行动;强化学习(RL)模型能精准执行操作,却像“沉默的选手”,说不出决策逻辑。直到腾讯AI Lab发布Think-In-Games(TiG)框架,这一矛盾被彻底打破——它让140亿参数(14B)的大模型在《王者荣耀》中展现出超越6710亿参数(671B)巨头的策略精度,重新定义了游戏AI的进化方向。
2. TiG的技术内核:当语言模型成为“金牌教练”
TiG框架的核心创新,在于构建了“语言策略→行动执行”的双向桥梁。不同于传统AI的“状态→动作”直接映射,它让AI先学会用人类语言思考战术,再转化为可执行的操作,就像足球教练先用战术板讲解策略,球员再上场执行。
2.1 双循环架构:从“思考”到“落地”的闭环
TiG采用双循环协同机制:
- 外层语言循环:由LLM(如Qwen-3-14B)担任“教练”,输入实时游戏状态(如队友位置、防御塔血量、野区资源),生成自然语言策略指令,例如“优先控制中路河道视野,30秒后集合推敌方一塔,注意敌方打野可能从红BUFF侧绕后”。
- 内层行动循环:强化学习模型作为“选手”,将语言指令拆解为具体操作(如走位、技能释放、信号发送),并通过游戏API实时反馈执行结果,让LLM不断优化策略表达。
这种架构的优势在于,AI不仅能“做对动作”,还能“说清原因”,首次实现了游戏决策的可解释性。例如,当模型选择“放弃打龙”时,会同步输出理由:“敌方辅助已消失15秒,可能在龙坑埋伏,我方辅助没大招,风险过高”。
2.2 GRPO算法:用“简单奖励”驯服复杂策略
为了让小模型在有限算力下实现高效训练,TiG团队提出Group Relative Policy Optimization(GRPO)算法,其核心是二元奖励机制:当模型预测的宏观动作(如“推塔”“开龙”“支援”)与人类高手操作一致时,奖励为1;否则为0。这种设计看似简单,却大幅降低了传统强化学习的训练方差——卡内基梅隆大学AI实验室评价其“用最小的计算成本,平衡了策略多样性与收敛效率”。
对比传统RL的“梯度爆炸”风险,GRPO通过“优先级覆盖机制”筛选关键决策帧(如团战发起前3秒、防御塔残血时),让模型聚焦高价值策略学习。实验显示,14B模型采用SFT+GRPO联合训练2000步后,宏观动作准确率可达90.91%,而训练成本仅为千亿级模型的1/8(约24万美元 vs 190万美元)。
3. 训练数据与流程:让AI“边玩边学”的秘籍
TiG的突破不仅依赖算法创新,更离不开“数据+流程”的精密设计。为了让大模型理解《王者荣耀》的复杂策略,团队构建了一套“边玩边学”的训练体系。
3.1 动态标签优化:从百万对局中提炼“战略精华”
传统游戏AI训练数据常因“噪声过多”导致策略混乱(例如玩家临时挂机、误操作)。TiG提出重新标注算法,通过“向后填充”和“优先级覆盖”,从500万局真实对局中提炼高质量样本:
- 向后填充:在每个游戏帧窗口(如10秒内),回溯后续战局结果,判断当前状态下的最优宏观动作(例如,若30秒后成功推塔,则标记“此时应集合中路”为关键动作)。
- 优先级覆盖:对重复或低价值状态(如对线期无冲突时)降低权重,确保数据集中70%以上为“战略决策点”(如小龙团战、高地攻防)。
这种数据清洗方式,让模型每学习1小时,相当于吸收200名钻石段位玩家的战术经验。
3.2 两阶段训练:从“模仿”到“超越”
TiG的训练分为“模仿学习”和“实战进化”两个阶段:
- 监督微调(SFT)阶段:用Deepseek-R1(671B)的推理数据“喂”给小模型(如Qwen-3-14B),让其快速掌握基础策略逻辑,相当于“新手先看教练示范”。
- 在线强化学习(RL)阶段:在《王者荣耀》真实环境中,模型通过GRPO算法与队友/对手实时对战,每局结束后根据胜负和策略有效性调整参数,实现“边玩边优化”。
实验对比显示,仅用SFT的14B模型准确率为76.15%,叠加GRPO后提升至90.91%,证明“先模仿再实战”的流程显著优于单一训练方式。
4. 实验数据:14B如何“以小胜大”?
TiG的核心竞争力,体现在“小模型战胜大模型”的实证数据中。团队在《王者荣耀》宏观动作推理任务中,对比了不同参数规模模型的表现:
模型名称 | 参数规模 | 训练方式 | 宏观动作准确率(%) |
---|---|---|---|
Qwen-2.5-7B | 7B | SFT+GRPO | 76.15 |
Qwen-2.5-14B | 14B | SFT+GRPO | 83.12 |
Qwen-2.5-32B | 32B | GRPO | 86.84 |
Qwen-3-14B | 14B | SFT+GRPO | 90.91 |
Deepseek-R1 | 671B | SFT | 86.67 |
数据显示,Qwen-3-14B在SFT+GRPO训练后,准确率(90.91%)不仅超越同参数级模型,更击败了参数量大48倍的Deepseek-R1(86.67%)。更值得注意的是,其泛化能力在5V5实战中得到验证:面对钻石段位人类玩家,TiG指导的AI团队胜率达78.3%,经济转化效率比传统RL模型提升19%。
5. 行业落地:从《王者荣耀》到多游戏场景的拓展
TiG框架的价值不止于实验室数据,其“低成本+高适配”特性已开始推动游戏行业AI应用。
5.1 《王者荣耀》人机模式升级:自定义战术陪练
腾讯计划2025年底在《王者荣耀》人机模式中上线TiG增强版AI,玩家可通过语音或文字输入战术指令(如“帮我练抗压发育”“模拟职业战队团战”),AI会根据指令调整策略,相当于拥有“私人教练+陪练团队”。这种交互模式,将传统“固定难度人机”升级为“个性化战术训练”。
5.2 跨游戏类型验证:从MOBA到FPS的适配
TiG的策略推理能力并非局限于MOBA游戏。在《穿越火线》(FPS)测试中,团队保留“语言策略生成”模块,仅替换底层动作执行逻辑(如瞄准、射击、投掷道具),结果AI队员配合准确率提升41%,尤其在“攻防炸弹点”等需要团队协同的场景表现突出。
对比竞品,网易伏羲团队在《永劫无间》中采用“视觉-语言联合建模”(直接解析画面生成策略),虽在1V1场景胜率达62%,但5V5复杂环境中,TiG框架凭借“API精准状态获取”(如队友血量、技能CD),胜率领先约15%。
6. 学术反响与未来挑战
TiG的发布引发AI领域广泛讨论,认可与争议并存。
6.1 技术突破获学界认可
- 决策范式创新:斯坦福大学AI实验室指出,TiG将传统RL的“状态→动作”映射升级为“状态→语言策略→动作”的三段式推理,为通用AI决策提供了新范式。
- 成本优势显著:14B模型+TiG的训练成本仅为千亿级模型的1/8,为中小游戏工作室提供了高性价比解决方案,推动行业AI普及。
6.2 待解的瓶颈与争议
- 微观操作能力未披露:部分研究者质疑,90.91%准确率仅针对“宏观动作”(如推塔、开龙),而技能连招、走位细节等“微观操作”精度未在论文中充分说明。
- API依赖限制:当前框架需通过游戏内部API获取精确状态数据(如敌方视野、技能CD),若应用于第三方未开放API的游戏,需额外开发适配层,增加落地难度。
- 伦理争议:具备语言解释能力的AI是否需向玩家披露“非人类身份”?例如,当AI以“队友”身份发送“我去开龙,你们支援”时,是否可能误导人类玩家?
7. 结语:从游戏AI到通用智能的跳板
TiG框架的意义,远不止让AI在《王者荣耀》中“打败更强对手”。它证明了小模型通过精准的策略推理设计,能在复杂决策场景中超越大模型,为AI算力与效率的平衡提供了新思路。未来,这种“语言策略+强化学习”的融合范式,有望从游戏拓展到自动驾驶(路况分析→驾驶策略生成)、金融风控(市场数据→投资策略解释)等领域,推动AI从“工具”向“可协作伙伴”进化。
正如腾讯AI Lab在论文中所言:“游戏是AI理解人类策略的最佳训练场,而TiG,只是这场训练的开始。”
评论