kimi-k2技术报告
date
Jul 22, 2025
slug
kimi-k2-technical-report
status
Published
tags
论文
LLM
summary
type
Post
在大型语言模型(LLM)的浪潮之巅,我们正见证着一场从静态模仿学习到动态“具身智能”(Agentic Intelligence)的深刻范式转移。模型不再仅仅是文本的续写者,更被期望能像一个智能体(Agent)一样,在复杂环境中自主感知、规划、推理并采取行动。Kimi K2,一个拥有1万亿总参数和320亿激活参数的混合专家(MoE)模型,正是为探索这一前沿领域而生。
这篇技术报告详细阐述了Kimi K2从模型设计、预训练、后训练到评估的全过程。它不仅在多个基准测试中取得了开源模型的领先水平,更在软件工程和智能体任务上展现出与顶尖闭源模型相媲美的强大能力。
Kimi-K2
MoonshotAI • Updated Aug 1, 2025
一、 预训练:稳定、高效与架构创新
Kimi K2的强大能力根植于其扎实的预训练基础。团队在15.5万亿(Trillion)Tokens的高质量数据上进行了训练,并在此过程中引入了多项关键创新,以解决大规模MoE模型训练的核心挑战。
1.1 MuonClip:驯服万亿模型训练的不稳定性
在追求更高“令牌效率”(Token Efficiency,即每个token带来的学习信号)的道路上,团队选择了Muon优化器。然而,实践表明,随着模型规模的扩大,Muon相比AdamW更容易出现注意力logit爆炸导致的训练不稳定问题。为此,Kimi团队提出了一个新颖的权重裁剪机制——QK-Clip,并将其与Muon结合,形成了全新的MuonClip优化器。
QK-Clip的核心思想:当注意力logit超过预设阈值时,通过缩放查询(Query)和键(Key)的投影权重来直接约束其增长,而非粗暴地裁剪logit本身。
让我们回顾一下注意力机制的计算过程。对于每个注意力头 ,其Q, K, V投影计算如下:
注意力输出为:
QK-Clip关注的是softmax的输入,即注意力logit。团队定义了一个逐头的最大logit值 :
当 超过阈值 时,QK-Clip会计算一个缩放因子 ,并用它来缩放Q和K的投影权重。这一操作在当前步骤的前向和后向传播之后进行,仅作为指导信号,不影响当前梯度。具体到Kimi K2使用的多头潜在注意力(MLA),裁剪被精细地应用于非共享的组件上。

如 图2 所示,使用MuonClip后,Kimi K2在整个训练过程中最大注意力logit被有效控制在100以内,最终训练损失曲线平滑稳定,无任何损失尖峰(图3)。这证明了MuonClip在万亿参数模型上实现了可扩展且稳健的训练。


1.2 数据增强:用“复述”提升令牌效用
高质量的人类数据日益稀缺,如何最大化利用现有数据成为关键。Kimi K2引入了一套精巧的“复述”(Rephrasing)流程,对高质量的知识和数学语料进行数据增强,以在不引入过拟合风险的前提下提高令牌的利用率。
该流程包含三个核心部分:
- 风格与视角多样化提示:使用精心设计的Prompt,引导LLM以不同的风格和视角重写原文,同时保持事实的准确性。
- 分块自回归生成:为处理长文档,系统将文本分块,逐块重写,再拼接回完整的文章,有效规避了LLM的输出长度限制。

- 忠实度验证:通过比较重写内容与原文的语义一致性,确保增强后数据的质量。
实验结果(表1)表明,相比于简单地重复数据10个epoch,使用10次不同复述的版本进行单次训练,在SimpleQA上的准确率有显著提升,证明了该策略的有效性。

1.3 模型架构:追求更优的稀疏性与推理效率
Kimi K2是一个拥有1.04万亿总参数和320亿激活参数的MoE模型。其架构设计基于深入的缩放定律(Scaling Law)研究,在DeepSeek-V3的基础上做出了关键调整(表2):

- 更高的稀疏度:团队的“稀疏性缩放定律”研究(图5)表明,在激活参数(即FLOPs)固定的情况下,增加总专家数量能持续降低模型损失。因此,Kimi K2将总专家数从256个增加到384个,稀疏度达到48(384/8),在性能和成本间取得了更好的平衡。
- 更少的注意力头:为了优化长上下文场景下的推理效率,Kimi K2将注意力头的数量从128个减少到64个。研究(图6)发现,虽然增加注意力头能带来微小的性能提升(0.5%-1.2%),但这会显著增加长序列推理的FLOPs(在128k长度下增加83%)。因此,减少注意力头是一个更具性价比的选择。

二、 深入Kimi K2的训练流程与工程实践
训练一个万亿参数模型不仅是算法的胜利,更是系统工程的杰作。Kimi K2的成功离不开其高度优化的训练基础设施和流程设计。
2.1 硬件基础与并行策略
Kimi K2的训练依托于一个强大的计算集群,该集群配备了NVIDIA H800 GPU。每个节点拥有2TB内存和8张通过NVLink及NVSwitch高速互联的H800 GPU,而节点间则通过8 x 400 Gbps的RoCE网络进行通信。
为了驾驭如此庞大的模型,团队设计了一套灵活且高效的并行策略,结合了:
- 流水线并行(PP):将模型的不同层切分到不同的GPU上。
- 专家并行(EP):将MoE层的不同专家(Experts)分布到不同的GPU上,Kimi K2采用了16路专家并行。
- 数据并行(DP):使用ZeRO-1数据并行,只对梯度进行分区,以减少显存冗余。
这种组合策略非常灵活,使得Kimi K2可以在任意32的倍数个节点上进行训练,无论是小规模实验还是大规模训练都能复用同一套并行配置,极大地提升了研究迭代效率。
2.2 极致的优化:通信重叠与激活管理
在万亿模型训练中,每一寸显存和每一次通信都至关重要。Kimi K2采用了多种技术来榨干硬件性能:
- 通信与计算重叠:通过标准的interleaved 1F1B流水线调度,团队成功地将专家并行所需的All-to-All通信与计算过程重叠起来。如图7所示,通过精心设计的调度,流水线并行和专家并行的通信开销被最大程度地隐藏在计算时间之内,从而提高了GPU的有效利用率。
- 激活值管理:即便经过优化,完整的激活值也无法完全放入GPU显存。为此,团队采用了三管齐下的策略:
- 选择性重计算:对计算开销小但显存占用大的操作(如LayerNorm、SwiGLU)进行重计算,用计算换空间。
- FP8存储:将MoE层和SwiGLU层的输入激活值以FP8-E4M3的格式进行压缩存储,同时保证计算过程仍使用高精度,以避免性能损失。
- CPU激活卸载(Offload):将剩余的激活值流式传输到CPU内存中,并在需要时再加载回GPU。

2.3 预训练配方:15.5T Tokens的征途
Kimi K2的预训练配方(Recipe)经过了精心设计:
- 总计处理:15.5万亿(Trillion)Tokens。
- 优化器:MuonClip (见算法1)。
- 学习率调度:采用WSD学习率调度。在前10T个tokens,学习率经过500步的预热后保持在2e-4;在后续的5.5T个tokens,学习率通过余弦衰减降至2e-5。
- 其他参数:权重衰减(Weight Decay)为0.1,全局批大小(Global Batch Size)为6700万个tokens。
- 长文本适应:在预训练末期,模型先用4k序列长度的数据进行了4000亿tokens的退火(annealing)训练,随后又用32k序列长度的数据训练了600亿tokens,并通过YaRN方法将上下文能力扩展至128k。

2.4 为RL而生的分布式设施
强化学习(RL)的训练,尤其是涉及与环境交互的智能体训练,对基础设施提出了更高的要求。
- 高效引擎切换:RL需要在推理引擎(生成数据)和训练引擎(模型更新)之间频繁切换。对于K2这样的巨型模型,参数的重分片和广播是巨大的挑战。团队为此设计了一个分布式检查点引擎(checkpoint engine)(图10),它与训练节点共存,负责高效地将更新后的参数广播给所有推理节点。这一设计使得K2的全量参数更新能在30秒内完成,对于RL的迭代来说几乎是可忽略的开销。

- 智能体式部署(Agentic Rollout):为了处理长耗时、与外部环境交互的智能体任务,系统采用了部分部署(partial rollout)技术,允许未完成的长任务被暂停并在下一轮RL迭代中继续,同时通过大量并发部署来摊平单个任务的等待延迟。
三、 后训练:迈向真正的具身智能
预训练赋予了模型强大的基础能力,而后训练则负责将其塑造为能够执行复杂任务的智能体。Kimi K2的后训练流程包含大规模的智能体数据合成和统一的强化学习框架。
3.1 大规模智能体数据合成:模拟真实世界的工具使用

为了教会模型如何使用工具,Kimi K2构建了一个大规模、自动化的数据合成流水线(图8),模拟智能体在真实世界中使用工具的场景。该流程分为三步:
- 工具、智能体与任务生成:
- 工具库构建:结合了3000多个真实的MCP(Model Context Protocol)工具和通过领域演化生成的20000多个合成工具,确保了工具集的多样性和覆盖面(图9)。
- 智能体多样化:通过生成不同的系统提示和工具组合,创建出数千个能力、专长各异的智能体。
- 基于准则的任务生成:为每个智能体生成从简单到复杂的任务,并附带明确的成功标准(Rubric),用于后续的客观评估。

- 多轮轨迹生成:
- 模拟用户与环境:通过LLM模拟具有不同风格的用户,并构建一个复杂的工具模拟器( functionally equivalent to a world model)。这个模拟器能执行工具调用、维护状态,并引入随机性,以产生成功的、部分失败的和完全失败的各种真实轨迹。
- 质量评估与筛选:一个LLM裁判根据预设的Rubric评估每条轨迹,只有满足成功标准的轨迹才会被保留用于训练。
这种结合了可扩展模拟与真实执行环境(用于编码等任务)的混合方法,为Kimi K2提供了大量高质量、多样化且经得起验证的工具使用范例。
3.2 统一强化学习(RL)框架:从可验证到自省思
Kimi K2的RL框架旨在提升模型的综合能力,它不仅能处理有明确对错的任务,还能在主观性强的领域进行自我优化。
3.2.1 可验证奖励RL (RLVR)
对于数学、逻辑、代码等具有可验证答案的领域,Kimi K2在一个类似Gym的框架中进行RL训练。数据经过精心筛选,确保覆盖广泛且难度适中,从而最大化学习效率。这部分训练让模型在客观任务上的能力得到“硬”提升。
3.2.2 超越验证:自省思准则奖励 (Self-Critique Rubric Reward)
对于帮助性、创造性等主观任务,模型需要理解并对齐更细致的人类偏好。Kimi K2在此引入了“自省思准则奖励”机制:
- K2作为裁判:首先,K2作为一个演员(actor)生成多个回答。然后,K2切换到裁判(critic)角色,根据一套核心价值观和任务特定准则(附录F),对自己的输出进行成对比较和打分,从而产生偏好信号。
- 闭环裁判优化:在RL训练过程中,裁判模型会不断从RLVR任务的“客观”反馈中学习,将其性能信号蒸馏到自己的评估模型中。这使得裁判的主观判断始终植根于可验证的数据,并与演员的进化保持同步。
3.2.3 RL算法的精进
Kimi K2采用了Kimi K1.5中引入的策略优化算法,其目标函数如下:
为应对更大规模的RL挑战,团队还引入了三项改进:
- 预算控制:对不同任务设置最大生成长度,并对超长回答进行惩罚,以提升模型的令牌效率。
- PTX损失:在RL中引入高质量的SFT数据作为辅助损失,防止模型遗忘已学到的重要能力。
- 温度衰减:在训练初期使用高采样温度鼓励探索,后期则降低温度以促进收敛到高质量的稳定输出。
四、 性能评估:开源模型的全新标杆
Kimi K2在广泛的基准测试中展现了卓越的性能,特别是在其设计的核心领域——智能体与编程能力上。
4.1 Kimi-K2-Instruct 评估
- 智能体与竞技编程(图1):在SWE-bench Verified上,Kimi K2取得了65.8%的成绩,大幅超越其他开源模型,并显著缩小了与Claude 4 Opus(72.5%)的差距。在LiveCodeBench v6和OJBench等竞技编程榜单上,它同样位居榜首。
- 工具使用(图1):在多轮工具使用基准Tau2-bench和ACEBench上,Kimi K2分别取得了66.1和76.5的高分,再次证明其在受控的、智能体驱动的工具编排方面的强大实力。
- 数学与STEM(图1):在AIME 2025上获得49.5分,在GPQA-Diamond上获得75.1分,展现了其在复杂推理任务上的顶级水平。
- 通用与长文本能力:在MMLU上达到89.5%,在需要长上下文的DROP任务上达到93.5%,全面超越了其他开源模型。
- 开放式评估:在LMSYS Arena盲测中,Kimi K2成为排名第一的开源模型,并在总榜上名列第五(截至2025年7月17日),这直接反映了其在真实用户场景中的高质量体验。

4.2 Kimi-K2-Base 评估
基础模型同样表现出色(表4),在MMLU、MMLU-Pro、SimpleQA等12个英语通用语言基准中的10个上取得了SOTA性能。在代码(CRUXEval 74.00%)和数学(MATH 70.22%)等领域也树立了新的开源基准。

结论
Kimi K2不仅是一个参数量巨大的模型,更是对“开放的具身智能”的一次系统性探索。通过创新的MuonClip优化器,它实现了万亿参数模型的稳定高效预训练;通过大规模的智能体数据合成与统一的强化学习框架,它将强大的基础能力转化为可落地、可交互的智能体技能。Kimi K2的开源,无疑将为社区在软件工程、具身智能等前沿方向的研究与应用提供一个极其强大的新起点。