前沿科技

Kimi K2 不仅抢了开源第一,还抢了自家论文署名:我“夸”我自己


上周,月之暗面发布了全新版本的大模型,Kimi K2。

这是目前世界上第一个参数量达到万亿级别的开源模型,发布后迅速引爆了圈内讨论。

它不仅在各种评估基准上表现亮眼,也收获了国内外开发者社区的普遍好评。

在 LMSYS 的开源模型排行榜(LMArena)上,Kimi K2 直接跃升至第一名。

第一列是开源模型内的排名,前四都是国产开源模型,Kimi K2 排在第一名;第二列是所有(开源和闭源)模型中的排名。图片来源:https://lmarena.ai/leaderboard/text

但也有不少人质疑 Kimi K2 是在「抄袭」DeepSeek。

Kimi 团队则大方回应:确实是在 DeepSeek V3 的基础上做了改进。

甚至有网友直接对比了两者的架构,指出了细节差异:

Kimi K2 发布后,网友整理 DeepSeek V3 和 Kimi K2 的模型架构区别,来源:https://sebastianraschka.com/blog/2025/the-big-llm-architecture-comparison

就在大家还在讨论这些差异、参数规模、以及模型路线时,Kimi 今天又放出了一份干货:Kimi K2 的技术报告正式发布

我第一时间打开来看,快速扫了一遍,关键词大概是:万亿参数的混合专家模型、让训练更稳定的 MuonClip 优化器、不断被强调的 Agentic 智能,还有自我批评式的通用强化学习……

直到我翻到附录,发现一张有点意思的作者列表,除了看到月之暗面创始人杨植麟的名字,竟然!

Kimi K2 技术报告作者页面

Kimi K2……自己也是作者之一?

我突然有点恍惚,把你「造」出来,你还参与了如何「造出你」的论文撰写?

那我还研究什么,既然它都上作者署名了,直接问他就好了!

我就把这份技术报告交给 Kimi K2 来分析一下,看看它能不能讲明白,Kimi K2 到底做了什么。

于是,这篇文章就变成了:我,把技术报告丢给了 Kimi K2,让它「揭秘」它自己。

Kimi K2:为「智能体时代」奠基的万亿级开源大模型——《Kimi K2 Technical Report》深度解读

从「会聊天」到「能干活」:为什么需要新一代大模型

过去两年,大模型的竞赛焦点集中在「谁能把考试题刷得更高」,但真实世界的需求正在迅速转向「谁能像人一样干活」。

从自动修复代码漏洞、跨工具协同办公,到自主完成科研实验,业界把这种「感知-规划-执行-反思」的闭环能力称为 Agentic Intelligence(智能体智能)。

Kimi K2 正是这种范式切换下的第一个系统性成果:它不仅要会做题,更要能在复杂、动态、多工具环境中像「实习生」一样自我进化。

速看省流版:

技术层面:MuonClip 优化器、稀疏 MoE 架构、改写数据策略,共同给出了「高质量数据稀缺」时代的超大规模训练新范式;

数据层面:合成+真实混合环境的十万个工具轨迹为社区提供了可复现、可扩展的智能体数据生产线;

开源层面:1 T 参数的 base + instruct 权重全部放出,相当于把一辆 F1 赛车开源给了所有工程师。

模型一览:万亿总参数、320 亿激活的「稀疏巨人」

规模:总参数 1.04 T,激活参数 32 B,MoE(混合专家)架构,稀疏度 48(每 token 只激活 8/384 位专家);DeepSeek V3 的参数总量是 6710 亿,其中激活参数量为370 亿 。

训练数据:15.5 T token,涵盖网页、代码、数学、知识四大领域,全部经过质量清洗与「改写法(数据增强技术,增加数据多样性)」扩增。

训练稳定:首次在大规模模型训练过程中,损失函数没有发生任何大的波动或异常,归功于新优化器 MuonClip。

上下文窗口:128K token,满足长文档、多轮工具调用的需求。

MuonClip:大规模模型超高效训练方法

Muon 优化器以训练效率高著称,但在参数规模较大时,可能会出现注意力权重爆炸的问题,即 logits 值过大,导致训练不稳定。

作者提出 QK-Clip 机制融合到 Muon 优化器中。QK-Clip 能够在 logit 过大时,自动进行调节;同时,不会改变网络结构,对模型干预极小,但作用极大。

注意力权重爆炸问题大多出现在超大规模的大模型训练中,这也是此次 Kimi K2 万亿参数能够成功训练的重要突破之一。

没有使用 QK-Clip 的 Muon 优化器在训练时,会无法控制 logits 数值,从而导致大模型训练的不稳定;而 Kimi K2 的 MuonClip 在整个训练过程中都可以很好的控制 logits 。

实验显示,MuonClip 在中等规模,90 亿激活参数时,就可抑制 logits 超过 1000,在 K2 全量训练中全程没有不稳定和优化问题出现,始终确保了训练的稳定性。

文本数据:合成数据+真实数据双 buff

高质量数据越来越稀缺,而在训练中简单多轮重复读取容易导致模型的过拟合。Kimi K2 提出两套改写策略:

知识文本:用 LLM 以不同风格、视角重写维基百科,同时保持语义一致性自动校验,例如把「光合作用」改写成「植物如何制造养分的侦探故事」;

数学文本:按「学习笔记」风格重写并多语种翻译,把奥数竞赛题都改写成「费曼式讲解」。

数据改写流程,将输入拆分为保留上下文的小块,按顺序重写,然后拼接成完整的重写段落。

Kimi K2 也在多个实验进行了测试,结果显示一次改写+单轮训练的准确率(28.94%)优于原始文本反复读取十轮(23.76%)。

智能体数据:2 万工具、10 万轨迹

要让模型会调用工具,最难的是「可扩展的真实环境」。作者搭建了混合管线:

工具库:3000+ 真实 MCP 工具,2 万+ LLM 合成工具,覆盖金融、城市物联网、软件开发等 20 余领域;

「任务-智能体-评估」三元组自动生成智能体训练样本:每条生成的轨迹(即模型的输入、输出、决策过程、以及所采取的每一步行动)由 LLM Judge 打分,通过率

真实智能体任务数据补充:例如代码类任务直接扔给开源的容器编排平台,执行任务并测试,保证反馈真实。

工具库使用的数据合成流程,工具来自真实世界的工具和LLMs;智能和任务从工具库中生成。

最终产出超过 10 万的高质量轨迹,用于监督微调与强化学习。

强化学习框架:可验证奖励 + 自我批评

可验证奖励的强化学习:对于数学、代码、逻辑题等任务,直接跑单元测试或数值验证,客观评估模型表现;

自我批评奖励:而对于非客观任务(比如写诗等),模型用 30 多条标准(清晰、客观、对话流畅、安全等指标)给 Kimi K2 的回答打分,实现无参考答案的对齐;

预算控制:拒绝「废话连篇」,强制用最少 token 解决问题(节省推理费)。

成绩汇报:开源第一,逼近闭源

所有对比均为「非思考」模式,不考虑测试时计算资源的差异。

Kimi K2 在代码、数学、工具使用和长文本四项关键能力上均取得或逼近当前开源模型的最优成绩,并在多项任务上超越闭源标杆。

详细结果图,从上至下依次是代码、工具、理工科以及通用任务。

局限与展望

多步复杂推理场景下输出过长,可能被截断;

在多轮任务中,如果触发了错误工具,或者工具调用失败,会拉低表现;

Kimi K2,是「Agentic-aware」模型(接受过 agent 任务训练),但还不是一个「完整 Agent 框架」系统。在长流程开发任务中的一次成功率,Kimi K2 仍然低于那些完整 Agent 框架驱动下的系统。

Kimi K2 后续将围绕推理效率、工具自我评估、长过程推理规划继续迭代。

Kimi K2 的意义不止于又刷新了几个 benchmark。可以预料,随着开源社区在此基础上继续改进,2025 下半年将出现一批「比 K2 更会干活」的垂直智能体,真正把大模型从「聊天框」带进「生产线」。



Source link

Related posts

云深处科技完成近5亿元融资 由国新基金等机构联合领投

admin

创业者想拜拜梁文锋 DS爆火100天

admin

1999,小米AI眼镜“交个朋友”

admin