Kimi K2.5 是月之暗面(Moonshot AI)发布的 开源(open-weights)原生多模态、智能体(agentic)模型,基于 Kimi-K2-Base 持续预训练而来,官方披露其使用约 15T 混合视觉与文本 tokens 进行继续训练,并引入 Agent Swarm(最多 100 子智能体) 等能力。
本文以 Kimi K2.5 官方公开 benchmark 表 为唯一“数字口径”,对比 GPT-5.2、Claude Opus 4.5、Gemini 3 Pro 在推理、编程、多模态、工具使用(with tools)等任务上的表现;对官方表中未披露的条目,统一用 “—” 标记,避免混入不可核验数据。
Kimi K2.5 概述:架构与能力
模型架构
| 规格 | 详情 |
|---|---|
| 架构 | 混合专家(Mixture-of-Experts, MoE) |
| 总参数量 | 1T |
| 激活参数量 | 32B |
| 上下文窗口 | 256K tokens(通常可覆盖数百页文本,取决于语言与排版) |
| 训练数据 | ~15T 混合视觉 + 文本 tokens |
| 注意力机制 | MLA(Multi-head Latent Attention) |
| 专家数量 | 384 个总专家,每 token 选择 8 个 |
核心能力
- 智能体集群(Agent Swarm):最多 100 个子智能体,执行并行工作流,最高可达约 1,500 次工具调用/协调步骤
- 多模态理解:原生支持文本 + 图像 + 视频
- 工具增强评测设置(with tools):在官方评测中,K2.5 可使用搜索、代码解释器、网页浏览等工具(用于 HLE w/ tools 与部分 agentic 检索类基准)
- 开源(open-weights):权重与许可已公开(Modified MIT License)
综合基准测试结果
总览表:Kimi K2.5 与顶级竞争对手
| 基准测试 | 类别 | Kimi K2.5 | GPT-5.2 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|---|
| HLE-Full (w/ tools) | 智能体/工具使用 | 50.2 | 45.5 | 43.2 | 45.8 |
| AIME 2025 | 数学 | 96.1 | 100.0 | 92.8 | 95.0 |
| HMMT 2025 (Feb) | 竞赛数学 | 95.4 | 99.4 | 92.9* | 97.3* |
| IMO-AnswerBench | 数学/推理 | 81.8 | 86.3 | 78.5* | 83.1* |
| GPQA-Diamond | 推理 | 87.6 | 92.4 | 87.0 | 91.9 |
| MMLU-Pro | 知识 | 87.1 | 86.7* | 89.3* | 90.1 |
| MMMU-Pro | 多模态 | 78.5 | 79.5* | 74.0 | 81.0 |
| MathVision | 视觉+数学 | 84.2 | 83.0 | 77.1* | 86.1* |
| SWE-Bench Verified | 编程(智能体) | 76.8 | 80.0 | 80.9 | 76.2 |
| LiveCodeBench (v6) | 编程 | 85.0 | — | 82.2* | 87.4* |
| TerminalBench | 工具/终端 | 50.8 | 46.2 | 54.0 | 46.4 |
| OCRBench | 文档 OCR | 92.3 | 80.7* | 86.5* | 90.3* |
| OmniDocBench 1.5 | 文档理解 | 88.8 | 85.7 | 84.1* | 87.7* |
| VideoMMMU | 视频理解 | 86.6 | 85.9 | 84.4* | 87.6 |
| LongVideoBench | 长视频理解 | 79.8 | — | — | — |
* 说明:带 “*” 的分数表示在官方表中注明的 re-eval/对齐评测设置 得分;“—” 表示官方表未披露该模型/条目分数。
Kimi K2.5 vs GPT 5.2
以下对比仅使用官方表中同时给出两者分数的条目。
编程性能
| 基准测试 | Kimi K2.5 | GPT-5.2 | 优势方 |
|---|---|---|---|
| SWE-Bench Verified | 76.8% | 80.0% | GPT +3.2 |
| TerminalBench | 50.8 | 46.2 | Kimi +4.6 |
| LiveCodeBench (v6) | 85.0 | — | — |
核心洞察:在官方表里,GPT-5.2 在 SWE-Bench Verified 略高;Kimi K2.5 在 TerminalBench 更强,显示其在终端/工具类任务上具备优势。LiveCodeBench(v6) 官方表未披露 GPT-5.2 分数,因此不做数值结论。
数学与推理
| 基准测试 | Kimi K2.5 | GPT-5.2 | 优势方 |
|---|---|---|---|
| AIME 2025 | 96.1 | 100.0 | GPT +3.9 |
| HMMT 2025 (Feb) | 95.4 | 99.4 | GPT +4.0 |
| IMO-AnswerBench | 81.8 | 86.3 | GPT +4.5 |
| GPQA-Diamond | 87.6 | 92.4 | GPT +4.8 |
核心洞察:在官方表披露的高难数学/推理条目上,GPT-5.2 整体更高,但 Kimi K2.5 仍保持接近的竞争力。
智能体与工具使用
| 基准测试 | Kimi K2.5 | GPT-5.2 | 优势方 |
|---|---|---|---|
| HLE-Full (w/ tools) | 50.2 | 45.5 | Kimi +4.7 |
核心洞察:在 HLE-Full (w/ tools) 上,Kimi K2.5 领先 4.7 个百分点,体现其在“工具增强推理/执行”类任务上的优势。
多模态与文档
| 基准测试 | Kimi K2.5 | GPT-5.2 | 优势方 |
|---|---|---|---|
| MMMU-Pro | 78.5 | 79.5* | GPT +1.0 |
| MathVision | 84.2 | 83.0 | Kimi +1.2 |
| OCRBench | 92.3 | 80.7* | Kimi +11.6 |
| OmniDocBench 1.5 | 88.8 | 85.7 | Kimi +3.1 |
| VideoMMMU | 86.6 | 85.9 | Kimi +0.7 |
核心洞察:Kimi K2.5 在 文档 OCR/文档理解(OCRBench、OmniDocBench)优势明显;在视频/多模态推理上与 GPT-5.2 接近。
价格对比
| 模型 | 输入(每 1M tokens) | 输出(每 1M tokens) |
|---|---|---|
| GPT-5.2 | $1.75 | $14.00 |
| Kimi K2.5 | $0.6 | $3.00 |
说明:OpenAI 的 GPT-5.2 定价可在官方 pricing 页面核验;Moonshot Open Platform 的公开 pricing 页面目前未在同一位置明确列出 “K2.5” 的固定价格(不同渠道/提供方可能不同),因此本文不直接给出 K2.5 的“官方定价数字”。
若你需要写“第三方平台/聚合器价格”,务必标注“第三方来源 & 可能变动”。
Kimi K2.5 vs Gemini 3 Pro
多模态与推理
| 基准测试 | Kimi K2.5 | Gemini 3 Pro | 胜出者 |
|---|---|---|---|
| MMMU-Pro | 78.5 | 81.0 | Gemini 3 Pro |
| MathVision | 84.2 | 86.1* | Gemini 3 Pro |
| GPQA-Diamond | 87.6 | 91.9 | Gemini 3 Pro |
| OCRBench | 92.3 | 90.3* | Kimi K2.5 |
| OmniDocBench 1.5 | 88.8 | 87.7* | Kimi K2.5 |
| VideoMMMU | 86.6 | 87.6 | Gemini 3 Pro |
核心洞察:Gemini 3 Pro 在 MMMU-Pro/MathVision/GPQA/VideoMMMU 更高;Kimi K2.5 在 OCRBench/OmniDocBench 更强,偏向企业文档工作流优势。
Kimi K2.5 vs Claude Opus 4.5
编程与工具
| 基准测试 | Kimi K2.5 | Claude Opus 4.5 | 胜出者 |
|---|---|---|---|
| SWE-Bench Verified | 76.8 | 80.9 | Claude Opus 4.5 |
| TerminalBench | 50.8 | 54.0 | Claude Opus 4.5 |
| HLE-Full (w/ tools) | 50.2 | 43.2 | Kimi K2.5 |
核心洞察:Claude Opus 4.5 在 SWE-Bench Verified/TerminalBench 更强;Kimi K2.5 在 HLE-Full (w/ tools) 明显领先,体现其更偏“研究/检索/工具编排”型的智能体表现。
专项能力分析
视觉编程与 Agent Swarm
Kimi K2.5 的技术报告将其定位为“原生多模态 + agentic”,并发布 Agent Swarm 作为 research preview:最多可自组织 100 子智能体、执行并行工作流,最高约 1,500 次工具调用/协调步骤,并通过 PARL(Parallel-Agent Reinforcement Learning) 训练调度器进行任务分解与并行执行。
注意:这里属于“能力与训练方法披露”,不直接等价于“任意任务都能稳定达到某个倍数加速”;落地效果与任务定义、工具可用性、提供商实现等强相关。
按用例推荐
选择 Kimi K2.5 当:
- 文档/表格/知识库类工作流 是核心:OCRBench、OmniDocBench 领先
- 需要工具增强的研究型任务:HLE-Full (w/ tools) 领先
- 希望开源(open-weights)可部署:权重与许可公开(Modified MIT)
选择 GPT-5.2 当:
- 高难数学/推理 是关键:AIME 2025、GPQA 等在官方表更高
- SWE-Bench Verified 这类 agentic coding 任务要追求极值
选择 Claude Opus 4.5 当:
- 软件工程类 agentic coding:SWE-Bench Verified 官方表最高
- 终端/工具类:TerminalBench 官方表更高
选择 Gemini 3 Pro 当:
- 多模态综合(含视觉数学/视频):MMMU-Pro、MathVision、VideoMMMU 官方表更高
- 需要更大上下文(视具体 API/产品):通常提供更大 context 选项(需以你实际接入渠道为准)
结论
如果你希望文章经得起“逐字逐句 fact check”,最关键的是:数字必须统一口径。本版已将所有对比数字统一为 Kimi K2.5 官方公开 benchmark 表,并把官方未披露条目用 “—” 处理,避免把第三方评测当作“官方数据”。
在官方表的可验证结论里,Kimi K2.5 的亮点主要集中在:
- HLE-Full (w/ tools):工具增强智能体任务领先
- OCRBench / OmniDocBench:文档与 OCR 优势明显
- 开源(open-weights):权重与 Modified MIT 许可公开,便于部署与审计
Sources
- Kimi K2.5 官方 benchmark 表(NVIDIA Model Card):https://build.nvidia.com/moonshotai/kimi-k2.5/modelcard
- Kimi K2.5 Hugging Face Model Card(含评测说明/工具设置/许可链接):https://huggingface.co/moonshotai/Kimi-K2.5
- Kimi K2.5 技术报告(Agent Swarm / PARL / 100 sub-agents / 1500 tool calls):https://www.kimi.com/blog/kimi-k2-5.html
- OpenAI GPT-5.2 官方定价:https://platform.openai.com/docs/pricing
- Kimi K2.5 LICENSE(Modified MIT):https://huggingface.co/moonshotai/Kimi-K2.5/blob/main/LICENSE