Kimi K2.5 Benchmark 完整评测:与 GPT、Claude、Gemini 深度对比 2026

2026/01/30

Kimi K2.5 是月之暗面(Moonshot AI)发布的 开源(open-weights)原生多模态、智能体(agentic)模型,经过持续预训练迭代,官方披露其使用约 15T 混合视觉与文本 tokens 进行继续训练,并引入 Agent Swarm(最多 100 子智能体) 等能力。

本文以 Kimi K2.5 官方公开 benchmark 表 为唯一“数字口径”,对比 GPT-5.2、Claude Opus 4.5、Gemini 3 Pro 在推理、编程、多模态、工具使用(with tools)等任务上的表现;对官方表中未披露的条目,统一用 “—” 标记,避免混入不可核验数据。

Kimi K2.5 概述:架构与能力

模型架构

规格 详情
架构 混合专家(Mixture-of-Experts, MoE)
总参数量 1T
激活参数量 32B
上下文窗口 256K tokens(通常可覆盖数百页文本,取决于语言与排版)
训练数据 ~15T 混合视觉 + 文本 tokens
注意力机制 MLA(Multi-head Latent Attention)
专家数量 384 个总专家,每 token 选择 8 个

核心能力

  • 智能体集群(Agent Swarm):最多 100 个子智能体,执行并行工作流,最高可达约 1,500 次工具调用/协调步骤
  • 多模态理解:原生支持文本 + 图像 + 视频
  • 工具增强评测设置(with tools):在官方评测中,K2.5 可使用搜索、代码解释器、网页浏览等工具(用于 HLE w/ tools 与部分 agentic 检索类基准)
  • 开源(open-weights):权重与许可已公开(Modified MIT License)

综合基准测试结果

总览表:Kimi K2.5 与顶级竞争对手

基准测试 类别 Kimi K2.5 GPT-5.2 Claude Opus 4.5 Gemini 3 Pro
HLE-Full (w/ tools) 智能体/工具使用 50.2 45.5 43.2 45.8
AIME 2025 数学 96.1 100.0 92.8 95.0
HMMT 2025 (Feb) 竞赛数学 95.4 99.4 92.9* 97.3*
IMO-AnswerBench 数学/推理 81.8 86.3 78.5* 83.1*
GPQA-Diamond 推理 87.6 92.4 87.0 91.9
MMLU-Pro 知识 87.1 86.7* 89.3* 90.1
MMMU-Pro 多模态 78.5 79.5* 74.0 81.0
MathVision 视觉+数学 84.2 83.0 77.1* 86.1*
SWE-Bench Verified 编程(智能体) 76.8 80.0 80.9 76.2
LiveCodeBench (v6) 编程 85.0 82.2* 87.4*
TerminalBench 工具/终端 50.8 46.2 54.0 46.4
OCRBench 文档 OCR 92.3 80.7* 86.5* 90.3*
OmniDocBench 1.5 文档理解 88.8 85.7 84.1* 87.7*
VideoMMMU 视频理解 86.6 85.9 84.4* 87.6
LongVideoBench 长视频理解 79.8

* 说明:带 “*” 的分数表示在官方表中注明的 re-eval/对齐评测设置 得分;“—” 表示官方表未披露该模型/条目分数。

Kimi K2.5 vs GPT 5.2

以下对比仅使用官方表中同时给出两者分数的条目。

编程性能

基准测试 Kimi K2.5 GPT-5.2 优势方
SWE-Bench Verified 76.8% 80.0% GPT +3.2
TerminalBench 50.8 46.2 Kimi +4.6
LiveCodeBench (v6) 85.0

核心洞察:在官方表里,GPT-5.2 在 SWE-Bench Verified 略高;Kimi K2.5 在 TerminalBench 更强,显示其在终端/工具类任务上具备优势。LiveCodeBench(v6) 官方表未披露 GPT-5.2 分数,因此不做数值结论。

数学与推理

基准测试 Kimi K2.5 GPT-5.2 优势方
AIME 2025 96.1 100.0 GPT +3.9
HMMT 2025 (Feb) 95.4 99.4 GPT +4.0
IMO-AnswerBench 81.8 86.3 GPT +4.5
GPQA-Diamond 87.6 92.4 GPT +4.8

核心洞察:在官方表披露的高难数学/推理条目上,GPT-5.2 整体更高,但 Kimi K2.5 仍保持接近的竞争力。

智能体与工具使用

基准测试 Kimi K2.5 GPT-5.2 优势方
HLE-Full (w/ tools) 50.2 45.5 Kimi +4.7

核心洞察:在 HLE-Full (w/ tools) 上,Kimi K2.5 领先 4.7 个百分点,体现其在“工具增强推理/执行”类任务上的优势。

多模态与文档

基准测试 Kimi K2.5 GPT-5.2 优势方
MMMU-Pro 78.5 79.5* GPT +1.0
MathVision 84.2 83.0 Kimi +1.2
OCRBench 92.3 80.7* Kimi +11.6
OmniDocBench 1.5 88.8 85.7 Kimi +3.1
VideoMMMU 86.6 85.9 Kimi +0.7

核心洞察:Kimi K2.5 在 文档 OCR/文档理解(OCRBench、OmniDocBench)优势明显;在视频/多模态推理上与 GPT-5.2 接近。

价格对比

模型 输入(每 1M tokens) 输出(每 1M tokens)
GPT-5.2 $1.75 $14.00
Kimi K2.5 $0.6 $3.00

说明:OpenAI 的 GPT-5.2 定价可在官方 pricing 页面核验;Moonshot Open Platform 的公开 pricing 页面目前未在同一位置明确列出 “K2.5” 的固定价格(不同渠道/提供方可能不同),因此本文不直接给出 K2.5 的“官方定价数字”。
若你需要写“第三方平台/聚合器价格”,务必标注“第三方来源 & 可能变动”。

Kimi K2.5 vs Gemini 3 Pro

多模态与推理

基准测试 Kimi K2.5 Gemini 3 Pro 胜出者
MMMU-Pro 78.5 81.0 Gemini 3 Pro
MathVision 84.2 86.1* Gemini 3 Pro
GPQA-Diamond 87.6 91.9 Gemini 3 Pro
OCRBench 92.3 90.3* Kimi K2.5
OmniDocBench 1.5 88.8 87.7* Kimi K2.5
VideoMMMU 86.6 87.6 Gemini 3 Pro

核心洞察:Gemini 3 Pro 在 MMMU-Pro/MathVision/GPQA/VideoMMMU 更高;Kimi K2.5 在 OCRBench/OmniDocBench 更强,偏向企业文档工作流优势。

Kimi K2.5 vs Claude Opus 4.5

编程与工具

基准测试 Kimi K2.5 Claude Opus 4.5 胜出者
SWE-Bench Verified 76.8 80.9 Claude Opus 4.5
TerminalBench 50.8 54.0 Claude Opus 4.5
HLE-Full (w/ tools) 50.2 43.2 Kimi K2.5

核心洞察:Claude Opus 4.5 在 SWE-Bench Verified/TerminalBench 更强;Kimi K2.5 在 HLE-Full (w/ tools) 明显领先,体现其更偏“研究/检索/工具编排”型的智能体表现。

专项能力分析

视觉编程与 Agent Swarm

Kimi K2.5 的技术报告将其定位为“原生多模态 + agentic”,并发布 Agent Swarm 作为 research preview:最多可自组织 100 子智能体、执行并行工作流,最高约 1,500 次工具调用/协调步骤,并通过 PARL(Parallel-Agent Reinforcement Learning) 训练调度器进行任务分解与并行执行。

注意:这里属于“能力与训练方法披露”,不直接等价于“任意任务都能稳定达到某个倍数加速”;落地效果与任务定义、工具可用性、提供商实现等强相关。

按用例推荐

选择 Kimi K2.5 当:

  • 文档/表格/知识库类工作流 是核心:OCRBench、OmniDocBench 领先
  • 需要工具增强的研究型任务:HLE-Full (w/ tools) 领先
  • 希望开源(open-weights)可部署:权重与许可公开(Modified MIT)

选择 GPT-5.2 当:

  • 高难数学/推理 是关键:AIME 2025、GPQA 等在官方表更高
  • SWE-Bench Verified 这类 agentic coding 任务要追求极值

选择 Claude Opus 4.5 当:

  • 软件工程类 agentic coding:SWE-Bench Verified 官方表最高
  • 终端/工具类:TerminalBench 官方表更高

选择 Gemini 3 Pro 当:

  • 多模态综合(含视觉数学/视频):MMMU-Pro、MathVision、VideoMMMU 官方表更高
  • 需要更大上下文(视具体 API/产品):通常提供更大 context 选项(需以你实际接入渠道为准)

结论

如果你希望文章经得起“逐字逐句 fact check”,最关键的是:数字必须统一口径。本版已将所有对比数字统一为 Kimi K2.5 官方公开 benchmark 表,并把官方未披露条目用 “—” 处理,避免把第三方评测当作“官方数据”。

在官方表的可验证结论里,Kimi K2.5 的亮点主要集中在:

  1. HLE-Full (w/ tools):工具增强智能体任务领先
  2. OCRBench / OmniDocBench:文档与 OCR 优势明显
  3. 开源(open-weights):权重与 Modified MIT 许可公开,便于部署与审计

Sources

Kimi K2.5 Benchmark 完整评测:与 GPT、Claude、Gemini 深度对比 2026 | 博客