Kimi K2.5 Benchmark 完整评测:与 GPT、Claude、Gemini 深度对比 2026

2026/01/30

Kimi K2.5 是月之暗面(Moonshot AI)发布的 开源(open-weights)原生多模态、智能体(agentic)模型,基于 Kimi-K2-Base 持续预训练而来,官方披露其使用约 15T 混合视觉与文本 tokens 进行继续训练,并引入 Agent Swarm(最多 100 子智能体) 等能力。

本文以 Kimi K2.5 官方公开 benchmark 表 为唯一“数字口径”,对比 GPT-5.2、Claude Opus 4.5、Gemini 3 Pro 在推理、编程、多模态、工具使用(with tools)等任务上的表现;对官方表中未披露的条目,统一用 “—” 标记,避免混入不可核验数据。

Kimi K2.5 概述:架构与能力

模型架构

规格详情
架构混合专家(Mixture-of-Experts, MoE)
总参数量1T
激活参数量32B
上下文窗口256K tokens(通常可覆盖数百页文本,取决于语言与排版)
训练数据~15T 混合视觉 + 文本 tokens
注意力机制MLA(Multi-head Latent Attention)
专家数量384 个总专家,每 token 选择 8 个

核心能力

  • 智能体集群(Agent Swarm):最多 100 个子智能体,执行并行工作流,最高可达约 1,500 次工具调用/协调步骤
  • 多模态理解:原生支持文本 + 图像 + 视频
  • 工具增强评测设置(with tools):在官方评测中,K2.5 可使用搜索、代码解释器、网页浏览等工具(用于 HLE w/ tools 与部分 agentic 检索类基准)
  • 开源(open-weights):权重与许可已公开(Modified MIT License)

综合基准测试结果

总览表:Kimi K2.5 与顶级竞争对手

基准测试类别Kimi K2.5GPT-5.2Claude Opus 4.5Gemini 3 Pro
HLE-Full (w/ tools)智能体/工具使用50.245.543.245.8
AIME 2025数学96.1100.092.895.0
HMMT 2025 (Feb)竞赛数学95.499.492.9*97.3*
IMO-AnswerBench数学/推理81.886.378.5*83.1*
GPQA-Diamond推理87.692.487.091.9
MMLU-Pro知识87.186.7*89.3*90.1
MMMU-Pro多模态78.579.5*74.081.0
MathVision视觉+数学84.283.077.1*86.1*
SWE-Bench Verified编程(智能体)76.880.080.976.2
LiveCodeBench (v6)编程85.082.2*87.4*
TerminalBench工具/终端50.846.254.046.4
OCRBench文档 OCR92.380.7*86.5*90.3*
OmniDocBench 1.5文档理解88.885.784.1*87.7*
VideoMMMU视频理解86.685.984.4*87.6
LongVideoBench长视频理解79.8

* 说明:带 “*” 的分数表示在官方表中注明的 re-eval/对齐评测设置 得分;“—” 表示官方表未披露该模型/条目分数。

Kimi K2.5 vs GPT 5.2

以下对比仅使用官方表中同时给出两者分数的条目。

编程性能

基准测试Kimi K2.5GPT-5.2优势方
SWE-Bench Verified76.8%80.0%GPT +3.2
TerminalBench50.846.2Kimi +4.6
LiveCodeBench (v6)85.0

核心洞察:在官方表里,GPT-5.2 在 SWE-Bench Verified 略高;Kimi K2.5 在 TerminalBench 更强,显示其在终端/工具类任务上具备优势。LiveCodeBench(v6) 官方表未披露 GPT-5.2 分数,因此不做数值结论。

数学与推理

基准测试Kimi K2.5GPT-5.2优势方
AIME 202596.1100.0GPT +3.9
HMMT 2025 (Feb)95.499.4GPT +4.0
IMO-AnswerBench81.886.3GPT +4.5
GPQA-Diamond87.692.4GPT +4.8

核心洞察:在官方表披露的高难数学/推理条目上,GPT-5.2 整体更高,但 Kimi K2.5 仍保持接近的竞争力。

智能体与工具使用

基准测试Kimi K2.5GPT-5.2优势方
HLE-Full (w/ tools)50.245.5Kimi +4.7

核心洞察:在 HLE-Full (w/ tools) 上,Kimi K2.5 领先 4.7 个百分点,体现其在“工具增强推理/执行”类任务上的优势。

多模态与文档

基准测试Kimi K2.5GPT-5.2优势方
MMMU-Pro78.579.5*GPT +1.0
MathVision84.283.0Kimi +1.2
OCRBench92.380.7*Kimi +11.6
OmniDocBench 1.588.885.7Kimi +3.1
VideoMMMU86.685.9Kimi +0.7

核心洞察:Kimi K2.5 在 文档 OCR/文档理解(OCRBench、OmniDocBench)优势明显;在视频/多模态推理上与 GPT-5.2 接近。

价格对比

模型输入(每 1M tokens)输出(每 1M tokens)
GPT-5.2$1.75$14.00
Kimi K2.5$0.6$3.00

说明:OpenAI 的 GPT-5.2 定价可在官方 pricing 页面核验;Moonshot Open Platform 的公开 pricing 页面目前未在同一位置明确列出 “K2.5” 的固定价格(不同渠道/提供方可能不同),因此本文不直接给出 K2.5 的“官方定价数字”。
若你需要写“第三方平台/聚合器价格”,务必标注“第三方来源 & 可能变动”。

Kimi K2.5 vs Gemini 3 Pro

多模态与推理

基准测试Kimi K2.5Gemini 3 Pro胜出者
MMMU-Pro78.581.0Gemini 3 Pro
MathVision84.286.1*Gemini 3 Pro
GPQA-Diamond87.691.9Gemini 3 Pro
OCRBench92.390.3*Kimi K2.5
OmniDocBench 1.588.887.7*Kimi K2.5
VideoMMMU86.687.6Gemini 3 Pro

核心洞察:Gemini 3 Pro 在 MMMU-Pro/MathVision/GPQA/VideoMMMU 更高;Kimi K2.5 在 OCRBench/OmniDocBench 更强,偏向企业文档工作流优势。

Kimi K2.5 vs Claude Opus 4.5

编程与工具

基准测试Kimi K2.5Claude Opus 4.5胜出者
SWE-Bench Verified76.880.9Claude Opus 4.5
TerminalBench50.854.0Claude Opus 4.5
HLE-Full (w/ tools)50.243.2Kimi K2.5

核心洞察:Claude Opus 4.5 在 SWE-Bench Verified/TerminalBench 更强;Kimi K2.5 在 HLE-Full (w/ tools) 明显领先,体现其更偏“研究/检索/工具编排”型的智能体表现。

专项能力分析

视觉编程与 Agent Swarm

Kimi K2.5 的技术报告将其定位为“原生多模态 + agentic”,并发布 Agent Swarm 作为 research preview:最多可自组织 100 子智能体、执行并行工作流,最高约 1,500 次工具调用/协调步骤,并通过 PARL(Parallel-Agent Reinforcement Learning) 训练调度器进行任务分解与并行执行。

注意:这里属于“能力与训练方法披露”,不直接等价于“任意任务都能稳定达到某个倍数加速”;落地效果与任务定义、工具可用性、提供商实现等强相关。

按用例推荐

选择 Kimi K2.5 当:

  • 文档/表格/知识库类工作流 是核心:OCRBench、OmniDocBench 领先
  • 需要工具增强的研究型任务:HLE-Full (w/ tools) 领先
  • 希望开源(open-weights)可部署:权重与许可公开(Modified MIT)

选择 GPT-5.2 当:

  • 高难数学/推理 是关键:AIME 2025、GPQA 等在官方表更高
  • SWE-Bench Verified 这类 agentic coding 任务要追求极值

选择 Claude Opus 4.5 当:

  • 软件工程类 agentic coding:SWE-Bench Verified 官方表最高
  • 终端/工具类:TerminalBench 官方表更高

选择 Gemini 3 Pro 当:

  • 多模态综合(含视觉数学/视频):MMMU-Pro、MathVision、VideoMMMU 官方表更高
  • 需要更大上下文(视具体 API/产品):通常提供更大 context 选项(需以你实际接入渠道为准)

结论

如果你希望文章经得起“逐字逐句 fact check”,最关键的是:数字必须统一口径。本版已将所有对比数字统一为 Kimi K2.5 官方公开 benchmark 表,并把官方未披露条目用 “—” 处理,避免把第三方评测当作“官方数据”。

在官方表的可验证结论里,Kimi K2.5 的亮点主要集中在:

  1. HLE-Full (w/ tools):工具增强智能体任务领先
  2. OCRBench / OmniDocBench:文档与 OCR 优势明显
  3. 开源(open-weights):权重与 Modified MIT 许可公开,便于部署与审计

Sources

Kimi K2.5 Team

Kimi K2.5 Team

Kimi K2.5 Benchmark 完整评测:与 GPT、Claude、Gemini 深度对比 2026 | 博客