Kimi K2.5 Benchmark 完整评测：与 GPT、Claude、Gemini 深度对比 2026

Kimi K2.5 是月之暗面（Moonshot AI）发布的 开源（open-weights）原生多模态、智能体（agentic）模型，基于 Kimi-K2-Base 持续预训练而来，官方披露其使用约 15T 混合视觉与文本 tokens 进行继续训练，并引入 Agent Swarm（最多 100 子智能体） 等能力。

本文以 Kimi K2.5 官方公开 benchmark 表 为唯一“数字口径”，对比 GPT-5.2、Claude Opus 4.5、Gemini 3 Pro 在推理、编程、多模态、工具使用（with tools）等任务上的表现；对官方表中未披露的条目，统一用 “—” 标记，避免混入不可核验数据。

Kimi K2.5 概述：架构与能力

模型架构

规格	详情
架构	混合专家（Mixture-of-Experts, MoE）
总参数量	1T
激活参数量	32B
上下文窗口	256K tokens（通常可覆盖数百页文本，取决于语言与排版）
训练数据	~15T 混合视觉 + 文本 tokens
注意力机制	MLA（Multi-head Latent Attention）
专家数量	384 个总专家，每 token 选择 8 个

核心能力

智能体集群（Agent Swarm）：最多 100 个子智能体，执行并行工作流，最高可达约 1,500 次工具调用/协调步骤
多模态理解：原生支持文本 + 图像 + 视频
工具增强评测设置（with tools）：在官方评测中，K2.5 可使用搜索、代码解释器、网页浏览等工具（用于 HLE w/ tools 与部分 agentic 检索类基准）
开源（open-weights）：权重与许可已公开（Modified MIT License）

综合基准测试结果

总览表：Kimi K2.5 与顶级竞争对手

基准测试	类别	Kimi K2.5	GPT-5.2	Claude Opus 4.5	Gemini 3 Pro
HLE-Full (w/ tools)	智能体/工具使用	50.2	45.5	43.2	45.8
AIME 2025	数学	96.1	100.0	92.8	95.0
HMMT 2025 (Feb)	竞赛数学	95.4	99.4	92.9*	97.3*
IMO-AnswerBench	数学/推理	81.8	86.3	78.5*	83.1*
GPQA-Diamond	推理	87.6	92.4	87.0	91.9
MMLU-Pro	知识	87.1	86.7*	89.3*	90.1
MMMU-Pro	多模态	78.5	79.5*	74.0	81.0
MathVision	视觉+数学	84.2	83.0	77.1*	86.1*
SWE-Bench Verified	编程（智能体）	76.8	80.0	80.9	76.2
LiveCodeBench (v6)	编程	85.0	—	82.2*	87.4*
TerminalBench	工具/终端	50.8	46.2	54.0	46.4
OCRBench	文档 OCR	92.3	80.7*	86.5*	90.3*
OmniDocBench 1.5	文档理解	88.8	85.7	84.1*	87.7*
VideoMMMU	视频理解	86.6	85.9	84.4*	87.6
LongVideoBench	长视频理解	79.8	—	—	—

* 说明：带 “*” 的分数表示在官方表中注明的 re-eval/对齐评测设置 得分；“—” 表示官方表未披露该模型/条目分数。

Kimi K2.5 vs GPT 5.2

以下对比仅使用官方表中同时给出两者分数的条目。

编程性能

基准测试	Kimi K2.5	GPT-5.2	优势方
SWE-Bench Verified	76.8%	80.0%	GPT +3.2
TerminalBench	50.8	46.2	Kimi +4.6
LiveCodeBench (v6)	85.0	—	—

核心洞察：在官方表里，GPT-5.2 在 SWE-Bench Verified 略高；Kimi K2.5 在 TerminalBench 更强，显示其在终端/工具类任务上具备优势。LiveCodeBench(v6) 官方表未披露 GPT-5.2 分数，因此不做数值结论。

数学与推理

基准测试	Kimi K2.5	GPT-5.2	优势方
AIME 2025	96.1	100.0	GPT +3.9
HMMT 2025 (Feb)	95.4	99.4	GPT +4.0
IMO-AnswerBench	81.8	86.3	GPT +4.5
GPQA-Diamond	87.6	92.4	GPT +4.8

核心洞察：在官方表披露的高难数学/推理条目上，GPT-5.2 整体更高，但 Kimi K2.5 仍保持接近的竞争力。

智能体与工具使用

基准测试	Kimi K2.5	GPT-5.2	优势方
HLE-Full (w/ tools)	50.2	45.5	Kimi +4.7

核心洞察：在 HLE-Full (w/ tools) 上，Kimi K2.5 领先 4.7 个百分点，体现其在“工具增强推理/执行”类任务上的优势。

多模态与文档

基准测试	Kimi K2.5	GPT-5.2	优势方
MMMU-Pro	78.5	79.5*	GPT +1.0
MathVision	84.2	83.0	Kimi +1.2
OCRBench	92.3	80.7*	Kimi +11.6
OmniDocBench 1.5	88.8	85.7	Kimi +3.1
VideoMMMU	86.6	85.9	Kimi +0.7

核心洞察：Kimi K2.5 在 文档 OCR/文档理解（OCRBench、OmniDocBench）优势明显；在视频/多模态推理上与 GPT-5.2 接近。

价格对比

模型	输入（每 1M tokens）	输出（每 1M tokens）
GPT-5.2	$1.75	$14.00
Kimi K2.5	$0.6	$3.00

说明：OpenAI 的 GPT-5.2 定价可在官方 pricing 页面核验；Moonshot Open Platform 的公开 pricing 页面目前未在同一位置明确列出 “K2.5” 的固定价格（不同渠道/提供方可能不同），因此本文不直接给出 K2.5 的“官方定价数字”。
若你需要写“第三方平台/聚合器价格”，务必标注“第三方来源 & 可能变动”。

Kimi K2.5 vs Gemini 3 Pro

多模态与推理

基准测试	Kimi K2.5	Gemini 3 Pro	胜出者
MMMU-Pro	78.5	81.0	Gemini 3 Pro
MathVision	84.2	86.1*	Gemini 3 Pro
GPQA-Diamond	87.6	91.9	Gemini 3 Pro
OCRBench	92.3	90.3*	Kimi K2.5
OmniDocBench 1.5	88.8	87.7*	Kimi K2.5
VideoMMMU	86.6	87.6	Gemini 3 Pro

核心洞察：Gemini 3 Pro 在 MMMU-Pro/MathVision/GPQA/VideoMMMU 更高；Kimi K2.5 在 OCRBench/OmniDocBench 更强，偏向企业文档工作流优势。

Kimi K2.5 vs Claude Opus 4.5

编程与工具

基准测试	Kimi K2.5	Claude Opus 4.5	胜出者
SWE-Bench Verified	76.8	80.9	Claude Opus 4.5
TerminalBench	50.8	54.0	Claude Opus 4.5
HLE-Full (w/ tools)	50.2	43.2	Kimi K2.5

核心洞察：Claude Opus 4.5 在 SWE-Bench Verified/TerminalBench 更强；Kimi K2.5 在 HLE-Full (w/ tools) 明显领先，体现其更偏“研究/检索/工具编排”型的智能体表现。

Kimi K2.5 的技术报告将其定位为“原生多模态 + agentic”，并发布 Agent Swarm 作为 research preview：最多可自组织 100 子智能体、执行并行工作流，最高约 1,500 次工具调用/协调步骤，并通过 PARL（Parallel-Agent Reinforcement Learning） 训练调度器进行任务分解与并行执行。