Benchmark Kimi K2.5: Analisis Performa Lengkap vs GPT, Claude & Gemini 2026

Jan 30, 2026

New to Kimi K2.5?Try Kimi K2.5.

Kimi K2.5 adalah model multimodal dan agentic native dengan open-weights dari Moonshot AI. Model ini melanjutkan pretraining pada sekitar 15T token campuran visual + teks dan memperkenalkan Agent Swarm (hingga 100 sub-agent) sebagai research preview.

Artikel ini menggunakan tabel benchmark resmi Kimi K2.5 sebagai satu-satunya sumber angka yang menjadi acuan. Benchmark apa pun yang tidak dilaporkan di sana ditandai dengan “—” agar tidak mencampur hasil yang tidak dapat diverifikasi atau tidak setara untuk dibandingkan.

Sekilas Kimi K2.5: Arsitektur dan Kemampuan

Sebelum menyelami perbandingan benchmark, mari pahami apa yang membuat Kimi K2.5 istimewa:

Arsitektur Model

SpesifikasiDetail
ArsitekturMixture-of-Experts (MoE)
Total Parameter1T
Parameter Teraktivasi32B
Context Window256K token (sering disebut “ratusan halaman,” tergantung format/bahasa)
Data Pelatihan~15T token campuran visual + teks
Mekanisme AttentionMLA (Multi-head Latent Attention)
Expert384 total, 8 dipilih per token

Kemampuan Utama

  • Agent Swarm (preview): hingga 100 sub-agent, alur kerja paralel, hingga ~1,500 pemanggilan tool/langkah terkoordinasi
  • Multimodalitas native: teks + gambar + video
  • Evaluasi berbantuan tool: benchmark resmi menjalankan K2.5 dengan tool (search, code interpreter, web browsing) untuk benchmark HLE-with-tools dan agentic search
  • Open-weights: bobot model + Modified MIT License tersedia untuk publik

Hasil Benchmark Komprehensif

Tabel Ringkasan: Kimi K2.5 vs Kompetitor Teratas

Diagram batang Kimi K2.5 vs GPT-5.2 vs Claude Opus 4.5 vs Gemini 3 Pro: Kimi K2.5 unggul di HLE-Full (50.2) dan OCRBench (92.3); GPT-5.2 unggul di GPQA (92.4) dan SWE-Bench Verified; Gemini 3 Pro unggul di MathVision (86.1).

BenchmarkKategoriKimi K2.5GPT-5.2Claude Opus 4.5Gemini 3 Pro
HLE-Full (w/ tools)Agentic / Tools50.245.543.245.8
AIME 2025Matematika96.1100.092.895.0
HMMT 2025 (Feb)Matematika Kontes95.499.492.9*97.3*
IMO-AnswerBenchMatematika / Penalaran81.886.378.5*83.1*
GPQA-DiamondPenalaran87.692.487.091.9
MMLU-ProPengetahuan87.186.7*89.3*90.1
MMMU-ProMultimodal78.579.5*74.081.0
MathVisionVision + Matematika84.283.077.1*86.1*
SWE-Bench VerifiedCoding (Agentic)76.880.080.976.2
LiveCodeBench (v6)Coding85.082.2*87.4*
TerminalBenchTools / Terminal50.846.254.046.4
OCRBenchOCR Dokumen92.380.7*86.5*90.3*
OmniDocBench 1.5Pemahaman Dokumen88.885.784.1*87.7*
VideoMMMUPemahaman Video86.685.984.4*87.6
LongVideoBenchVideo Panjang79.8

* “*” menunjukkan skor yang dievaluasi ulang / diselaraskan sesuai kondisi yang dinyatakan pada tabel resmi. “—” berarti tidak dilaporkan dalam tabel resmi.

Kimi K2.5 vs GPT 5.2

Coding

BenchmarkKimi K2.5GPT-5.2Pemenang
SWE-Bench Verified76.8%80.0%GPT
TerminalBench50.846.2Kimi
LiveCodeBench (v6)85.0

Insight Utama: GPT-5.2 sedikit lebih tinggi pada SWE-Bench Verified dalam tabel resmi, sementara Kimi K2.5 unggul pada TerminalBench, menandakan performa eksekusi terminal/tool yang lebih kuat. LiveCodeBench (v6) tidak dilaporkan untuk GPT-5.2 dalam tabel resmi yang sama.

Matematika & Penalaran

BenchmarkKimi K2.5GPT-5.2Pemenang
AIME 202596.1100.0GPT
HMMT 2025 (Feb)95.499.4GPT
IMO-AnswerBench81.886.3GPT
GPQA-Diamond87.692.4GPT

Insight Utama: Dalam tabel resmi, GPT-5.2 unggul pada benchmark matematika/penalaran tersulit yang terdaftar, sementara Kimi K2.5 tetap dekat dan kompetitif.

Agentic w/ Tools

BenchmarkKimi K2.5GPT-5.2Pemenang
HLE-Full (w/ tools)50.245.5Kimi

Insight Utama: Kimi K2.5 unggul pada HLE-Full (w/ tools) sebesar 4.7 poin, menonjolkan performa agentic berbantuan tool yang kuat.

Multimodal & Dokumen

BenchmarkKimi K2.5GPT-5.2Pemenang
MMMU-Pro78.579.5*GPT
MathVision84.283.0Kimi
OCRBench92.380.7*Kimi
OmniDocBench 1.588.885.7Kimi
VideoMMMU86.685.9Kimi

Insight Utama: Kimi K2.5 menunjukkan keunggulan jelas pada OCR dokumen dan pemahaman dokumen, serta tetap kompetitif pada penalaran vision/video.

Kimi K2.5 vs Gemini 3 Pro

Seri Gemini dari Google menekankan multimodalitas dan konteks panjang. Perbandingannya:

Performa Multimodal

BenchmarkKimi K2.5Gemini 3 ProPemenang
MMMU-Pro78.581.0Gemini 3 Pro
MathVision84.286.1*Gemini 3 Pro
OCRBench92.390.3*Kimi K2.5
OmniDocBench 1.588.887.7*Kimi K2.5
VideoMMMU86.687.6Gemini 3 Pro
LongVideoBench79.8

Insight Utama: Gemini 3 Pro unggul pada MMMU-Pro / MathVision / VideoMMMU, sementara Kimi K2.5 unggul pada OCRBench / OmniDocBench, menjadikan Kimi sangat kuat untuk alur kerja dokumen di lingkungan enterprise.

Coding dan Tools

BenchmarkKimi K2.5Gemini 3 ProPemenang
SWE-Bench Verified76.876.2Kimi K2.5
LiveCodeBench (v6)85.087.4*Gemini 3 Pro
TerminalBench50.846.4Kimi K2.5

Insight Utama: Kimi K2.5 sedikit lebih tinggi pada SWE-Bench Verified dan jelas lebih tinggi pada TerminalBench, sementara Gemini 3 Pro unggul pada LiveCodeBench (v6) dalam tabel resmi yang sama.

Penalaran dan Pengetahuan

BenchmarkKimi K2.5Gemini 3 ProPemenang
GPQA-Diamond87.691.9Gemini 3 Pro
MMLU-Pro87.190.1Gemini 3 Pro

Insight Utama: Gemini 3 Pro lebih tinggi pada GPQA-Diamond dan MMLU-Pro di tabel resmi.

Kimi K2.5 vs Claude Opus 4.5

Model Claude dari Anthropic dikenal kuat dalam coding dan penalaran. Perbandingannya:

Tugas Coding dan Pengembangan

BenchmarkKimi K2.5Claude Opus 4.5Pemenang
SWE-Bench Verified76.880.9Claude Opus 4.5
LiveCodeBench (v6)85.082.2*Kimi K2.5
TerminalBench50.854.0Claude Opus 4.5

Insight Utama: Claude Opus 4.5 unggul pada SWE-Bench Verified dan TerminalBench, sementara Kimi K2.5 lebih tinggi pada LiveCodeBench (v6) di tabel resmi.

Penalaran dan Pengetahuan

BenchmarkKimi K2.5Claude Opus 4.5Pemenang
GPQA-Diamond87.687.0Kimi K2.5
MMLU-Pro87.189.3*Claude Opus 4.5

Insight Utama: Kimi K2.5 sedikit mengungguli Claude pada GPQA-Diamond, sementara Claude Opus 4.5 unggul pada MMLU-Pro (ditandai sebagai dievaluasi ulang “*” pada tabel resmi).

Penggunaan Tool dan Performa Agentic

BenchmarkKimi K2.5Claude Opus 4.5Pemenang
HLE-Full (w/ tools)50.243.2Kimi K2.5

Insight Utama: Kimi K2.5 unggul atas Claude Opus 4.5 pada HLE-Full (w/ tools), menandakan perilaku agentic berbantuan tool yang lebih kuat pada benchmark ini.

Catatan Kemampuan Khusus

Laporan teknis Kimi mendeskripsikan Agent Swarm sebagai research preview yang dilatih dengan PARL, memungkinkan hingga 100 sub-agent dan hingga ~1,500 pemanggilan tool/langkah untuk alur kerja paralel. Pengungkapan ini menjelaskan arah kemampuan dan setup evaluasi, tetapi hasil nyata dapat bervariasi tergantung definisi tugas, ketersediaan tool, dan implementasi provider.

Rekomendasi Berdasarkan Kasus Penggunaan

Pilih Kimi K2.5 Ketika:

  • Alur kerja dokumen/OCR penting: unggul pada OCRBench dan OmniDocBench
  • Tugas agentic berbantuan tool menjadi inti: unggul pada HLE-Full (w/ tools)
  • Deployment open-weights diperlukan: bobot model + lisensi Modified MIT tersedia untuk publik

Pilih GPT-5.2 Ketika:

  • Matematika/penalaran tersulit dengan hasil maksimal diperlukan: unggul pada AIME 2025 / GPQA-Diamond / HMMT / IMO-AnswerBench
  • Performa SWE-Bench Verified kelas atas sangat krusial

Pilih Claude Opus 4.5 Ketika:

  • Rekayasa perangkat lunak agentic menjadi prioritas utama: SWE-Bench Verified tertinggi pada tabel resmi
  • Tugas terminal/tool penting: TerminalBench lebih tinggi pada tabel resmi

Pilih Gemini 3 Pro Ketika:

  • Kekuatan multimodal umum menjadi prioritas: MMMU-Pro / MathVision / VideoMMMU lebih tinggi pada tabel resmi
  • Anda butuh opsi konteks besar (validasikan berdasarkan kanal API/produk Anda yang sebenarnya)

Kesimpulan

Agar penulisan benchmark tahan terhadap fact-checking yang ketat, aturan terpenting adalah konsistensi sumber. Versi ini menggunakan tabel benchmark resmi Kimi K2.5 untuk semua angka dan menghindari mengisi celah dengan nilai pihak ketiga yang tidak terverifikasi.

Berdasarkan tabel resmi, keunggulan utama Kimi K2.5 adalah:

  1. Performa agentic berbantuan tool: unggul pada HLE-Full (w/ tools)
  2. Pemahaman dokumen: unggul pada OCRBench dan OmniDocBench
  3. Performa coding dan multimodal yang kompetitif: hasil SWE/LiveCode/Video yang kuat dan selisih yang tipis dengan model proprietary teratas

Sumber

Benchmark Kimi K2.5: Analisis Performa Lengkap vs GPT, Claude & Gemini 2026