Benchmark Kimi K2.5: Analisis Performa Lengkap vs GPT, Claude & Gemini 2026

Kimi K2.5 adalah model multimodal dan agentic native dengan open-weights dari Moonshot AI. Model ini melanjutkan pretraining pada sekitar 15T token campuran visual + teks dan memperkenalkan Agent Swarm (hingga 100 sub-agent) sebagai research preview.

Artikel ini menggunakan tabel benchmark resmi Kimi K2.5 sebagai satu-satunya sumber angka yang menjadi acuan. Benchmark apa pun yang tidak dilaporkan di sana ditandai dengan “—” agar tidak mencampur hasil yang tidak dapat diverifikasi atau tidak setara untuk dibandingkan.

Sekilas Kimi K2.5: Arsitektur dan Kemampuan

Sebelum menyelami perbandingan benchmark, mari pahami apa yang membuat Kimi K2.5 istimewa:

Arsitektur Model

Spesifikasi	Detail
Arsitektur	Mixture-of-Experts (MoE)
Total Parameter	1T
Parameter Teraktivasi	32B
Context Window	256K token (sering disebut “ratusan halaman,” tergantung format/bahasa)
Data Pelatihan	~15T token campuran visual + teks
Mekanisme Attention	MLA (Multi-head Latent Attention)
Expert	384 total, 8 dipilih per token

Kemampuan Utama

Agent Swarm (preview): hingga 100 sub-agent, alur kerja paralel, hingga ~1,500 pemanggilan tool/langkah terkoordinasi
Multimodalitas native: teks + gambar + video
Evaluasi berbantuan tool: benchmark resmi menjalankan K2.5 dengan tool (search, code interpreter, web browsing) untuk benchmark HLE-with-tools dan agentic search
Open-weights: bobot model + Modified MIT License tersedia untuk publik

Hasil Benchmark Komprehensif

Tabel Ringkasan: Kimi K2.5 vs Kompetitor Teratas

Diagram batang Kimi K2.5 vs GPT-5.2 vs Claude Opus 4.5 vs Gemini 3 Pro: Kimi K2.5 unggul di HLE-Full (50.2) dan OCRBench (92.3); GPT-5.2 unggul di GPQA (92.4) dan SWE-Bench Verified; Gemini 3 Pro unggul di MathVision (86.1).

Benchmark	Kategori	Kimi K2.5	GPT-5.2	Claude Opus 4.5	Gemini 3 Pro
HLE-Full (w/ tools)	Agentic / Tools	50.2	45.5	43.2	45.8
AIME 2025	Matematika	96.1	100.0	92.8	95.0
HMMT 2025 (Feb)	Matematika Kontes	95.4	99.4	92.9*	97.3*
IMO-AnswerBench	Matematika / Penalaran	81.8	86.3	78.5*	83.1*
GPQA-Diamond	Penalaran	87.6	92.4	87.0	91.9
MMLU-Pro	Pengetahuan	87.1	86.7*	89.3*	90.1
MMMU-Pro	Multimodal	78.5	79.5*	74.0	81.0
MathVision	Vision + Matematika	84.2	83.0	77.1*	86.1*
SWE-Bench Verified	Coding (Agentic)	76.8	80.0	80.9	76.2
LiveCodeBench (v6)	Coding	85.0	—	82.2*	87.4*
TerminalBench	Tools / Terminal	50.8	46.2	54.0	46.4
OCRBench	OCR Dokumen	92.3	80.7*	86.5*	90.3*
OmniDocBench 1.5	Pemahaman Dokumen	88.8	85.7	84.1*	87.7*
VideoMMMU	Pemahaman Video	86.6	85.9	84.4*	87.6
LongVideoBench	Video Panjang	79.8	—	—	—

* “*” menunjukkan skor yang dievaluasi ulang / diselaraskan sesuai kondisi yang dinyatakan pada tabel resmi. “—” berarti tidak dilaporkan dalam tabel resmi.

Kimi K2.5 vs GPT 5.2

Coding

Benchmark	Kimi K2.5	GPT-5.2	Pemenang
SWE-Bench Verified	76.8%	80.0%	GPT
TerminalBench	50.8	46.2	Kimi
LiveCodeBench (v6)	85.0	—	—

Insight Utama: GPT-5.2 sedikit lebih tinggi pada SWE-Bench Verified dalam tabel resmi, sementara Kimi K2.5 unggul pada TerminalBench, menandakan performa eksekusi terminal/tool yang lebih kuat. LiveCodeBench (v6) tidak dilaporkan untuk GPT-5.2 dalam tabel resmi yang sama.

Matematika & Penalaran

Benchmark	Kimi K2.5	GPT-5.2	Pemenang
AIME 2025	96.1	100.0	GPT
HMMT 2025 (Feb)	95.4	99.4	GPT
IMO-AnswerBench	81.8	86.3	GPT
GPQA-Diamond	87.6	92.4	GPT

Insight Utama: Dalam tabel resmi, GPT-5.2 unggul pada benchmark matematika/penalaran tersulit yang terdaftar, sementara Kimi K2.5 tetap dekat dan kompetitif.

Agentic w/ Tools

Benchmark	Kimi K2.5	GPT-5.2	Pemenang
HLE-Full (w/ tools)	50.2	45.5	Kimi

Insight Utama: Kimi K2.5 unggul pada HLE-Full (w/ tools) sebesar 4.7 poin, menonjolkan performa agentic berbantuan tool yang kuat.

Multimodal & Dokumen

Benchmark	Kimi K2.5	GPT-5.2	Pemenang
MMMU-Pro	78.5	79.5*	GPT
MathVision	84.2	83.0	Kimi
OCRBench	92.3	80.7*	Kimi
OmniDocBench 1.5	88.8	85.7	Kimi
VideoMMMU	86.6	85.9	Kimi

Insight Utama: Kimi K2.5 menunjukkan keunggulan jelas pada OCR dokumen dan pemahaman dokumen, serta tetap kompetitif pada penalaran vision/video.

Kimi K2.5 vs Gemini 3 Pro

Seri Gemini dari Google menekankan multimodalitas dan konteks panjang. Perbandingannya:

Performa Multimodal

Benchmark	Kimi K2.5	Gemini 3 Pro	Pemenang
MMMU-Pro	78.5	81.0	Gemini 3 Pro
MathVision	84.2	86.1*	Gemini 3 Pro
OCRBench	92.3	90.3*	Kimi K2.5
OmniDocBench 1.5	88.8	87.7*	Kimi K2.5
VideoMMMU	86.6	87.6	Gemini 3 Pro
LongVideoBench	79.8	—	—

Insight Utama: Gemini 3 Pro unggul pada MMMU-Pro / MathVision / VideoMMMU, sementara Kimi K2.5 unggul pada OCRBench / OmniDocBench, menjadikan Kimi sangat kuat untuk alur kerja dokumen di lingkungan enterprise.

Coding dan Tools

Benchmark	Kimi K2.5	Gemini 3 Pro	Pemenang
SWE-Bench Verified	76.8	76.2	Kimi K2.5
LiveCodeBench (v6)	85.0	87.4*	Gemini 3 Pro
TerminalBench	50.8	46.4	Kimi K2.5

Insight Utama: Kimi K2.5 sedikit lebih tinggi pada SWE-Bench Verified dan jelas lebih tinggi pada TerminalBench, sementara Gemini 3 Pro unggul pada LiveCodeBench (v6) dalam tabel resmi yang sama.

Penalaran dan Pengetahuan

Benchmark	Kimi K2.5	Gemini 3 Pro	Pemenang
GPQA-Diamond	87.6	91.9	Gemini 3 Pro
MMLU-Pro	87.1	90.1	Gemini 3 Pro

Insight Utama: Gemini 3 Pro lebih tinggi pada GPQA-Diamond dan MMLU-Pro di tabel resmi.

Kimi K2.5 vs Claude Opus 4.5

Model Claude dari Anthropic dikenal kuat dalam coding dan penalaran. Perbandingannya:

Tugas Coding dan Pengembangan

Benchmark	Kimi K2.5	Claude Opus 4.5	Pemenang
SWE-Bench Verified	76.8	80.9	Claude Opus 4.5
LiveCodeBench (v6)	85.0	82.2*	Kimi K2.5
TerminalBench	50.8	54.0	Claude Opus 4.5

Insight Utama: Claude Opus 4.5 unggul pada SWE-Bench Verified dan TerminalBench, sementara Kimi K2.5 lebih tinggi pada LiveCodeBench (v6) di tabel resmi.

Penalaran dan Pengetahuan

Benchmark	Kimi K2.5	Claude Opus 4.5	Pemenang
GPQA-Diamond	87.6	87.0	Kimi K2.5
MMLU-Pro	87.1	89.3*	Claude Opus 4.5

Insight Utama: Kimi K2.5 sedikit mengungguli Claude pada GPQA-Diamond, sementara Claude Opus 4.5 unggul pada MMLU-Pro (ditandai sebagai dievaluasi ulang “*” pada tabel resmi).

Penggunaan Tool dan Performa Agentic

Benchmark	Kimi K2.5	Claude Opus 4.5	Pemenang
HLE-Full (w/ tools)	50.2	43.2	Kimi K2.5

Insight Utama: Kimi K2.5 unggul atas Claude Opus 4.5 pada HLE-Full (w/ tools), menandakan perilaku agentic berbantuan tool yang lebih kuat pada benchmark ini.

Catatan Kemampuan Khusus

Laporan teknis Kimi mendeskripsikan Agent Swarm sebagai research preview yang dilatih dengan PARL, memungkinkan hingga 100 sub-agent dan hingga ~1,500 pemanggilan tool/langkah untuk alur kerja paralel. Pengungkapan ini menjelaskan arah kemampuan dan setup evaluasi, tetapi hasil nyata dapat bervariasi tergantung definisi tugas, ketersediaan tool, dan implementasi provider.

Rekomendasi Berdasarkan Kasus Penggunaan

Pilih Kimi K2.5 Ketika:

Alur kerja dokumen/OCR penting: unggul pada OCRBench dan OmniDocBench
Tugas agentic berbantuan tool menjadi inti: unggul pada HLE-Full (w/ tools)
Deployment open-weights diperlukan: bobot model + lisensi Modified MIT tersedia untuk publik

Pilih GPT-5.2 Ketika:

Matematika/penalaran tersulit dengan hasil maksimal diperlukan: unggul pada AIME 2025 / GPQA-Diamond / HMMT / IMO-AnswerBench
Performa SWE-Bench Verified kelas atas sangat krusial

Pilih Claude Opus 4.5 Ketika:

Rekayasa perangkat lunak agentic menjadi prioritas utama: SWE-Bench Verified tertinggi pada tabel resmi
Tugas terminal/tool penting: TerminalBench lebih tinggi pada tabel resmi

Pilih Gemini 3 Pro Ketika:

Kekuatan multimodal umum menjadi prioritas: MMMU-Pro / MathVision / VideoMMMU lebih tinggi pada tabel resmi
Anda butuh opsi konteks besar (validasikan berdasarkan kanal API/produk Anda yang sebenarnya)

Kesimpulan

Agar penulisan benchmark tahan terhadap fact-checking yang ketat, aturan terpenting adalah konsistensi sumber. Versi ini menggunakan tabel benchmark resmi Kimi K2.5 untuk semua angka dan menghindari mengisi celah dengan nilai pihak ketiga yang tidak terverifikasi.

Berdasarkan tabel resmi, keunggulan utama Kimi K2.5 adalah:

Performa agentic berbantuan tool: unggul pada HLE-Full (w/ tools)
Pemahaman dokumen: unggul pada OCRBench dan OmniDocBench
Performa coding dan multimodal yang kompetitif: hasil SWE/LiveCode/Video yang kuat dan selisih yang tipis dengan model proprietary teratas

Sumber

Tabel benchmark resmi Kimi K2.5 (NVIDIA Model Card): https://build.nvidia.com/moonshotai/kimi-k2.5/modelcard
Hugging Face Model Card (tools/catatan/lisensi): https://huggingface.co/moonshotai/Kimi-K2.5
Laporan Teknis Kimi K2.5 (Agent Swarm / PARL): https://www.kimi.com/blog/kimi-k2-5.html
Harga OpenAI: https://platform.openai.com/docs/pricing
LICENSE Kimi K2.5 (Modified MIT): https://huggingface.co/moonshotai/Kimi-K2.5/blob/main/LICENSE

Benchmark Kimi K2.5: Analisis Performa Lengkap vs GPT, Claude & Gemini 2026

Daftar Isi