Kimi K2.5 adalah model multimodal dan agentic native dengan open-weights dari Moonshot AI. Model ini melanjutkan pretraining pada sekitar 15T token campuran visual + teks dan memperkenalkan Agent Swarm (hingga 100 sub-agent) sebagai research preview.
Artikel ini menggunakan tabel benchmark resmi Kimi K2.5 sebagai satu-satunya sumber angka yang menjadi acuan. Benchmark apa pun yang tidak dilaporkan di sana ditandai dengan “—” agar tidak mencampur hasil yang tidak dapat diverifikasi atau tidak setara untuk dibandingkan.
Sekilas Kimi K2.5: Arsitektur dan Kemampuan
Sebelum menyelami perbandingan benchmark, mari pahami apa yang membuat Kimi K2.5 istimewa:
Arsitektur Model
| Spesifikasi | Detail |
|---|---|
| Arsitektur | Mixture-of-Experts (MoE) |
| Total Parameter | 1T |
| Parameter Teraktivasi | 32B |
| Context Window | 256K token (sering disebut “ratusan halaman,” tergantung format/bahasa) |
| Data Pelatihan | ~15T token campuran visual + teks |
| Mekanisme Attention | MLA (Multi-head Latent Attention) |
| Expert | 384 total, 8 dipilih per token |
Kemampuan Utama
- Agent Swarm (preview): hingga 100 sub-agent, alur kerja paralel, hingga ~1,500 pemanggilan tool/langkah terkoordinasi
- Multimodalitas native: teks + gambar + video
- Evaluasi berbantuan tool: benchmark resmi menjalankan K2.5 dengan tool (search, code interpreter, web browsing) untuk benchmark HLE-with-tools dan agentic search
- Open-weights: bobot model + Modified MIT License tersedia untuk publik
Hasil Benchmark Komprehensif
Tabel Ringkasan: Kimi K2.5 vs Kompetitor Teratas
| Benchmark | Kategori | Kimi K2.5 | GPT-5.2 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|---|
| HLE-Full (w/ tools) | Agentic / Tools | 50.2 | 45.5 | 43.2 | 45.8 |
| AIME 2025 | Matematika | 96.1 | 100.0 | 92.8 | 95.0 |
| HMMT 2025 (Feb) | Matematika Kontes | 95.4 | 99.4 | 92.9* | 97.3* |
| IMO-AnswerBench | Matematika / Penalaran | 81.8 | 86.3 | 78.5* | 83.1* |
| GPQA-Diamond | Penalaran | 87.6 | 92.4 | 87.0 | 91.9 |
| MMLU-Pro | Pengetahuan | 87.1 | 86.7* | 89.3* | 90.1 |
| MMMU-Pro | Multimodal | 78.5 | 79.5* | 74.0 | 81.0 |
| MathVision | Vision + Matematika | 84.2 | 83.0 | 77.1* | 86.1* |
| SWE-Bench Verified | Coding (Agentic) | 76.8 | 80.0 | 80.9 | 76.2 |
| LiveCodeBench (v6) | Coding | 85.0 | — | 82.2* | 87.4* |
| TerminalBench | Tools / Terminal | 50.8 | 46.2 | 54.0 | 46.4 |
| OCRBench | OCR Dokumen | 92.3 | 80.7* | 86.5* | 90.3* |
| OmniDocBench 1.5 | Pemahaman Dokumen | 88.8 | 85.7 | 84.1* | 87.7* |
| VideoMMMU | Pemahaman Video | 86.6 | 85.9 | 84.4* | 87.6 |
| LongVideoBench | Video Panjang | 79.8 | — | — | — |
* “*” menunjukkan skor yang dievaluasi ulang / diselaraskan sesuai kondisi yang dinyatakan pada tabel resmi. “—” berarti tidak dilaporkan dalam tabel resmi.
Kimi K2.5 vs GPT 5.2
Coding
| Benchmark | Kimi K2.5 | GPT-5.2 | Pemenang |
|---|---|---|---|
| SWE-Bench Verified | 76.8% | 80.0% | GPT |
| TerminalBench | 50.8 | 46.2 | Kimi |
| LiveCodeBench (v6) | 85.0 | — | — |
Insight Utama: GPT-5.2 sedikit lebih tinggi pada SWE-Bench Verified dalam tabel resmi, sementara Kimi K2.5 unggul pada TerminalBench, menandakan performa eksekusi terminal/tool yang lebih kuat. LiveCodeBench (v6) tidak dilaporkan untuk GPT-5.2 dalam tabel resmi yang sama.
Matematika & Penalaran
| Benchmark | Kimi K2.5 | GPT-5.2 | Pemenang |
|---|---|---|---|
| AIME 2025 | 96.1 | 100.0 | GPT |
| HMMT 2025 (Feb) | 95.4 | 99.4 | GPT |
| IMO-AnswerBench | 81.8 | 86.3 | GPT |
| GPQA-Diamond | 87.6 | 92.4 | GPT |
Insight Utama: Dalam tabel resmi, GPT-5.2 unggul pada benchmark matematika/penalaran tersulit yang terdaftar, sementara Kimi K2.5 tetap dekat dan kompetitif.
Agentic w/ Tools
| Benchmark | Kimi K2.5 | GPT-5.2 | Pemenang |
|---|---|---|---|
| HLE-Full (w/ tools) | 50.2 | 45.5 | Kimi |
Insight Utama: Kimi K2.5 unggul pada HLE-Full (w/ tools) sebesar 4.7 poin, menonjolkan performa agentic berbantuan tool yang kuat.
Multimodal & Dokumen
| Benchmark | Kimi K2.5 | GPT-5.2 | Pemenang |
|---|---|---|---|
| MMMU-Pro | 78.5 | 79.5* | GPT |
| MathVision | 84.2 | 83.0 | Kimi |
| OCRBench | 92.3 | 80.7* | Kimi |
| OmniDocBench 1.5 | 88.8 | 85.7 | Kimi |
| VideoMMMU | 86.6 | 85.9 | Kimi |
Insight Utama: Kimi K2.5 menunjukkan keunggulan jelas pada OCR dokumen dan pemahaman dokumen, serta tetap kompetitif pada penalaran vision/video.
Kimi K2.5 vs Gemini 3 Pro
Seri Gemini dari Google menekankan multimodalitas dan konteks panjang. Perbandingannya:
Performa Multimodal
| Benchmark | Kimi K2.5 | Gemini 3 Pro | Pemenang |
|---|---|---|---|
| MMMU-Pro | 78.5 | 81.0 | Gemini 3 Pro |
| MathVision | 84.2 | 86.1* | Gemini 3 Pro |
| OCRBench | 92.3 | 90.3* | Kimi K2.5 |
| OmniDocBench 1.5 | 88.8 | 87.7* | Kimi K2.5 |
| VideoMMMU | 86.6 | 87.6 | Gemini 3 Pro |
| LongVideoBench | 79.8 | — | — |
Insight Utama: Gemini 3 Pro unggul pada MMMU-Pro / MathVision / VideoMMMU, sementara Kimi K2.5 unggul pada OCRBench / OmniDocBench, menjadikan Kimi sangat kuat untuk alur kerja dokumen di lingkungan enterprise.
Coding dan Tools
| Benchmark | Kimi K2.5 | Gemini 3 Pro | Pemenang |
|---|---|---|---|
| SWE-Bench Verified | 76.8 | 76.2 | Kimi K2.5 |
| LiveCodeBench (v6) | 85.0 | 87.4* | Gemini 3 Pro |
| TerminalBench | 50.8 | 46.4 | Kimi K2.5 |
Insight Utama: Kimi K2.5 sedikit lebih tinggi pada SWE-Bench Verified dan jelas lebih tinggi pada TerminalBench, sementara Gemini 3 Pro unggul pada LiveCodeBench (v6) dalam tabel resmi yang sama.
Penalaran dan Pengetahuan
| Benchmark | Kimi K2.5 | Gemini 3 Pro | Pemenang |
|---|---|---|---|
| GPQA-Diamond | 87.6 | 91.9 | Gemini 3 Pro |
| MMLU-Pro | 87.1 | 90.1 | Gemini 3 Pro |
Insight Utama: Gemini 3 Pro lebih tinggi pada GPQA-Diamond dan MMLU-Pro di tabel resmi.
Kimi K2.5 vs Claude Opus 4.5
Model Claude dari Anthropic dikenal kuat dalam coding dan penalaran. Perbandingannya:
Tugas Coding dan Pengembangan
| Benchmark | Kimi K2.5 | Claude Opus 4.5 | Pemenang |
|---|---|---|---|
| SWE-Bench Verified | 76.8 | 80.9 | Claude Opus 4.5 |
| LiveCodeBench (v6) | 85.0 | 82.2* | Kimi K2.5 |
| TerminalBench | 50.8 | 54.0 | Claude Opus 4.5 |
Insight Utama: Claude Opus 4.5 unggul pada SWE-Bench Verified dan TerminalBench, sementara Kimi K2.5 lebih tinggi pada LiveCodeBench (v6) di tabel resmi.
Penalaran dan Pengetahuan
| Benchmark | Kimi K2.5 | Claude Opus 4.5 | Pemenang |
|---|---|---|---|
| GPQA-Diamond | 87.6 | 87.0 | Kimi K2.5 |
| MMLU-Pro | 87.1 | 89.3* | Claude Opus 4.5 |
Insight Utama: Kimi K2.5 sedikit mengungguli Claude pada GPQA-Diamond, sementara Claude Opus 4.5 unggul pada MMLU-Pro (ditandai sebagai dievaluasi ulang “*” pada tabel resmi).
Penggunaan Tool dan Performa Agentic
| Benchmark | Kimi K2.5 | Claude Opus 4.5 | Pemenang |
|---|---|---|---|
| HLE-Full (w/ tools) | 50.2 | 43.2 | Kimi K2.5 |
Insight Utama: Kimi K2.5 unggul atas Claude Opus 4.5 pada HLE-Full (w/ tools), menandakan perilaku agentic berbantuan tool yang lebih kuat pada benchmark ini.
Catatan Kemampuan Khusus
Laporan teknis Kimi mendeskripsikan Agent Swarm sebagai research preview yang dilatih dengan PARL, memungkinkan hingga 100 sub-agent dan hingga ~1,500 pemanggilan tool/langkah untuk alur kerja paralel. Pengungkapan ini menjelaskan arah kemampuan dan setup evaluasi, tetapi hasil nyata dapat bervariasi tergantung definisi tugas, ketersediaan tool, dan implementasi provider.
Rekomendasi Berdasarkan Kasus Penggunaan
Pilih Kimi K2.5 Ketika:
- Alur kerja dokumen/OCR penting: unggul pada OCRBench dan OmniDocBench
- Tugas agentic berbantuan tool menjadi inti: unggul pada HLE-Full (w/ tools)
- Deployment open-weights diperlukan: bobot model + lisensi Modified MIT tersedia untuk publik
Pilih GPT-5.2 Ketika:
- Matematika/penalaran tersulit dengan hasil maksimal diperlukan: unggul pada AIME 2025 / GPQA-Diamond / HMMT / IMO-AnswerBench
- Performa SWE-Bench Verified kelas atas sangat krusial
Pilih Claude Opus 4.5 Ketika:
- Rekayasa perangkat lunak agentic menjadi prioritas utama: SWE-Bench Verified tertinggi pada tabel resmi
- Tugas terminal/tool penting: TerminalBench lebih tinggi pada tabel resmi
Pilih Gemini 3 Pro Ketika:
- Kekuatan multimodal umum menjadi prioritas: MMMU-Pro / MathVision / VideoMMMU lebih tinggi pada tabel resmi
- Anda butuh opsi konteks besar (validasikan berdasarkan kanal API/produk Anda yang sebenarnya)
Kesimpulan
Agar penulisan benchmark tahan terhadap fact-checking yang ketat, aturan terpenting adalah konsistensi sumber. Versi ini menggunakan tabel benchmark resmi Kimi K2.5 untuk semua angka dan menghindari mengisi celah dengan nilai pihak ketiga yang tidak terverifikasi.
Berdasarkan tabel resmi, keunggulan utama Kimi K2.5 adalah:
- Performa agentic berbantuan tool: unggul pada HLE-Full (w/ tools)
- Pemahaman dokumen: unggul pada OCRBench dan OmniDocBench
- Performa coding dan multimodal yang kompetitif: hasil SWE/LiveCode/Video yang kuat dan selisih yang tipis dengan model proprietary teratas
Sumber
- Tabel benchmark resmi Kimi K2.5 (NVIDIA Model Card): https://build.nvidia.com/moonshotai/kimi-k2.5/modelcard
- Hugging Face Model Card (tools/catatan/lisensi): https://huggingface.co/moonshotai/Kimi-K2.5
- Laporan Teknis Kimi K2.5 (Agent Swarm / PARL): https://www.kimi.com/blog/kimi-k2-5.html
- Harga OpenAI: https://platform.openai.com/docs/pricing
- LICENSE Kimi K2.5 (Modified MIT): https://huggingface.co/moonshotai/Kimi-K2.5/blob/main/LICENSE