Kimi K2.5, Moonshot AI'nin open-weights native multimodal, agentic modelidir. Yaklasik 15T karisik gorsel + metin token uzerinde pretraining'e devam eder ve bir research preview olarak Agent Swarm (en fazla 100 alt agent) ozelligini sunar.
Bu makale, tek sayisal dogruluk kaynagi olarak resmi Kimi K2.5 benchmark tablosunu kullanir. Orada raporlanmayan herhangi bir benchmark, dogrulanamaz veya karsilastirilamaz sonuclari karistirmamak icin “—” ile isaretlenir.
Kimi K2.5'e Genel Bakis: Mimari ve Yetenekler
Benchmark karsilastirmalarina dalmadan once Kimi K2.5'i benzersiz kilan seyi anlayalim:
Model Mimarisi
| Ozellik | Ayrintilar |
|---|---|
| Mimari | Mixture-of-Experts (MoE) |
| Toplam Parametre | 1T |
| Aktif Parametre | 32B |
| Context Window | 256K token (genellikle “yuzlerce sayfa,” bicimlendirme/dile gore degisir) |
| Egitim Verisi | ~15T karisik gorsel + metin token |
| Attention Mekanizmasi | MLA (Multi-head Latent Attention) |
| Expert | Toplam 384, token basina 8 secilir |
Temel Yetenekler
- Agent Swarm (preview): en fazla 100 alt agent, paralel is akislari, en fazla ~1,500 koordineli arac cagrisi/adim
- Native multimodalite: metin + gorsel + video
- Arac destekli degerlendirme: resmi benchmark'lar, HLE-with-tools ve agentic search benchmark'lari icin K2.5'i araclarla (search, code interpreter, web browsing) calistirir
- Open-weights: model agirliklari + Modified MIT License herkese aciktir
Kapsamli Benchmark Sonuclari
Ozet Tablo: Kimi K2.5 vs En Iyi Rakipler
| Benchmark | Kategori | Kimi K2.5 | GPT-5.2 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|---|
| HLE-Full (w/ tools) | Agentic / Tools | 50.2 | 45.5 | 43.2 | 45.8 |
| AIME 2025 | Matematik | 96.1 | 100.0 | 92.8 | 95.0 |
| HMMT 2025 (Feb) | Yarisma Matematigi | 95.4 | 99.4 | 92.9* | 97.3* |
| IMO-AnswerBench | Matematik / Akil Yurutme | 81.8 | 86.3 | 78.5* | 83.1* |
| GPQA-Diamond | Akil Yurutme | 87.6 | 92.4 | 87.0 | 91.9 |
| MMLU-Pro | Bilgi | 87.1 | 86.7* | 89.3* | 90.1 |
| MMMU-Pro | Multimodal | 78.5 | 79.5* | 74.0 | 81.0 |
| MathVision | Gorsel + Matematik | 84.2 | 83.0 | 77.1* | 86.1* |
| SWE-Bench Verified | Kodlama (Agentic) | 76.8 | 80.0 | 80.9 | 76.2 |
| LiveCodeBench (v6) | Kodlama | 85.0 | — | 82.2* | 87.4* |
| TerminalBench | Tools / Terminal | 50.8 | 46.2 | 54.0 | 46.4 |
| OCRBench | Belge OCR | 92.3 | 80.7* | 86.5* | 90.3* |
| OmniDocBench 1.5 | Belge Anlama | 88.8 | 85.7 | 84.1* | 87.7* |
| VideoMMMU | Video Anlama | 86.6 | 85.9 | 84.4* | 87.6 |
| LongVideoBench | Uzun Video | 79.8 | — | — | — |
* “*” resmi tabloda belirtilen kosullar altinda yeniden degerlendirilmis / hizalanmis puanlamayi gosterir. “—” resmi tabloda raporlanmadigi anlamina gelir.
Kimi K2.5 vs GPT 5.2
Kodlama
| Benchmark | Kimi K2.5 | GPT-5.2 | Kazanan |
|---|---|---|---|
| SWE-Bench Verified | 76.8% | 80.0% | GPT |
| TerminalBench | 50.8 | 46.2 | Kimi |
| LiveCodeBench (v6) | 85.0 | — | — |
Temel Bulgu: Resmi tabloda GPT-5.2, SWE-Bench Verified uzerinde biraz daha yuksektir; Kimi K2.5 ise TerminalBench uzerinde onde olup daha guclu terminal/arac yurutme performansina isaret eder. LiveCodeBench (v6), ayni resmi tabloda GPT-5.2 icin raporlanmamistir.
Matematik ve Akil Yurutme
| Benchmark | Kimi K2.5 | GPT-5.2 | Kazanan |
|---|---|---|---|
| AIME 2025 | 96.1 | 100.0 | GPT |
| HMMT 2025 (Feb) | 95.4 | 99.4 | GPT |
| IMO-AnswerBench | 81.8 | 86.3 | GPT |
| GPQA-Diamond | 87.6 | 92.4 | GPT |
Temel Bulgu: Resmi tabloda GPT-5.2, listelenen en zor matematik/akil yurutme benchmark'larinda onde gelirken Kimi K2.5 yakin ve rekabetci kalir.
Agentic w/ Tools
| Benchmark | Kimi K2.5 | GPT-5.2 | Kazanan |
|---|---|---|---|
| HLE-Full (w/ tools) | 50.2 | 45.5 | Kimi |
Temel Bulgu: Kimi K2.5, HLE-Full (w/ tools) uzerinde 4.7 puan onde olup guclu arac destekli agentic performansi one cikarir.
Multimodal ve Belgeler
| Benchmark | Kimi K2.5 | GPT-5.2 | Kazanan |
|---|---|---|---|
| MMMU-Pro | 78.5 | 79.5* | GPT |
| MathVision | 84.2 | 83.0 | Kimi |
| OCRBench | 92.3 | 80.7* | Kimi |
| OmniDocBench 1.5 | 88.8 | 85.7 | Kimi |
| VideoMMMU | 86.6 | 85.9 | Kimi |
Temel Bulgu: Kimi K2.5, belge OCR ve belge anlama alanlarinda net avantajlar gosterir ve gorsel/video akil yurutmede rekabetci kalir.
Kimi K2.5 vs Gemini 3 Pro
Google'in Gemini serisi multimodaliteyi ve uzun baglami one cikarir. Karsilastirma:
Multimodal Performans
| Benchmark | Kimi K2.5 | Gemini 3 Pro | Kazanan |
|---|---|---|---|
| MMMU-Pro | 78.5 | 81.0 | Gemini 3 Pro |
| MathVision | 84.2 | 86.1* | Gemini 3 Pro |
| OCRBench | 92.3 | 90.3* | Kimi K2.5 |
| OmniDocBench 1.5 | 88.8 | 87.7* | Kimi K2.5 |
| VideoMMMU | 86.6 | 87.6 | Gemini 3 Pro |
| LongVideoBench | 79.8 | — | — |
Temel Bulgu: Gemini 3 Pro, MMMU-Pro / MathVision / VideoMMMU uzerinde onde gelirken Kimi K2.5, OCRBench / OmniDocBench uzerinde onde olup Kimi'yi kurumsal belge is akislari icin ozellikle guclu kilar.
Kodlama ve Tools
| Benchmark | Kimi K2.5 | Gemini 3 Pro | Kazanan |
|---|---|---|---|
| SWE-Bench Verified | 76.8 | 76.2 | Kimi K2.5 |
| LiveCodeBench (v6) | 85.0 | 87.4* | Gemini 3 Pro |
| TerminalBench | 50.8 | 46.4 | Kimi K2.5 |
Temel Bulgu: Kimi K2.5, SWE-Bench Verified uzerinde biraz daha yuksek ve TerminalBench uzerinde acikca daha yuksektir; Gemini 3 Pro ise ayni resmi tabloda LiveCodeBench (v6) uzerinde onde gelir.
Akil Yurutme ve Bilgi
| Benchmark | Kimi K2.5 | Gemini 3 Pro | Kazanan |
|---|---|---|---|
| GPQA-Diamond | 87.6 | 91.9 | Gemini 3 Pro |
| MMLU-Pro | 87.1 | 90.1 | Gemini 3 Pro |
Temel Bulgu: Gemini 3 Pro, resmi tablonun GPQA-Diamond ve MMLU-Pro degerlerinde daha yuksektir.
Kimi K2.5 vs Claude Opus 4.5
Anthropic'in Claude modelleri guclu kodlama ve akil yurutmeyle taninir. Karsilastirma:
Kodlama ve Gelistirme Gorevleri
| Benchmark | Kimi K2.5 | Claude Opus 4.5 | Kazanan |
|---|---|---|---|
| SWE-Bench Verified | 76.8 | 80.9 | Claude Opus 4.5 |
| LiveCodeBench (v6) | 85.0 | 82.2* | Kimi K2.5 |
| TerminalBench | 50.8 | 54.0 | Claude Opus 4.5 |
Temel Bulgu: Claude Opus 4.5, SWE-Bench Verified ve TerminalBench uzerinde onde gelirken Kimi K2.5, resmi tabloda LiveCodeBench (v6) uzerinde daha yuksektir.
Akil Yurutme ve Bilgi
| Benchmark | Kimi K2.5 | Claude Opus 4.5 | Kazanan |
|---|---|---|---|
| GPQA-Diamond | 87.6 | 87.0 | Kimi K2.5 |
| MMLU-Pro | 87.1 | 89.3* | Claude Opus 4.5 |
Temel Bulgu: Kimi K2.5, GPQA-Diamond uzerinde Claude'u kil payi geride birakir; Claude Opus 4.5 ise MMLU-Pro uzerinde onde gelir (resmi tabloda yeniden degerlendirildigi “*” ile not edilmistir).
Arac Kullanimi ve Agentic Performans
| Benchmark | Kimi K2.5 | Claude Opus 4.5 | Kazanan |
|---|---|---|---|
| HLE-Full (w/ tools) | 50.2 | 43.2 | Kimi K2.5 |
Temel Bulgu: Kimi K2.5, HLE-Full (w/ tools) uzerinde Claude Opus 4.5'in onunde olup bu benchmark'ta daha guclu arac destekli agentic davranisina isaret eder.
Ozellesmis Yetenek Notlari
Kimi'nin teknik raporu, Agent Swarm'i PARL ile egitilmis bir research preview olarak tanimlar; paralel is akislari icin en fazla 100 alt agent ve en fazla ~1,500 arac cagrisi/adim saglar. Bu aciklamalar yetenek yonunu ve degerlendirme kurulumunu anlatir, ancak gercek dunya sonuclari gorev tanimina, arac kullanilabilirligine ve provider uygulamasina gore degisebilir.
Kullanim Senaryosuna Gore Oneriler
Su Durumlarda Kimi K2.5'i Secin:
- Belge/OCR is akislari onemliyse: OCRBench ve OmniDocBench uzerinde onde gelir
- Arac destekli agentic gorevler temelse: HLE-Full (w/ tools) uzerinde onde gelir
- Open-weights deployment gerekliyse: model agirliklari + Modified MIT lisansi herkese aciktir
Su Durumlarda GPT-5.2'yi Secin:
- Maksimum zorlukta matematik/akil yurutme gerekliyse: AIME 2025 / GPQA-Diamond / HMMT / IMO-AnswerBench uzerinde onde gelir
- Ust duzey SWE-Bench Verified performansi kritikse
Su Durumlarda Claude Opus 4.5'i Secin:
- Agentic yazilim muhendisligi en oncelikliyse: resmi tabloda en yuksek SWE-Bench Verified
- Terminal/arac gorevleri onemliyse: resmi tabloda daha yuksek TerminalBench
Su Durumlarda Gemini 3 Pro'yu Secin:
- Genel multimodal guc oncelikliyse: resmi tabloda daha yuksek MMMU-Pro / MathVision / VideoMMMU
- Buyuk baglam secenekleri gerekiyorsa (gercek API/urun kanaliniza gore dogrulayin)
Sonuc
Benchmark yaziminin siki fact-checking'e dayanmasi icin en onemli kural tutarli kaynak kullanimidir. Bu surum, tum sayilar icin resmi Kimi K2.5 benchmark tablosunu kullanir ve bosluklari dogrulanmamis ucuncu taraf degerleriyle doldurmaktan kacinir.
Resmi tabloya gore Kimi K2.5'in one cikan guclu yonleri sunlardir:
- Arac destekli agentic performans: HLE-Full (w/ tools) onde gelir
- Belge anlama: OCRBench ve OmniDocBench onde gelir
- Rekabetci kodlama ve multimodal performans: guclu SWE/LiveCode/Video sonuclari ve en iyi proprietary modellere kiyasla dar farklar
Kaynaklar
- Resmi Kimi K2.5 benchmark tablosu (NVIDIA Model Card): https://build.nvidia.com/moonshotai/kimi-k2.5/modelcard
- Hugging Face Model Card (tools/notlar/lisans): https://huggingface.co/moonshotai/Kimi-K2.5
- Kimi K2.5 Teknik Raporu (Agent Swarm / PARL): https://www.kimi.com/blog/kimi-k2-5.html
- OpenAI fiyatlandirmasi: https://platform.openai.com/docs/pricing
- Kimi K2.5 LICENSE (Modified MIT): https://huggingface.co/moonshotai/Kimi-K2.5/blob/main/LICENSE