Kimi K2.5 Benchmark: GPT, Claude ve Gemini ile Tam Performans Analizi 2026

Oca 30, 2026

New to Kimi K2.5?Try Kimi K2.5.

Kimi K2.5, Moonshot AI'nin open-weights native multimodal, agentic modelidir. Yaklasik 15T karisik gorsel + metin token uzerinde pretraining'e devam eder ve bir research preview olarak Agent Swarm (en fazla 100 alt agent) ozelligini sunar.

Bu makale, tek sayisal dogruluk kaynagi olarak resmi Kimi K2.5 benchmark tablosunu kullanir. Orada raporlanmayan herhangi bir benchmark, dogrulanamaz veya karsilastirilamaz sonuclari karistirmamak icin “—” ile isaretlenir.

Kimi K2.5'e Genel Bakis: Mimari ve Yetenekler

Benchmark karsilastirmalarina dalmadan once Kimi K2.5'i benzersiz kilan seyi anlayalim:

Model Mimarisi

OzellikAyrintilar
MimariMixture-of-Experts (MoE)
Toplam Parametre1T
Aktif Parametre32B
Context Window256K token (genellikle “yuzlerce sayfa,” bicimlendirme/dile gore degisir)
Egitim Verisi~15T karisik gorsel + metin token
Attention MekanizmasiMLA (Multi-head Latent Attention)
ExpertToplam 384, token basina 8 secilir

Temel Yetenekler

  • Agent Swarm (preview): en fazla 100 alt agent, paralel is akislari, en fazla ~1,500 koordineli arac cagrisi/adim
  • Native multimodalite: metin + gorsel + video
  • Arac destekli degerlendirme: resmi benchmark'lar, HLE-with-tools ve agentic search benchmark'lari icin K2.5'i araclarla (search, code interpreter, web browsing) calistirir
  • Open-weights: model agirliklari + Modified MIT License herkese aciktir

Kapsamli Benchmark Sonuclari

Ozet Tablo: Kimi K2.5 vs En Iyi Rakipler

Kimi K2.5, GPT-5.2, Claude Opus 4.5 ve Gemini 3 Pro karşılaştırması: Kimi K2.5 HLE-Full (50.2) ve OCRBench'te (92.3) önde; GPT-5.2 GPQA (92.4) ve SWE-Bench Verified'da önde; Gemini 3 Pro MathVision'da (86.1) önde.

BenchmarkKategoriKimi K2.5GPT-5.2Claude Opus 4.5Gemini 3 Pro
HLE-Full (w/ tools)Agentic / Tools50.245.543.245.8
AIME 2025Matematik96.1100.092.895.0
HMMT 2025 (Feb)Yarisma Matematigi95.499.492.9*97.3*
IMO-AnswerBenchMatematik / Akil Yurutme81.886.378.5*83.1*
GPQA-DiamondAkil Yurutme87.692.487.091.9
MMLU-ProBilgi87.186.7*89.3*90.1
MMMU-ProMultimodal78.579.5*74.081.0
MathVisionGorsel + Matematik84.283.077.1*86.1*
SWE-Bench VerifiedKodlama (Agentic)76.880.080.976.2
LiveCodeBench (v6)Kodlama85.082.2*87.4*
TerminalBenchTools / Terminal50.846.254.046.4
OCRBenchBelge OCR92.380.7*86.5*90.3*
OmniDocBench 1.5Belge Anlama88.885.784.1*87.7*
VideoMMMUVideo Anlama86.685.984.4*87.6
LongVideoBenchUzun Video79.8

* “*” resmi tabloda belirtilen kosullar altinda yeniden degerlendirilmis / hizalanmis puanlamayi gosterir. “—” resmi tabloda raporlanmadigi anlamina gelir.

Kimi K2.5 vs GPT 5.2

Kodlama

BenchmarkKimi K2.5GPT-5.2Kazanan
SWE-Bench Verified76.8%80.0%GPT
TerminalBench50.846.2Kimi
LiveCodeBench (v6)85.0

Temel Bulgu: Resmi tabloda GPT-5.2, SWE-Bench Verified uzerinde biraz daha yuksektir; Kimi K2.5 ise TerminalBench uzerinde onde olup daha guclu terminal/arac yurutme performansina isaret eder. LiveCodeBench (v6), ayni resmi tabloda GPT-5.2 icin raporlanmamistir.

Matematik ve Akil Yurutme

BenchmarkKimi K2.5GPT-5.2Kazanan
AIME 202596.1100.0GPT
HMMT 2025 (Feb)95.499.4GPT
IMO-AnswerBench81.886.3GPT
GPQA-Diamond87.692.4GPT

Temel Bulgu: Resmi tabloda GPT-5.2, listelenen en zor matematik/akil yurutme benchmark'larinda onde gelirken Kimi K2.5 yakin ve rekabetci kalir.

Agentic w/ Tools

BenchmarkKimi K2.5GPT-5.2Kazanan
HLE-Full (w/ tools)50.245.5Kimi

Temel Bulgu: Kimi K2.5, HLE-Full (w/ tools) uzerinde 4.7 puan onde olup guclu arac destekli agentic performansi one cikarir.

Multimodal ve Belgeler

BenchmarkKimi K2.5GPT-5.2Kazanan
MMMU-Pro78.579.5*GPT
MathVision84.283.0Kimi
OCRBench92.380.7*Kimi
OmniDocBench 1.588.885.7Kimi
VideoMMMU86.685.9Kimi

Temel Bulgu: Kimi K2.5, belge OCR ve belge anlama alanlarinda net avantajlar gosterir ve gorsel/video akil yurutmede rekabetci kalir.

Kimi K2.5 vs Gemini 3 Pro

Google'in Gemini serisi multimodaliteyi ve uzun baglami one cikarir. Karsilastirma:

Multimodal Performans

BenchmarkKimi K2.5Gemini 3 ProKazanan
MMMU-Pro78.581.0Gemini 3 Pro
MathVision84.286.1*Gemini 3 Pro
OCRBench92.390.3*Kimi K2.5
OmniDocBench 1.588.887.7*Kimi K2.5
VideoMMMU86.687.6Gemini 3 Pro
LongVideoBench79.8

Temel Bulgu: Gemini 3 Pro, MMMU-Pro / MathVision / VideoMMMU uzerinde onde gelirken Kimi K2.5, OCRBench / OmniDocBench uzerinde onde olup Kimi'yi kurumsal belge is akislari icin ozellikle guclu kilar.

Kodlama ve Tools

BenchmarkKimi K2.5Gemini 3 ProKazanan
SWE-Bench Verified76.876.2Kimi K2.5
LiveCodeBench (v6)85.087.4*Gemini 3 Pro
TerminalBench50.846.4Kimi K2.5

Temel Bulgu: Kimi K2.5, SWE-Bench Verified uzerinde biraz daha yuksek ve TerminalBench uzerinde acikca daha yuksektir; Gemini 3 Pro ise ayni resmi tabloda LiveCodeBench (v6) uzerinde onde gelir.

Akil Yurutme ve Bilgi

BenchmarkKimi K2.5Gemini 3 ProKazanan
GPQA-Diamond87.691.9Gemini 3 Pro
MMLU-Pro87.190.1Gemini 3 Pro

Temel Bulgu: Gemini 3 Pro, resmi tablonun GPQA-Diamond ve MMLU-Pro degerlerinde daha yuksektir.

Kimi K2.5 vs Claude Opus 4.5

Anthropic'in Claude modelleri guclu kodlama ve akil yurutmeyle taninir. Karsilastirma:

Kodlama ve Gelistirme Gorevleri

BenchmarkKimi K2.5Claude Opus 4.5Kazanan
SWE-Bench Verified76.880.9Claude Opus 4.5
LiveCodeBench (v6)85.082.2*Kimi K2.5
TerminalBench50.854.0Claude Opus 4.5

Temel Bulgu: Claude Opus 4.5, SWE-Bench Verified ve TerminalBench uzerinde onde gelirken Kimi K2.5, resmi tabloda LiveCodeBench (v6) uzerinde daha yuksektir.

Akil Yurutme ve Bilgi

BenchmarkKimi K2.5Claude Opus 4.5Kazanan
GPQA-Diamond87.687.0Kimi K2.5
MMLU-Pro87.189.3*Claude Opus 4.5

Temel Bulgu: Kimi K2.5, GPQA-Diamond uzerinde Claude'u kil payi geride birakir; Claude Opus 4.5 ise MMLU-Pro uzerinde onde gelir (resmi tabloda yeniden degerlendirildigi “*” ile not edilmistir).

Arac Kullanimi ve Agentic Performans

BenchmarkKimi K2.5Claude Opus 4.5Kazanan
HLE-Full (w/ tools)50.243.2Kimi K2.5

Temel Bulgu: Kimi K2.5, HLE-Full (w/ tools) uzerinde Claude Opus 4.5'in onunde olup bu benchmark'ta daha guclu arac destekli agentic davranisina isaret eder.

Ozellesmis Yetenek Notlari

Kimi'nin teknik raporu, Agent Swarm'i PARL ile egitilmis bir research preview olarak tanimlar; paralel is akislari icin en fazla 100 alt agent ve en fazla ~1,500 arac cagrisi/adim saglar. Bu aciklamalar yetenek yonunu ve degerlendirme kurulumunu anlatir, ancak gercek dunya sonuclari gorev tanimina, arac kullanilabilirligine ve provider uygulamasina gore degisebilir.

Kullanim Senaryosuna Gore Oneriler

Su Durumlarda Kimi K2.5'i Secin:

  • Belge/OCR is akislari onemliyse: OCRBench ve OmniDocBench uzerinde onde gelir
  • Arac destekli agentic gorevler temelse: HLE-Full (w/ tools) uzerinde onde gelir
  • Open-weights deployment gerekliyse: model agirliklari + Modified MIT lisansi herkese aciktir

Su Durumlarda GPT-5.2'yi Secin:

  • Maksimum zorlukta matematik/akil yurutme gerekliyse: AIME 2025 / GPQA-Diamond / HMMT / IMO-AnswerBench uzerinde onde gelir
  • Ust duzey SWE-Bench Verified performansi kritikse

Su Durumlarda Claude Opus 4.5'i Secin:

  • Agentic yazilim muhendisligi en oncelikliyse: resmi tabloda en yuksek SWE-Bench Verified
  • Terminal/arac gorevleri onemliyse: resmi tabloda daha yuksek TerminalBench

Su Durumlarda Gemini 3 Pro'yu Secin:

  • Genel multimodal guc oncelikliyse: resmi tabloda daha yuksek MMMU-Pro / MathVision / VideoMMMU
  • Buyuk baglam secenekleri gerekiyorsa (gercek API/urun kanaliniza gore dogrulayin)

Sonuc

Benchmark yaziminin siki fact-checking'e dayanmasi icin en onemli kural tutarli kaynak kullanimidir. Bu surum, tum sayilar icin resmi Kimi K2.5 benchmark tablosunu kullanir ve bosluklari dogrulanmamis ucuncu taraf degerleriyle doldurmaktan kacinir.

Resmi tabloya gore Kimi K2.5'in one cikan guclu yonleri sunlardir:

  1. Arac destekli agentic performans: HLE-Full (w/ tools) onde gelir
  2. Belge anlama: OCRBench ve OmniDocBench onde gelir
  3. Rekabetci kodlama ve multimodal performans: guclu SWE/LiveCode/Video sonuclari ve en iyi proprietary modellere kiyasla dar farklar

Kaynaklar

Kimi K2.5 Benchmark: GPT, Claude ve Gemini ile Tam Performans Analizi 2026