Kimi K2.5 Benchmark: GPT, Claude ve Gemini ile Tam Performans Analizi 2026

Kimi K2.5, Moonshot AI'nin open-weights native multimodal, agentic modelidir. Yaklasik 15T karisik gorsel + metin token uzerinde pretraining'e devam eder ve bir research preview olarak Agent Swarm (en fazla 100 alt agent) ozelligini sunar.

Bu makale, tek sayisal dogruluk kaynagi olarak resmi Kimi K2.5 benchmark tablosunu kullanir. Orada raporlanmayan herhangi bir benchmark, dogrulanamaz veya karsilastirilamaz sonuclari karistirmamak icin “—” ile isaretlenir.

Kimi K2.5'e Genel Bakis: Mimari ve Yetenekler

Benchmark karsilastirmalarina dalmadan once Kimi K2.5'i benzersiz kilan seyi anlayalim:

Model Mimarisi

Ozellik	Ayrintilar
Mimari	Mixture-of-Experts (MoE)
Toplam Parametre	1T
Aktif Parametre	32B
Context Window	256K token (genellikle “yuzlerce sayfa,” bicimlendirme/dile gore degisir)
Egitim Verisi	~15T karisik gorsel + metin token
Attention Mekanizmasi	MLA (Multi-head Latent Attention)
Expert	Toplam 384, token basina 8 secilir

Temel Yetenekler

Agent Swarm (preview): en fazla 100 alt agent, paralel is akislari, en fazla ~1,500 koordineli arac cagrisi/adim
Native multimodalite: metin + gorsel + video
Arac destekli degerlendirme: resmi benchmark'lar, HLE-with-tools ve agentic search benchmark'lari icin K2.5'i araclarla (search, code interpreter, web browsing) calistirir
Open-weights: model agirliklari + Modified MIT License herkese aciktir

Kapsamli Benchmark Sonuclari

Ozet Tablo: Kimi K2.5 vs En Iyi Rakipler

Kimi K2.5, GPT-5.2, Claude Opus 4.5 ve Gemini 3 Pro karşılaştırması: Kimi K2.5 HLE-Full (50.2) ve OCRBench'te (92.3) önde; GPT-5.2 GPQA (92.4) ve SWE-Bench Verified'da önde; Gemini 3 Pro MathVision'da (86.1) önde.

Benchmark	Kategori	Kimi K2.5	GPT-5.2	Claude Opus 4.5	Gemini 3 Pro
HLE-Full (w/ tools)	Agentic / Tools	50.2	45.5	43.2	45.8
AIME 2025	Matematik	96.1	100.0	92.8	95.0
HMMT 2025 (Feb)	Yarisma Matematigi	95.4	99.4	92.9*	97.3*
IMO-AnswerBench	Matematik / Akil Yurutme	81.8	86.3	78.5*	83.1*
GPQA-Diamond	Akil Yurutme	87.6	92.4	87.0	91.9
MMLU-Pro	Bilgi	87.1	86.7*	89.3*	90.1
MMMU-Pro	Multimodal	78.5	79.5*	74.0	81.0
MathVision	Gorsel + Matematik	84.2	83.0	77.1*	86.1*
SWE-Bench Verified	Kodlama (Agentic)	76.8	80.0	80.9	76.2
LiveCodeBench (v6)	Kodlama	85.0	—	82.2*	87.4*
TerminalBench	Tools / Terminal	50.8	46.2	54.0	46.4
OCRBench	Belge OCR	92.3	80.7*	86.5*	90.3*
OmniDocBench 1.5	Belge Anlama	88.8	85.7	84.1*	87.7*
VideoMMMU	Video Anlama	86.6	85.9	84.4*	87.6
LongVideoBench	Uzun Video	79.8	—	—	—

* “*” resmi tabloda belirtilen kosullar altinda yeniden degerlendirilmis / hizalanmis puanlamayi gosterir. “—” resmi tabloda raporlanmadigi anlamina gelir.

Kimi K2.5 vs GPT 5.2

Kodlama

Benchmark	Kimi K2.5	GPT-5.2	Kazanan
SWE-Bench Verified	76.8%	80.0%	GPT
TerminalBench	50.8	46.2	Kimi
LiveCodeBench (v6)	85.0	—	—

Temel Bulgu: Resmi tabloda GPT-5.2, SWE-Bench Verified uzerinde biraz daha yuksektir; Kimi K2.5 ise TerminalBench uzerinde onde olup daha guclu terminal/arac yurutme performansina isaret eder. LiveCodeBench (v6), ayni resmi tabloda GPT-5.2 icin raporlanmamistir.

Matematik ve Akil Yurutme

Benchmark	Kimi K2.5	GPT-5.2	Kazanan
AIME 2025	96.1	100.0	GPT
HMMT 2025 (Feb)	95.4	99.4	GPT
IMO-AnswerBench	81.8	86.3	GPT
GPQA-Diamond	87.6	92.4	GPT

Temel Bulgu: Resmi tabloda GPT-5.2, listelenen en zor matematik/akil yurutme benchmark'larinda onde gelirken Kimi K2.5 yakin ve rekabetci kalir.

Agentic w/ Tools

Benchmark	Kimi K2.5	GPT-5.2	Kazanan
HLE-Full (w/ tools)	50.2	45.5	Kimi

Temel Bulgu: Kimi K2.5, HLE-Full (w/ tools) uzerinde 4.7 puan onde olup guclu arac destekli agentic performansi one cikarir.

Multimodal ve Belgeler

Benchmark	Kimi K2.5	GPT-5.2	Kazanan
MMMU-Pro	78.5	79.5*	GPT
MathVision	84.2	83.0	Kimi
OCRBench	92.3	80.7*	Kimi
OmniDocBench 1.5	88.8	85.7	Kimi
VideoMMMU	86.6	85.9	Kimi

Temel Bulgu: Kimi K2.5, belge OCR ve belge anlama alanlarinda net avantajlar gosterir ve gorsel/video akil yurutmede rekabetci kalir.

Kimi K2.5 vs Gemini 3 Pro

Google'in Gemini serisi multimodaliteyi ve uzun baglami one cikarir. Karsilastirma:

Multimodal Performans

Benchmark	Kimi K2.5	Gemini 3 Pro	Kazanan
MMMU-Pro	78.5	81.0	Gemini 3 Pro
MathVision	84.2	86.1*	Gemini 3 Pro
OCRBench	92.3	90.3*	Kimi K2.5
OmniDocBench 1.5	88.8	87.7*	Kimi K2.5
VideoMMMU	86.6	87.6	Gemini 3 Pro
LongVideoBench	79.8	—	—

Temel Bulgu: Gemini 3 Pro, MMMU-Pro / MathVision / VideoMMMU uzerinde onde gelirken Kimi K2.5, OCRBench / OmniDocBench uzerinde onde olup Kimi'yi kurumsal belge is akislari icin ozellikle guclu kilar.

Kodlama ve Tools

Benchmark	Kimi K2.5	Gemini 3 Pro	Kazanan
SWE-Bench Verified	76.8	76.2	Kimi K2.5
LiveCodeBench (v6)	85.0	87.4*	Gemini 3 Pro
TerminalBench	50.8	46.4	Kimi K2.5

Temel Bulgu: Kimi K2.5, SWE-Bench Verified uzerinde biraz daha yuksek ve TerminalBench uzerinde acikca daha yuksektir; Gemini 3 Pro ise ayni resmi tabloda LiveCodeBench (v6) uzerinde onde gelir.

Akil Yurutme ve Bilgi

Benchmark	Kimi K2.5	Gemini 3 Pro	Kazanan
GPQA-Diamond	87.6	91.9	Gemini 3 Pro
MMLU-Pro	87.1	90.1	Gemini 3 Pro

Temel Bulgu: Gemini 3 Pro, resmi tablonun GPQA-Diamond ve MMLU-Pro degerlerinde daha yuksektir.

Kimi K2.5 vs Claude Opus 4.5

Anthropic'in Claude modelleri guclu kodlama ve akil yurutmeyle taninir. Karsilastirma:

Kodlama ve Gelistirme Gorevleri

Benchmark	Kimi K2.5	Claude Opus 4.5	Kazanan
SWE-Bench Verified	76.8	80.9	Claude Opus 4.5
LiveCodeBench (v6)	85.0	82.2*	Kimi K2.5
TerminalBench	50.8	54.0	Claude Opus 4.5

Temel Bulgu: Claude Opus 4.5, SWE-Bench Verified ve TerminalBench uzerinde onde gelirken Kimi K2.5, resmi tabloda LiveCodeBench (v6) uzerinde daha yuksektir.

Akil Yurutme ve Bilgi

Benchmark	Kimi K2.5	Claude Opus 4.5	Kazanan
GPQA-Diamond	87.6	87.0	Kimi K2.5
MMLU-Pro	87.1	89.3*	Claude Opus 4.5

Temel Bulgu: Kimi K2.5, GPQA-Diamond uzerinde Claude'u kil payi geride birakir; Claude Opus 4.5 ise MMLU-Pro uzerinde onde gelir (resmi tabloda yeniden degerlendirildigi “*” ile not edilmistir).

Arac Kullanimi ve Agentic Performans

Benchmark	Kimi K2.5	Claude Opus 4.5	Kazanan
HLE-Full (w/ tools)	50.2	43.2	Kimi K2.5

Temel Bulgu: Kimi K2.5, HLE-Full (w/ tools) uzerinde Claude Opus 4.5'in onunde olup bu benchmark'ta daha guclu arac destekli agentic davranisina isaret eder.

Ozellesmis Yetenek Notlari

Kimi'nin teknik raporu, Agent Swarm'i PARL ile egitilmis bir research preview olarak tanimlar; paralel is akislari icin en fazla 100 alt agent ve en fazla ~1,500 arac cagrisi/adim saglar. Bu aciklamalar yetenek yonunu ve degerlendirme kurulumunu anlatir, ancak gercek dunya sonuclari gorev tanimina, arac kullanilabilirligine ve provider uygulamasina gore degisebilir.

Kullanim Senaryosuna Gore Oneriler

Su Durumlarda Kimi K2.5'i Secin:

Belge/OCR is akislari onemliyse: OCRBench ve OmniDocBench uzerinde onde gelir
Arac destekli agentic gorevler temelse: HLE-Full (w/ tools) uzerinde onde gelir
Open-weights deployment gerekliyse: model agirliklari + Modified MIT lisansi herkese aciktir

Su Durumlarda GPT-5.2'yi Secin:

Maksimum zorlukta matematik/akil yurutme gerekliyse: AIME 2025 / GPQA-Diamond / HMMT / IMO-AnswerBench uzerinde onde gelir
Ust duzey SWE-Bench Verified performansi kritikse

Su Durumlarda Claude Opus 4.5'i Secin:

Agentic yazilim muhendisligi en oncelikliyse: resmi tabloda en yuksek SWE-Bench Verified
Terminal/arac gorevleri onemliyse: resmi tabloda daha yuksek TerminalBench

Su Durumlarda Gemini 3 Pro'yu Secin:

Genel multimodal guc oncelikliyse: resmi tabloda daha yuksek MMMU-Pro / MathVision / VideoMMMU
Buyuk baglam secenekleri gerekiyorsa (gercek API/urun kanaliniza gore dogrulayin)

Sonuc

Benchmark yaziminin siki fact-checking'e dayanmasi icin en onemli kural tutarli kaynak kullanimidir. Bu surum, tum sayilar icin resmi Kimi K2.5 benchmark tablosunu kullanir ve bosluklari dogrulanmamis ucuncu taraf degerleriyle doldurmaktan kacinir.

Resmi tabloya gore Kimi K2.5'in one cikan guclu yonleri sunlardir:

Arac destekli agentic performans: HLE-Full (w/ tools) onde gelir
Belge anlama: OCRBench ve OmniDocBench onde gelir
Rekabetci kodlama ve multimodal performans: guclu SWE/LiveCode/Video sonuclari ve en iyi proprietary modellere kiyasla dar farklar

Kaynaklar

Resmi Kimi K2.5 benchmark tablosu (NVIDIA Model Card): https://build.nvidia.com/moonshotai/kimi-k2.5/modelcard
Hugging Face Model Card (tools/notlar/lisans): https://huggingface.co/moonshotai/Kimi-K2.5
Kimi K2.5 Teknik Raporu (Agent Swarm / PARL): https://www.kimi.com/blog/kimi-k2-5.html
OpenAI fiyatlandirmasi: https://platform.openai.com/docs/pricing
Kimi K2.5 LICENSE (Modified MIT): https://huggingface.co/moonshotai/Kimi-K2.5/blob/main/LICENSE

Kimi K2.5 Benchmark: GPT, Claude ve Gemini ile Tam Performans Analizi 2026

İçindekiler