Kimi K2.5 Makalesi: Mimari ve Eğitime Teknik Bakış

Şub 10, 2026

New to Kimi K2.5?Try Kimi K2.5.

Kimi K2.5 makalesi, large language model mimarisine, eğitim metodolojilerine ve agentik yapay zeka sistemlerine yeni yaklaşımlar getirerek yapay zeka araştırmalarına önemli bir katkı sunuyor. Moonshot AI tarafından yayımlanan bu teknik rapor, Kimi K2.5'in %76,8 SWE-Bench Verified performansını, 256K bağlam penceresini ve devrim niteliğindeki Agent Swarm yeteneklerini mümkün kılan yenilikleri ayrıntılarıyla açıklıyor.

Bu kapsamlı analiz, Kimi K2.5 teknik makalesinde sunulan temel bulguları, mimari kararları ve eğitim yeniliklerini ele alıyor.

Kimi K2.5 Araştırmasının Yönetici Özeti

Temel Katkılar

YenilikAçıklamaEtki
PARL EğitimiParallel-Agent Reinforcement Learning%80 çalışma süresi azalması
Agent SwarmÇoklu agent koordinasyon sistemi100 paralel agent'a kadar
MoE Mimarisi1T parametre, 32B aktifVerimli çıkarım
MLA DikkatiMulti-head Latent Attention256K bağlam işleme
Açık AğırlıklarDeğiştirilmiş MIT LisansıDemokratikleşmiş yapay zeka erişimi

Performans Öne Çıkanları

BenchmarkSkorSektördeki Konum
SWE-Bench Verified%76,8En üst seviye
HLE-Full (araçlarla)50,2Lider
LiveCodeBench (v6)85,0Rekabetçi
AIME 202596,1Mükemmel

Mimariye Derinlemesine Bakış

Mixture-of-Experts (MoE) Tasarımı

Kimi K2.5 makalesi, parametre kapasitesini çıkarım verimliliğiyle dengeleyen optimize edilmiş bir MoE mimarisi sunuyor:

┌─────────────────────────────────────────────────────┐
│                  Kimi K2.5 Mimarisi                 │
├─────────────────────────────────────────────────────┤
│  Toplam Parametre:        1 Trilyon (1T)            │
│  Token Başına Aktif:      32 Milyar (32B)           │
│  Expert Sayısı:           384 toplam                │
│  Token Başına Expert:     8 seçili                  │
│  Aktivasyon Oranı:        toplamın %3,2'si          │
└─────────────────────────────────────────────────────┘

Expert Yönlendirme Mekanizması

# Simplified expert routing from Kimi K2.5 paper
class ExpertRouter:
    def __init__(self, num_experts=384, top_k=8):
        self.num_experts = num_experts
        self.top_k = top_k
        self.expert_capacity = 1.25  # Load balancing factor
    
    def route(self, hidden_states):
        # Compute routing scores
        router_logits = self.gate(hidden_states)
        
        # Select top-k experts
        weights, selected_experts = torch.topk(
            F.softmax(router_logits, dim=-1),
            k=self.top_k
        )
        
        # Apply load balancing loss (from paper)
        aux_loss = self.compute_load_balancing_loss(
            router_logits, selected_experts
        )
        
        return weights, selected_experts, aux_loss

Multi-head Latent Attention (MLA)

Kimi K2.5 makalesi, MLA'yı uzun bağlam modellemesi için kilit bir bileşen olarak öne çıkarıyor:

Dikkat MekanizmasıParametrelerToken Başına BellekBağlam Desteği
Standart MHAYüksekO(n²)Sınırlı
GQAOrtaO(n)İyi
MLA (Kimi K2.5)DüşükO(n) sıkıştırılmış256K

MLA Matematiksel Formülasyonu

The paper defines MLA as:

  MLA(X) = Concat(head_1, ..., head_h) · W_O

Where each head computes:
  head_i = Attention(Q_i · W_Q, K_cache · W_K, V_cache · W_V)

With latent compression:
  K_cache, V_cache = Compress(K, V, compression_ratio=4)

Bağlam Penceresi Ölçeklendirme

Araştırma, Kimi K2.5'in 256K token bağlam penceresine nasıl ulaştığını ayrıntılı olarak açıklıyor:

Eğitim AşamasıBağlam UzunluğuTeknikVeri Kümesi
Pre-training4KStandart15T token
Genişletme 132KKonumsal interpolasyonUzun belgeler
Genişletme 2128KYarn + NTK-awareKitaplar, makaleler
Final256KGelişmiş interpolasyonÇok modlu uzun içerik

PARL: Parallel-Agent Reinforcement Learning

Kimi K2.5 makalesinin en önemli katkısı, çoklu agent sistemleri için yeni bir eğitim paradigması olan PARL'dır (Parallel-Agent Reinforcement Learning).

PARL Mimarisi

┌────────────────────────────────────────────────────────────┐
│                    PARL Eğitim Sistemi                     │
├────────────────────────────────────────────────────────────┤
│                                                            │
│   ┌──────────────┐    ┌──────────────┐    ┌────────────┐  │
│   │ Agent 1      │    │ Agent 2      │    │ Agent N    │  │
│   │ (Uzman)      │    │ (Uzman)      │    │(100'e kadr)│  │
│   └──────┬───────┘    └──────┬───────┘    └─────┬──────┘  │
│          │                   │                   │         │
│          └───────────────────┼───────────────────┘         │
│                              ▼                             │
│                    ┌──────────────────┐                   │
│                    │ Koordinasyon     │                   │
│                    │ Ağı (Politika)   │                   │
│                    └────────┬─────────┘                   │
│                             │                              │
│                             ▼                              │
│                    ┌──────────────────┐                   │
│                    │ Paylaşılan Ödül  │                   │
│                    │ Fonksiyonu       │                   │
│                    └──────────────────┘                   │
│                                                            │
└────────────────────────────────────────────────────────────┘

PARL Eğitim Süreci

# PARL training pseudocode from paper
class PARLTrainer:
    def __init__(self, num_agents=100):
        self.num_agents = num_agents
        self.agents = [Agent(id=i) for i in range(num_agents)]
        self.coordination_policy = CoordinationNetwork()
    
    def train_episode(self, complex_task):
        # Decompose task
        subtasks = self.decompose(complex_task)
        
        # Assign to agents based on specialization
        assignments = self.coordination_policy.assign(subtasks)
        
        # Parallel execution
        with ThreadPoolExecutor(max_workers=100) as executor:
            futures = [
                executor.submit(agent.execute, task)
                for agent, task in zip(self.agents, assignments)
            ]
            results = [f.result() for f in futures]
        
        # Aggregate results
        final_output = self.aggregate_results(results)
        
        # Compute shared reward
        reward = self.compute_reward(final_output, complex_task)
        
        # Update coordination policy
        self.coordination_policy.update(reward, assignments, results)
        
        return final_output, reward

Performans İyileştirmeleri

Makale, PARL eğitiminden kaynaklanan önemli iyileştirmeleri belgeliyor:

MetrikPARL ÖncesiPARL Sonrasıİyileştirme
Görev Tamamlama Süresi100 birim20 birim%80 daha hızlı
Başarı Oranı%65%89%37 artış
Tool Call Verimliliği500 çağrı1500 çağrı3x koordinasyon
Hata KurtarmaManuelOtomatikKendi kendini iyileştirme

Agent Swarm Teknolojisi

Kendi Kendini Yönlendiren Orkestrasyon

Önceden tanımlanmış iş akışları gerektiren geleneksel çoklu agent sistemlerinin aksine, Kimi K2.5'in Agent Swarm'ı kendi kendini yönlendiren orkestrasyon kullanır:

# Self-directed orchestration from paper
class SelfDirectedSwarm:
    def __init__(self):
        self.agents = []
        self.emergent_plan = None
    
    def execute(self, goal):
        # Phase 1: Emergent planning
        self.emergent_plan = self.generate_plan(goal)
        
        # Phase 2: Dynamic role assignment
        roles = self.assign_roles_dynamically(self.emergent_plan)
        
        # Phase 3: Parallel execution with adaptation
        results = self.execute_adaptive(roles)
        
        # Phase 4: Consensus-based aggregation
        final_result = self.consensus_aggregate(results)
        
        return final_result
    
    def generate_plan(self, goal):
        """Agents collectively devise execution strategy"""
        planning_agents = self.select_planning_subset()
        
        # Iterative plan refinement
        plan = None
        for iteration in range(max_iterations):
            proposals = [agent.propose_plan(goal, plan) for agent in planning_agents]
            plan = self.consensus_merge(proposals)
            
            if self.plan_convergence(proposals):
                break
        
        return plan

Agent İletişim Protokolü

Makale, verimli koordinasyonu mümkün kılan yeni bir iletişim protokolü tanımlıyor:

İletişim TürüBant GenişliğiGecikmeKullanım Durumu
Intent BroadcastDüşük<10msGörev dağıtımı
Status UpdateMinimum<5msİlerleme takibi
Result SharingOrta<50msAra çıktılar
Consensus BuildingYüksek<200msNihai birleştirme

Eğitim Verileri ve Metodolojisi

Veri Kümesi Bileşimi

Kimi K2.5 makalesi, devasa eğitim külliyatını ayrıntılarıyla açıklıyor:

Veri TürüHacimYüzdeKaynak
Web Metni8T token%53Seçilmiş web taraması
Kod2,5T token%17GitHub, StackOverflow
Kitaplar ve Makaleler2T token%13Akademik kaynaklar
Çok Modlu1,5T token%10Görseller, video altyazıları
Sentetik1T token%7Yapay zeka tarafından üretilen eğitim verisi
Toplam15T token%100Karışık kaynaklar

Eğitim Pipeline'ı

Phase 1: Pre-training (15T token)
  ├── Süre: ~3 ay
  ├── İşlem Gücü: 10.000+ H100 GPU
  └── Hedef: Sonraki token tahmini

Phase 2: Uzun Bağlam Genişletme
  ├── 256K'ya kademeli genişletme
  └── Özelleştirilmiş positional encoding

Phase 3: PARL Eğitimi
  ├── Çoklu agent görev simülasyonu
  ├── Koordinasyon politikası optimizasyonu
  └── 100K+ karmaşık görev senaryosu

Phase 4: Hizalama
  ├── Yardımcılık için RLHF
  ├── Güvenlik eğitimi
  └── Araç kullanımı uzmanlaşması

Benchmark Sonuçları ve Analizi

Kodlama Benchmark'ları

Makale, SWE-Bench Verified üzerinde genel olarak %76,8 ile güçlü bir kodlama performansı raporluyor (5 bağımsız çalıştırmanın ortalaması) ve bu benchmark'ta en iyi açık kaynak model haline geliyor:

SWE-Bench Verified Comparison:
┌────────────────────────────────────────┬──────────┐
│ Model                                  │ Score    │
├────────────────────────────────────────┼──────────┤
│ Qwen3-Max                              │ 88.3%    │
│ Claude Opus 4.5                        │ 80.9%    │
│ GPT-5.2                                │ 77.0%    │
│ Kimi K2.5 (open-source SOTA)           │ 76.8%    │
│ Kimi K2                                │ 65.8%    │
├────────────────────────────────────────┼──────────┤
│ Improvement over K2                    │ +11.0%   │
└────────────────────────────────────────┴──────────┘

Agentik Performans

BenchmarkKimi K2.5GPT-5.2Claude Opus 4.5
HLE-Full (araçlarla)50,245,543,2
TerminalBench50,854,059,3
SWE-Bench Verified76,877,080,9
BrowseComp (Swarm)78,4

Açık Ağırlıklar ve Lisanslama

Değiştirilmiş MIT Lisansı Koşulları

Kimi K2.5 makalesi, Değiştirilmiş MIT Lisansı altında açık ağırlıkların yayımlandığını duyuruyor:

Key License Provisions:
✅ Commercial use permitted
✅ Modification and distribution allowed
✅ Private use unrestricted
⚠️ Attribution required
⚠️ Model name restrictions apply
⚠️ Safety guidelines must be followed

Dağıtım Gereksinimleri

Dağıtım TürüGereksinimlerLisans
API KullanımıMoonshot AI'dan API anahtarıStandart koşullar
Yerel (Kişisel)600GB depolama, 128GB RAMDeğiştirilmiş MIT
Yerel (Kurumsal)4x A100, kurumsal lisansDeğiştirilmiş MIT
Fine-tuningEğitim altyapısıDeğiştirilmiş MIT

Araştırma Sonuçları ve Gelecek Yönelimler

Makaleden Temel Çıkarımlar

  1. Ölçek Verimliliği: MoE mimarisi, 32B çıkarım maliyetiyle 1T parametre kapasitesine ulaşır
  2. Ortaya Çıkan Koordinasyon: PARL, kendi kendini organize eden çoklu agent sistemlerini mümkün kılar
  3. Bağlam Ölçeklendirme: MLA, aşırı maliyetler olmadan pratik 256K bağlamı mümkün kılar
  4. Açık İnovasyon: Açık ağırlıklar, ileri seviye yapay zeka yeteneklerine erişimi demokratikleştirir

Gelecek Araştırma Yönelimleri

Makale, gelecekteki araştırmalar için birkaç alanı özetliyor:

YönelimAçıklamaPotansiyel Etki
PARL Ölçeklendirme1000+ agent koordinasyonuÜstel yetenek büyümesi
Çok Modlu Agent'larVision-language-action modelleriRobotik entegrasyonu
Sürekli ÖğrenmeÇevrimiçi adaptasyonSürekli gelişen sistemler
Verimlilik OptimizasyonuDaha küçük aktif kümelerEdge dağıtımı

Sonuç

Kimi K2.5 makalesi, aşağıdaki katkılarıyla yapay zeka araştırmalarında yeni benchmark'lar belirliyor:

  • %80 çalışma süresi azalmasını mümkün kılan PARL eğitim metodolojisi
  • 100 paralel agent'a kadar destek sunan Agent Swarm teknolojisi
  • Kapasite ve verimliliği dengeleyen MoE mimarisi
  • Pratik uzun bağlam modellemesi için MLA dikkati
  • İleri seviye yapay zekayı demokratikleştiren açık ağırlık kullanılabilirliği

Bu yenilikler topluca Kimi K2.5'i, özellikle agentik yapay zeka ve kodlama uygulamalarında, large language model yeteneklerinde önemli bir ilerleme olarak konumlandırıyor.


Sıkça Sorulan Sorular

Kimi K2.5 makalesinin tamamını nerede okuyabilirim?

Tam teknik rapor https://arxiv.org/abs/2602.02276 adresinde, blog özeti https://www.kimi.com/blog/kimi-k2-5.html adresinde ve Moonshot AI'nın araştırma yayınları sayfası aracılığıyla mevcuttur.

Kimi K2.5'te PARL eğitimi nedir?

PARL (Parallel-Agent Reinforcement Learning), birden fazla yapay zeka agent'ının koordinasyon stratejilerini eşzamanlı olarak öğrenmesini sağlayan, %80 çalışma süresi azalması elde eden ve 100 paralel agent'a kadar destekleyen yeni bir eğitim metodolojisidir.

Kimi K2.5, 256K bağlamı nasıl elde eder?

4x sıkıştırma oranına sahip Multi-head Latent Attention (MLA) mimarisi, kademeli bağlam genişletme eğitimi ve makalede ayrıntılı olarak açıklanan optimize edilmiş positional encoding teknikleri aracılığıyla.

Kimi K2.5'i yerel olarak çalıştırmak için donanım gereksinimleri nelerdir?

Makale, minimum gereksinim olarak 600GB+ depolama, 128GB+ RAM ve 2x A100 80GB GPU belirtir; optimal performans için 4x A100 80GB önerilir.

Kimi K2.5 tamamen açık kaynak mıdır?

Kimi K2.5, açık ağırlıkların mevcut olduğu Değiştirilmiş MIT Lisansı altında yayımlanmıştır. Eğitim kodu ve verileri açık kaynak değildir, ancak model ağırlıkları indirilebilir ve belirli kısıtlamalarla ticari olarak kullanılabilir.

Kimi K2.5 Makalesi: Mimari ve Eğitime Teknik Bakış