Anthropic Claude Sonnet 4.6: 1M Token, Güçlü Kodlama
Anthropic'in yeni Claude Sonnet 4.6 modeli 1 milyon token bağlam penceresi, üstün kodlama becerileri ve ARC-AGI-2'de %60 üzeri skorla çıktı.
Anthropic dört aylık güncelleme döngüsünde bu sefer sessiz geçmedi — Claude Sonnet 4.6, şirketin en yetenekli orta sınıf modeli unvanını alırken bazı metriklerde Kasım 2025'te çıkan Opus 4.5'i bile geride bıraktı.
Modelin en çarpıcı özelliği beta olarak gelen 1 milyon token bağlam penceresi — selefinin en geniş penceresinin tam iki katı. Anthropic bu kapasiteyi "tüm bir kod tabanı, uzun sözleşmeler ya da onlarca araştırma makalesini tek bir istekte tutmaya yeter" diye tanımlıyor. Ama daha önemlisi, Sonnet 4.6'nın bu bağlamı gerçekten kullanabildiğini söylüyorlar: uzun ufuklu planlama testlerinde model rakiplerini belirgin biçimde geride bırakmış.
Yazılım geliştirme tarafında tablo dikkat çekici. Erken kullanıcılar Sonnet 4.6'yı selefine yaklaşık yüzde 70 oranında tercih etmiş; GitHub, Cursor, Replit ve Windsurf gibi firmalar "karmaşık hata düzeltme", "büyük kod tabanlarında arama" ve "production kalitesine daha az iterasyonla ulaşma" gibi somut iyileşmelerden söz ediyor. SWE-bench Verified skorunda ise %80,2'ye ulaşılmış — yapay zeka kodlama yarışında yeni bir çıta.
Bilim insanlarının ve araştırmacıların yakından takip ettiği ARC-AGI-2 benchmarkı ise ayrı bir hikâye. İnsana özgü problem çözme becerilerini ölçmek için tasarlanan bu testte Sonnet 4.6 %60,4 aldı — Gemini 3 Deep Think ve Opus 4.6'nın gerisinde kalmaya devam etse de bu sınıftaki modeller için güçlü bir referans nokta.
Fiyatlama kararı da stratejik: API erişimi Sonnet 4.5 ile aynı ücret üzerinden (giriş için milyon tokende 3 dolar) sunuluyor. Bu, şimdiye kadar Opus-sınıfı model gerektiren görevleri daha ucuza yapılabilir hale getiriyor. Anthropic'in ücretsiz ve Pro planlarını da Sonnet 4.6'ya yükseltmesi, günlük kullanıcıların herhangi bir şey yapmadan daha iyi bir modele kavuşması anlamına geliyor.
Bilgisayar kullanımı (computer use) cephesinde de kayda değer ilerleme var. Karmaşık form doldurma veya çoklu sekme arasında geçiş yapma gibi görevlerde insan seviyesine yaklaşan başarım oranları rapor edilmiş — Pace gibi sigorta şirketleri bu özellikte %94 doğruluk gördüklerini açıklamış.
Anthropic'in modeli hızla güncelleme temposunu koruduğunu not düşmek gerekiyor: Opus 4.6 iki hafta önce gelmişti, Haiku serisi de kısa süre içinde sıraya girmiş durumda. Sonnet sınıfı, en geniş kullanıcı kitlesine hitap eden katman olduğu için bu güncellemelerin pratikte ne kadar fark yaratacağı önümüzdeki haftalarda daha net görünecek.