Google Gemini 3.1 Flash-Lite: En Hızlı ve En Ucuz Gemini 3 Modeli
Google, Gemini 3 serisinin en hızlı ve en uygun maliyetli modeli Flash-Lite'ı duyurdu. 1M giriş tokeni 0,25 dolar, 2,5 kat daha hızlı yanıt süresi.
Milyon token başına 25 sent. Google'ın yeni Gemini 3.1 Flash-Lite modeli, fiyat/performans dengesini yeniden tanımlıyor.
Bugün itibarıyla AI Studio ve Vertex AI üzerinden önizleme olarak sunulmaya başlanan Flash-Lite, Gemini 3 serisinin en hızlı ve en uygun maliyetli üyesi. Giriş fiyatı milyon token başına 0,25 dolar, çıktı fiyatı ise 1,50 dolar. Bu rakamlar, GPT-5 mini, Claude 4.5 Haiku ve Grok 4.1 Fast gibi rakiplerinin belirgin altında.
Asıl dikkat çekici olan fiyat değil, performans farkı. Artificial Analysis benchmark'ına göre Flash-Lite, Gemini 2.5 Flash'a kıyasla ilk yanıt süresinde 2,5 kat, çıktı hızında ise yüzde 45 iyileşme sağlıyor. Kaliteyi düşürmeden bu hıza ulaşmak, yüksek hacimli iş yüklerinde ciddi bir avantaj.
Benchmark tarafında da rakamlar güçlü. Arena.ai sıralamasında 1432 Elo puanına ulaşan Flash-Lite, GPQA Diamond'da yüzde 86,9 ve MMMU Pro'da yüzde 76,8 doğruluk oranına sahip. Bu sonuçlar, önceki nesil Gemini 2.5 Flash dahil daha büyük modelleri geride bırakıyor.
Flash-Lite'ın bir diğer önemli özelliği, AI Studio ve Vertex AI'da standart olarak gelen ayarlanabilir düşünme seviyeleri. Geliştiriciler, modelin bir görev için ne kadar derinlemesine "düşüneceğini" kontrol edebiliyor. Yüksek hacimli çeviri ve içerik moderasyonu gibi maliyet odaklı işlerde düşünme seviyesi düşük tutulabilirken, kullanıcı arayüzü oluşturma veya simülasyon gibi karmaşık görevlerde daha derin muhakeme devreye giriyor.
Latitude, Cartwheel ve Whering gibi erken erişim kullanan şirketler, modelin talimat takibi ve hız konusundaki performansını özellikle vurguluyor. Latitude'den Kolby Nottingham, karmaşık girdileri daha büyük modellerin hassasiyetiyle işleyebildiğini belirtti.
Google'ın bu hamlesi, API fiyat savaşının yeni bir aşamaya geçtiğini gösteriyor. Milyon tokende 25 sent, yüksek hacimli uygulamalar için ciddi bir eşik. Geliştiriciler için asıl soru artık "hangi model daha iyi" değil, "aynı bütçeyle kaç kat daha fazla işlem yapabilirim" haline geldi.