DeepSeek'in yeni damıtılmış modeli nasıl dikkat çekti?


Yapay zeka alanında Çin merkezli DeepSeek, bu hafta güncellenmiş R1 AI modeliyle gündeme oturdu. Ancak asıl ses getiren, bu modelin daha küçük ve hafif versiyonu olan DeepSeek-R1-0528-Qwen3-8B oldu. Küçük boyutuna rağmen performansıyla dev rakiplerini zorlayan bu model, akademik ve endüstriyel kullanımlarda umut vadediyor.

iPhone 17 Air ile Tanışın: İncelikte Yeni Rekor
iPhone 17 Air ile Tanışın: İncelikte Yeni Rekor
İçeriği Görüntüle

Damıtılmış model nasıl geliştirildi?


Yeni model, Alibaba'nın Qwen3-8B modeli temel alınarak geliştirildi. DeepSeek, büyük R1 modelinin ürettiği çıktıları kullanarak Qwen3-8B'yi ince ayardan geçirdi ve böylece DeepSeek-R1-0528-Qwen3-8B ortaya çıktı. Bu teknik, damıtma (distillation) yöntemi olarak biliniyor ve genellikle büyük modellerin daha küçük, daha verimli kopyalarını üretmek için kullanılıyor. DeepSeek, bu modeli hem akademik araştırmalar hem de küçük ölçekli endüstriyel projeler için uygun olarak tanımlıyor.


Performansı hangi modellerle karşılaştırılıyor?


İşin şaşırtıcı kısmı, küçük boyutuna rağmen DeepSeek-R1-0528-Qwen3-8B, önemli matematik testlerinde büyük modellerle başa baş performans sergiliyor. Özellikle AIME 2025 sınavında, Google’ın Gemini 2.5 Flash modelini geride bırakmayı başardı. Bunun yanı sıra, Microsoft’un Phi 4 muhakeme artı modeli ile yapılan bir diğer test olan HMMT'de de neredeyse aynı seviyede sonuçlar elde etti. Bu durum, modelin potansiyelini gözler önüne seriyor.


Damıtılmış modellerin avantajı nedir?


Damıtılmış yapay zeka modelleri, genellikle tam boyutlu modeller kadar güçlü olmayabilir. Ancak en büyük avantajları, çok daha az hesaplama gücü gerektirmeleri. Örneğin, Qwen3-8B modelinin çalışması için 40-80GB RAM’e sahip bir GPU yeterli olurken, tam boyutlu R1 modeli için yaklaşık on iki adet 80GB GPU gerekiyor. Bu fark, özellikle daha küçük şirketler ve geliştiriciler için erişilebilirliği artırıyor.


DeepSeek’in yeni modeli nasıl erişilebilir?


DeepSeek-R1-0528-Qwen3-8B, MIT lisansı altında sunuluyor. Bu, modelin ticari amaçlarla da kısıtlama olmaksızın kullanılabileceği anlamına geliyor. Üstelik, Hugging Face gibi büyük AI platformlarında model için özel sayfalar açıldı ve LM Studio gibi popüler servisler de modeli API üzerinden erişime sundu. Böylece, geliştiriciler hem akademik hem ticari projelerinde bu güçlü modeli rahatlıkla kullanabiliyor.

Kaynak: İHA