DeepSeek tepki gösterdi: Çin'in yıl sonu yapay zeka saldırısı

Marcel Kunzmann

DeepSeek yıl sonunda iki yeni model piyasaya sürecek

(Resim: Furkan Falahi/Shutterstock.com)

DeepSeek, ABD kısıtlamalarına rağmen Batı rekabetine ayak uyduran iki yeni açık kaynak modelini tanıtıyor. Yeni sürümler aslında ne yapabilir?

Çinli yapay zeka girişimi DeepSeek yılın başında manşetlere çıktı. Hangzhou'lu Çinli şirket, güçlü ancak uygun fiyatlı bir açık kaynak modeliyle teknoloji devlerine meydan okudu. Telepoli Almanca konuşulan ülkelerde yapay zeka endüstrisi için “Sputnik anı”nı haber yapan ilk dergilerden biriydi.

Duyurudan sonra devamını okuyun

OpenAI, Claude, Google ve Co. şaşırdı. Sonuç olarak bu sene işler çok yoğun. Çok sayıda yeni model ortaya çıktı ve kendilerini listelerin dışına itti. Son zamanlarda, Google'ın geç çiçek açan İkizler burcu özellikle popüler oldu.

Yıl sonunda DeepSeek yeniden hizmet verebilecek duruma gelecektir. Çinli şirket, OpenAI ve Google'ın en gelişmiş sistemleriyle rekabet edebileceğini söylediği iki yeni açık kaynaklı modeli piyasaya sürdü. Pazartesi günü DeepSeek-V3.2 ve daha güçlü olan DeepSeek-V3.2-Speciale piyasaya sürüldü.

Uluslararası yarışmalarda altın madalyalar

Geliştiricilere göre DeepSeek-V3.2-Speciale, muhakeme görevlerinde Google'ın iki hafta önce piyasaya sürülen Gemini 3 Pro modelinin performansını yakalıyor. V3.2 temel modelinin DeepSeek tarafından duyurulduğu üzere Ağustos ayında tanıtılan OpenAI GPT-5 ile aynı seviyede olması bekleniyor. Özellikle dikkat çekici olan ise Çinli şirketin, gelişmiş yarı iletken çiplere sınırlı erişime rağmen bunu başardığını iddia etmesi.

Görüntülenen bir istatistik

Görüntülenen bir istatistik

Mevcut geliştirici kıyaslama karşılaştırması

(Resim: DeepSeek)

DeepSeek-V3.2-Speciale, dört seçkin uluslararası yarışmada altın madalya elde etti: Şirkete göre 2025 Uluslararası Matematik Olimpiyatı, Uluslararası Bilgisayar Olimpiyatı, ICPC Dünya Şampiyonası ve Çin Matematik Olimpiyatı. Daha önce, Uluslararası Matematik Olimpiyatlarında yalnızca OpenAI ve Google DeepMind'ın şirket içi, kamuya açık olmayan modelleri böyle bir performans elde etmişti. Ancak yeni modeller, çok iyi bilinen LMArena ve Humanity's Last Exam sıralamasında henüz yer almıyor.

Duyurudan sonra devamını okuyun

Şirket, V3.2 modelini Hugging Face geliştirme platformunda açık kaynak olarak kullanıma sundu. Ancak DeepSeek'in açıkladığı gibi, daha güçlü V3.2-Special varyantına “daha yüksek token tüketimi” nedeniyle yalnızca bir programlama arayüzü aracılığıyla erişilebilir.

Çipin sınırlamalarına rağmen mimari yenilikler

DeepSeek bu performansı DeepSeek Sparse Attention (DSA) mekanizması gibi mimari yeniliklerle elde ediyor. Önceki yaklaşımlardan farklı olarak teknoloji, uzun girdi dizileri durumunda bile bağlamın izini kaybetmiyor. Özel bir dizin oluşturucu yalnızca bağlamın en önemli bileşenlerine odaklanır ve başlangıçta geri kalanını göz ardı eder. Bu, performansı etkilemeden önceki modellere kıyasla çıkarım maliyetlerini yarı yarıya azaltır.

Şirketin teknik raporuna göre bu performans, ABD'li rakiplere göre “daha az toplam eğitim FLOP'u” ile elde edildi. FLOP'lar (saniyedeki kayan nokta işlemleri), yapay zeka modellerini eğitirken hesaplama gücünün standart ölçüsü olarak kabul edilir.

Araştırma camiasında uluslararası ilgi

Duyuru, özellikle prestijli yıllık Sinir Bilgi İşleme Sistemleri (NeurIPS) konferansına denk gelmesi nedeniyle yapay zeka araştırma topluluğunda önemli tartışmalara yol açtı. Google DeepMind'ın kıdemli araştırma mühendisi Susan Zhang, DeepSeek'i yeni modellerle ilgili ayrıntılı teknik raporundan ötürü övdü ve şirketin eğitim sonrasında modelleri stabilize etme çabalarına dikkat çekti.

NeurIPS konferansından önceki sürümün zamanlaması, OpenAI'nin Kasım 2022 sonlarında ChatGPT lansmanını anımsatıyor ve bu aynı zamanda o zamanki New Orleans konferansıyla da aynı zamana denk geldi. Bu yıl ilk kez konferans aynı anda iki yerde gerçekleştirilecek: San Diego ve Mexico City. Amerika Birleşik Devletleri'ndeki uluslararası araştırmacılar için vize alma konusundaki endişeler nedeniyle birçok Çinli katılımcı Mexico City'yi seçti. Güney Çin Sabah Postası.

DeepSeek, V3.2'nin token verimliliği ve dünya bilgisi açısından hâlâ Gemini 3 Pro gibi önde gelen ABD modellerinin gerisinde kaldığını kabul etti. Ancak şirket, ön eğitim için kullanılan bilgi işlem gücünü artırarak bu boşlukları doldurmak istediğini söyledi.


Yayımlandı

kategorisi

yazarı:

Etiketler:

Yorumlar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir