Deepseek'in son modelinde yenilikler: Deepseek-V3.2-Exp

Anna Barclay | Getty Images Haberleri | Getty Images

Çinli girişim Deepseek'in en son deneysel modeli, verimliliği artırmayı ve AI'nın maliyetin bir kısmında çok fazla bilgiyi ele alma yeteneğini geliştirmeyi vaat ediyor, ancak sorular mimarinin ne kadar etkili ve güvenli olduğu konusunda kalıyor.

Deepseek, Silikon Vadisi'ni geçen yıl ilk Model R1'i başlattığında çılgınlığa gönderdi ve daha az kaynak kullanarak daha az güçlü yongalarda büyük dil modellerini (LLMS) hızlı bir şekilde eğitmenin mümkün olduğunu gösterdi.

Şirket, AI Forum Hugging Yüzü'ndeki bir göreve göre, mevcut model Deepseek-V3.1-terminalinin deneysel bir versiyonu olan Deepseek-V3.2-Exp'i Pazartesi günü yayınladı.

CNBC'ye verdiği demeçte, “Deepseek v3.2 verimlilik, maliyet azaltma ve açık kaynak paylaşımına odaklanmaya devam ediyor.” Dedi. “Büyük gelişme, DSA (Deepseek Seyir Dikkat) adlı yeni bir özelliktir, bu da AI'yı uzun belgeleri ve konuşmaları ele almada daha iyi hale getirir. Aynı zamanda AI'yı önceki sürüme kıyasla yarı yarıya çalıştırma maliyetini de azaltır.”

Futurum Grubu başkan yardımcısı ve AI için başkan yardımcısı Nick Patience, “Bu önemlidir çünkü modeli, performansda belirgin bir düşüş olmadan daha hızlı ve daha uygun maliyetli hale getirmelidir.” Dedi. “Bu, güçlü AI'yı geliştiriciler, araştırmacılar ve daha küçük şirketler için daha erişilebilir hale getirerek potansiyel olarak yeni ve yenilikçi uygulamalar dalgasına yol açıyor.”

Seyrek dikkatin artıları ve eksileri

Bir AI modeli, eğitim verilerine ve istem gibi yeni bilgilere dayanarak kararlar alır. Bir havayolunun A'dan B'ye en iyi rotayı bulmak istediğini söyleyin, birçok seçenek varken, hepsi mümkün değildir. Daha az uygulanabilir yolları filtreleyerek, yolculuğu yapmak için zaman, yakıt ve nihayetinde parayı önemli ölçüde azaltırsınız. Bu tam olarak seyrek dikkat, sadece modeldeki tüm verileri ezen diğer modellerin aksine, eldeki görev göz önüne alındığında, sadece verilerde önemli olduğunu düşündüğü faktörler.

Yeni risk sermayesi fonu Blankpage Capital'in kurucu ortağı ve yönetici ortağı Ekaterina Almasque, “Temel olarak, önemli olmadığını düşündüğünüz şeyleri kesiyorsunuz” dedi.

Seyrek dikkat, verimlilik için bir nimettir ve daha az kaynak göz önüne alındığında AI ölçeklendirme yeteneği gereklidir, ancak bir endişe, bilgiyi nasıl ve neden indirdiğine dair gözetim eksikliğinden kaynaklanan güvenilir modellerin nasıl bir düşüşe yol açabileceğidir.

“Gerçek şu ki, onlar [sparse attention models] Çok fazla nüansı kaybettiler, “dedi Dataiku ve Darktrace'in erken destekçisi olan Almasque ve GraphCore'da bir yatırımcı.” Ve gerçek soru, önemli olmayan verileri dışlamak için doğru mekanizmaya sahip miydi veya gerçekten önemli verileri hariç tutan bir mekanizma var mı ve sonuç çok daha az alakalı olacak mı? “

Yatırımcı, bu özellikle AI güvenliği ve kapsayıcılık için sorunlu olabilir, yatırımcı, rakiplere veya geleneksel mimarilere kıyasla “en uygun olanı veya en güvenli AI modeli olmayabileceğini de sözlerine ekledi.

Ancak Deepseek, deneysel modelin V3.1-terminaliyle eşit çalıştığını söylüyor. Bir kabarcık oluşumunun spekülasyonuna rağmen, AI, ABD ve Çin ile kazanan nokta için yarışan jeopolitik rekabetin merkezinde kalıyor. Yakefu, Deepseek'in modellerinin Ascend ve Cambricon gibi Çin yapımı AI cipsleri ile "kutunun dışında" çalıştığını, yani ekstra kurulum olmadan yerel donanımlarda yerel olarak çalışabileceğini belirtti.

Deepseek ayrıca deneysel modeli kullanmak için gereken gerçek programlama kodunu ve araçları paylaştı. Diyerek şöyle devam etti: "Bu, diğer insanların ondan öğrenebileceği ve kendi iyileştirmelerini oluşturabileceği anlamına geliyor."

Ancak Almasque için, bunun doğası teknolojinin savunulmaz olmayabileceği anlamına geliyor. "Yaklaşım süper yeni değil," dedi endüstrinin "2015'ten beri seyrek modeller hakkında konuştuğunu" ve Deepseek'in açık kaynak nedeniyle teknolojisini patentleyemediğini belirtti. Deepseek'in rekabet avantajı, bu nedenle, hangi bilginin dahil edileceğine karar vermesi gerektiğine bakmalıdır.

Şirketin kendisi, V3.2-Exp'in sarılma yüz direği başına "yeni nesil mimarimize doğru bir ara adım" olduğunu kabul ediyor.

Sabırın belirttiği gibi, "Bu Deepseek'in değer pervanesi her yerde: verimlilik ham güç kadar önemli hale geliyor."

Yakefu, "Deepseek, topluluğun ilerlemelerine yatırım yapmasını sağlamak için uzun oyun oynuyor." "İnsanlar her zaman ucuz, güvenilir ve etkili olanı gidecekler."


Yayımlandı

kategorisi

yazarı:

Etiketler:

Yorumlar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir