Alibabas LLM Qwen3 bir sonraki seviyede

Yakın bildirim

Bu makale bu nedenle İngilizce olarak mevcuttur. Yayınlamadan önce teknik yardım ve editoryal revizyon ile çevrildi.

10.9.2025'te nispeten düşük bir eko ile yeni bir QWEN3 modeli yayınlandı. Kenar verileri muhteşem görünmüyor: her biri her zaman üç milyar aktif olan 80 milyar parametreye sahip. Ancak değişiklikler zordur ve vokal modellerin geliştiği olası bir yön belirleyebilir.

Veri bilimcisi ve otomatik öğrenme mimarıdır. Doktorasını teorik fizik alanında aldı ve 20 yıl boyunca büyük miktarlarda veri ve yapay zeka alanında çalıştı, özellikle de ölçeklenebilir sistemlere ve kitle metninin işlenmesi için akıllı algoritmalara dikkat etti. 2022'den beri Nürnberg'de profesördü ve araştırmasını modern süreçleri kullanarak kullanıcı deneyiminin optimizasyonu üzerine yoğunlaştırıyor. Konferanslar süpervizörü ve otomatik öğrenme ve metnin analizi üzerine makalelerin yazarı Datanizizing GmbH'nin kurucusudur.

Qwen ekibi, toplam parametre sayısını ve bağlamın uzunluğunu hem eğitim hem de çıkarımda daha büyük darboğaz olarak tanımlar. Uzun süredir mevcut olan QWEN3 modelleriyle karşılaştırıldığında, yeni model aşağıdaki yeniliklere sahiptir:

  • Melez saldırı mekanizması
  • Uzmanların karışımının yapısının yapısı
  • Eğitimin optimizasyonu
  • Birkaç jetonun tahmini

Chatbot akıllı telefonda

29 Ekim'de şirketteki LLMS çevrimiçi konferansı, doğru modeli nasıl seçileceğini, altyapıyı oluşturmayı ve güvenliği kontrol altında tutmayı gösteriyor. Buna ek olarak, IX ve DPunkt.verlag'ın temalı günü, yeni nesil LLM gibi sıvı temellerinin modellerine bir bakış açısı veriyor.

Melez saldırı mekanizması: Yeni model, katmanların yüzde 75'inde (daha az depolama ve hesaplama süresi gerektiren (kapılı deltanet) olarak adlandırılan bir doğrusal saldırı biçimi kullanıyor. Diğer katmanlar post -standart mekanizmasına göre çalışır. Blogda, bu hibrit mimarinin her düzeyde aynı saldırı mekanizmasının kullanılmasından daha iyi sonuçlar elde ettiğini okuyabilirsiniz. Bu değişiklik, modelin artık saf transformatörün bir mimarisi olarak tanımlanamayacağı anlamına gelir.

Uzmanların karışımının yapısının yapısı: Karışım uzmanları (MOE) modelleri parametrelerin sadece bir kısmını kullanır ve bu nedenle jetonu daha hızlı içerebilir. MOE modelleri birkaç yıldır dolaşımda ve yenilikler mimarisi V3 ile özellikle Deepseek uygulandı. Önemli ölçüde daha deneyimli: normal sekiz yerine 256, ancak aynı zamanda sadece sekizi aktif. 671 milyar parametreden her bir hüküm için sadece 37 milyar gereklidir. Qwen3-Next burada devam ediyor ve toplam 512 uzmanla “sadece” 80 milyar parametre ile çalışıyor, bunlardan her biri her zaman röportaj yapıyor. Her tahmin sadece üç milyar parametre gerektirir.

Eğitimin optimizasyonu: Büyük modellerin oluşumu son derece karmaşık ve kalıcı yüzlerce GPU yılıdır. Bu nedenle, bilim adamı verileri bu sürecin mümkün olduğunca optimizasyonuna odaklanmaktadır. MoonShot.ai USA Muon Optimizer, İsviçre Apertus modeli, eğitimi daha verimli hale getirmek için kırmızı balık kaybını kullanır. Qwen3-Next'in başka birkaç hazır optimizasyonu var. Her şeyden önce, hibrid saldırı mekanizması da yardımcı olur, ancak geliştiriciler katman ağırlıkları için sıfıra (ortalama kök karesi) odaklanmış bir RMS standardı kullanırlar, çünkü şu ana kadar kullanılan QK standardı (sorgu anahtarları) patladı. Ayrıca, tüm MOE uzmanlarına tarafsız eğitim verileri sağlayan belirtilmemiş bir süreç uygularlar. Deepseek tarafından yayınlanan yardımcı dönem burada kullanılabilir, ancak Qwen'in yazarları ayrıntılar konusunda sessizdir.

Birkaç jetonun tahmini: Birden fazla tahminle, bazı modeller zaten yaşadı, ancak özellikle eğitim sürecinde bir optimizasyon olarak. Burada da, Qwen3-next ileri adım daha atıyor ve tahmin modundaki tahminlere izin veriyor. Beklenen belirteçler her zaman doğru olmadığından, süreç aynı zamanda spekülatif kod çözme anlamına gelir. Daha önce sadece hileler ve küçük ve büyük modellerin kombinasyonu doğrudan Qwen3-next sunuyor.

Qwen ekibi, modelin QWEN3-30B-A3B çabalarının sadece % 80'iyle bu optimizasyonlar yoluyla antrenman yapabildiğini söylüyor. Yoğun Qwen3-32b ile karşılaştırıldığında, bu çabanın yüzde onundan daha azı anlamına gelir. Optimizasyonlar ayrıca çıkarım aşamasında yardımcı olur: model, özellikle uzun bağlamlarla karşılaştırılabilir modellerden çok daha hızlıdır.

Yeni modeli denemek o kadar kolay değil, çünkü mimari güçlü bir şekilde değişiyor, muhtemelen yeni bildirime kadar onunla çalışmayan popüler Llama.cpp aracı ile ilgili sorunlara yol açıyor. Transformers ile daha iyi görünüyor ve VLLM kitapçısı da qwen3-next ile çalışıyor ve şaşırtıcı bir şekilde Apple tarafından sağlanan MLX çerçevesi için de çalışıyor.

Yürütme, nicemleme veya bellek gereksinimi lehine azaltılmış hassasiyetle daha güvenilir çalışır, çünkü modeller aksi takdirde 160 GB'dan fazla RAM gerektirir. RunPod.io'da 96 GB VRAM ile bir RTX 6000 Pro'yu saatte iki avrenin hemen altında kiralamak ve en azından AWQ modeliyle (sıkıştırma ve ivme için aktivasyonun bilinçli ağırlığının nicelleştirilmesi) oynamak mümkündür. Aynı şey en az 64 GB RAM olması gereken Apple Donanımı için de geçerli. Alternatif olarak, modelin birkaç sağlayıcı için mevcut olduğu açık yönlendiricileri kullanmak mümkündür.

Ekran görüntüsü qwen3 Haberler

Ekran görüntüsü qwen3 Haberler

Qwen3-next-quking, güvenlik istihbaratı adlı bir dergi olmasa bile Haberler Verlag'ı iyi biliyor ve 1949'da programda elektrik mühendisliği dergisi yoktu.

Qwen3-next-in-in-incult'un cevabı benzerdir. Dolayısıyla akıl yürütme neredeyse hiç iyileştirme yapmaz. Genel olarak, Lmarena.ai ve LiveBech.ai'deki öğretici model biraz daha iyi değerlendirilir. Çilek Mücadelesi'nin Alman varyantı, çilekte “ve” sayısı sorunu ile başında yanlış taksitlerden sonra öğretici modele doğru yanıt verebilir:

Ekran görüntüsü qwen3 çilek

Ekran görüntüsü qwen3 çilek

Model kendini düzeltir, ancak Alman Çilek Mücadelesinde doğru sonucu kullanır.

Qwen3-next siyasi meseleler için son derece kısıtlayıcıdır. Sadece zorluklarla (özellikle nicel modellerde) bir şey uyandırabilirsiniz. Sorun sırasında, tekrarlanan not, modelin konu hakkında hiçbir şey söylememesi gerektiği heyecan vericidir. Neredeyse model sohbet etti, ancak daha sonra aşılanmış metinlere uyum sağlıyor:

Ekran görüntüsü Qwen3 Çin

Ekran görüntüsü Qwen3 Çin

Tiananm açıklandığında, ek bilgiler özellikle heyecan vericidir.

Model çok hızlı çalışıyor. AWQ (daha az verimli) ile saniyede 6000 RTX 6000'de saniyede yaklaşık 20 jetona ulaşabilirsiniz, 4bit modeli ultra M2'de saniyede yaklaşık 50 jeton oluşturur ve açık yönlendiricilerle saniyede 150 jetonun altında listelenir. Bu böyle bir model için dikkat çekicidir.


Yayımlandı

kategorisi

yazarı:

Etiketler:

Yorumlar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir