NVIDIA, 2026 sonunda özel bir hızlandırıcı çip başlatmayı planlıyor. AI uygulamalarını büyük bağlam gereksinimleriyle (aşağıya bakınız) hızlandırmayı amaçlıyor, bu da özellikle yüksek bir karlılığa tabidir. Bunlar arasında program kodunu veren veya hiçbir şeyden yapay zeka filmleri oluşturan KI'lar da var. Rubin CPX, özellikle bu modellerin işlenmesi sırasında özel darboğazla yüzleşmeyi amaçlamaktadır.
Çip, zaten bandı olan Veri Merkezi hızlandırıcılarının Nvidia'sının gerçek rubin 2026 nesline aittir. Doğrudan Petal Rafına entegre edilir veya ayrı bir şekilde ek bir şekilde ek bir hızlandırıcı olarak elde edilir.
Uzmanların karışımı ve bağlamın uzunluğu
Deepseek R1, LLAMA4 Maverick, GPT-OSM, QWEN3 veya KIMI K2 gibi şu anda modaya uygun modeller uzmanların karışımı adı verilen bir teknik kullanıyor. Farklı araştırmalar (parçalar) için birkaç özel sinir ağı (uzman) kullanılır. Bu da bireysel uzmanlar arasında depolama ve hesaplama gücü için daha düşük gereksinimlere yol açar.
İşin püf noktası, her talep için en uygun uzman karışımını elde etmektir; Soruşturmaların uzmanlara dağılımı çok önemlidir. Akıl yürütme ile birlikte, bireysel uzmanlar birbirleriyle iletişim kurmalı ve MOE modeli bir bütün olarak daha karmaşık hale gelir.
Aynı zamanda, uygulamalardan siparişe verilen yanıtlar daha karmaşıktır, örneğin tüm kod kod dizilerinin veya yapay olarak oluşturulan filmlerin baskısı ile. Bu, sürekli olarak dikkate alınması gereken jeton sayısını sağlar. Bir jeton, hesaplamaları basitleştirmek için yapay bir zeka içinde sayısal bir kimliğin atandığı en küçük bilgi birimidir. Bir jeton, bir mektuptan kısa cümlelere kadar bilgileri temsil edebilir. Tahminler ortalama 1,5 jeton ile İngilizce bir kelime belirledi.
Sanatsal bir temsilde Nvidia'nın gerçek Rubin Hızlandırıcısı. Bu şekilde, sistemler 2026'da veri merkezlerine gelmelidir.
Kendisine verilen yanıt için IA, ağırlıklandırmada yanıt penceresinden daha fazla jeton dikkate alınmalıdır, buna bağlam denir. CHAT-GPT 3.5'in başlangıçta Token 4096 Bağlam Penceresi vardı
Ayrıştırılmış hizmet
Ortaya çıkan bir optimizasyon yaklaşımı, soruşturmaların (dağınık hizmet) ayrık yanıtıdır. Bağlam ve önceden ayarlanmış seviyeler, bir talebe yanıt verdiklerinde çeşitli hızlandırıcılara atanır. NVIDIA zaten mevcut Blackwell GB200 sistemleriyle kullanıyor. Örneğin, MLCommons için optimize edilmiş iletişimde MLPERF çıkarım v5.1 Raf 56 NVL72 GPU'nun Blackwell 72 GPU'sunun sadece bağlamda çalışması ve sadece geri kalan 16'sı içeriği oluşturur. Bu optimizasyon, yanlış etiketlenmiş bir diyagram, Blackwell'de yüzde 40 ila 45 arasında bir performans sıçraması ile değerlendirilir.
NVIDIA hala bu LLM'leri kullanıyor: karşılık gelen geliştirme ile, oldukça düşük bir hassasiyetle de çıkabilirsiniz, böylece 4 NVFP4 -BIT boyutu dahili format, MLPERF çıkarım için gerekli yanıtın doğruluğu için yeterlidir.
Blackwell'den Rubin'e (CPX)
Blackwell Ultra (GB300), bu formatla maksimum performans için NVIDIA'yı zaten optimize etti. Bunun için mühendisler, transformatör teknolojisi ile tüm yapay zeka modellerinin saldırı katmanında önemli bir rol oynayan Üstü 2 fonksiyonunu değiştirdiler. SFU ünitesinde (özel fonksiyon ünitesi) yapay zeka verimi konusunda uzmanlaşmış çekirdek tensörün dışında çalıştıkları için, Hopper'a kıyasla EX2 performansı neredeyse geliştirilmediğinden, Blackwell'de zaten bir şişe boynu haline geldiler. Blackwell Ultra, EX2 verimini saniyede 5 ila 10.7 trilyon üstel hesaplamaya ikiye katlar.
Bir GB300 NVL72 kabini NVFP4'te yaklaşık 1.1 exaflop oluşturur, Rubin NVL144 NVIDIA tarafından 3.6 EFLOP ve 8 -EFLOP tam Ruby CPX'te planlanmaktadır.
Bir Rubin CPX, 2026'nın sonunda bugünün GB300'üne kıyasla 30 PFLOP NVFP4'ün üstel üretim verimi oluşturmaktan oluşur. Bağlam aşaması daha az hızlı bir RAM gerektirdiğinden ve esas olarak hesaplamalarla sınırlı olduğundan, NVIDIA, Rubin CPX'teki 128 GB GDDR7 belleğine dayanmaktadır.
(CSP)
Bir yanıt yazın