Yapay zeka çıkarımı silikona yansıtıldı: Taalas HC1 çipini duyurdu

2023 yılında Kanada'da kurulan start-up Taalas, yapay zeka çıkarımını yeni bir seviyeye taşımayı amaçlayan bir teknoloji göstericisi olan HC1'i duyurdu. Taalas, genel amaçlı yapay zeka hesaplama hızlandırıcılarındaki yazılımı kullanarak bir dil modeli çalıştırmak yerine, tabiri caizse silikondaki modeli piyasaya sürüyor. İlk ürün, üreticiye göre kullanıcı başına saniyede 17.000 token üretecek olan “kablolu” Llama 3.1 8B'dir.

Duyurudan sonra devamını okuyun

Taalas'a göre kalp, yaklaşık 53 milyar transistöre sahip, TSMC tarafından 6 nm (N6) prosesinde üretilen ve 815 mm² kalıp alanına sahip, uygulamaya özel bir mantık çipidir (ASIC).

Şirketin bir blog yazısında duyurduğu gibi bu, mevcut teknolojiden neredeyse on kat daha hızlı. Karşılaştırma için: Nvidia'nın temel verilerine göre, Nvidia H200 aynı modelde saniyede yaklaşık 230 token elde ediyor. Yapay Analiz'in bağımsız kriterlerine göre, Cerebras gibi uzman çıkarım sağlayıcıları saniyede yaklaşık 1.936 token elde ediyor; bu da Taalas'ın iddia ettiği değerin yaklaşık dokuzda biri. SambaNova 916 token/s ile onu takip ederken, Groq 609 token/s ile onu takip ediyor.

Ancak rekabet uyumuyor: Nvidia, Aralık 2025'ten bu yana Groq'un teknolojisini lisanslıyor ve özel donanım alanındaki konumunu güçlendirmek için tasarım ekibinin büyük bir bölümünü devraldı.

Taalas, teste olağanüstü bir hızla yanıt veren “Jimmy” sohbet robotunu sunuyor: Testte saniyede neredeyse 16.000 token'a ulaşıldı. Şirket henüz HC1 için bir fiyat açıklamadı. İlgilenen geliştiriciler bir çıkarım API'sine erişim için kaydolabilirler.

İki buçuk yıl önce kurulan start-up, üç temel prensibi takip ediyor: Bireysel modellerde tam uzmanlaşma, hafıza ve hesaplama mantığının bir çip üzerinde birleştirilmesi ve tüm donanım yığınının radikal bir şekilde basitleştirilmesi. Taalas, belleği ve bilgi işlem gücünü, DRAM'e özgü yoğunlukla tek bir yonga üzerinde birleştirdiğini iddia ediyor. Bu, geleneksel çıkarım donanımlarında yaygın olan, yavaş çip dışı DRAM ile hızlı çip üzerinde bellek arasındaki ayrımı ortadan kaldırır.

Cerebras da bunu vaat ediyor, ancak bir levhanın tamamını kaplayan ve 15 kW gücü ısıya dönüştüren kendi dev Wafer Scale Engine'i (WSE) inşa ediyor.

Duyurudan sonra devamını okuyun

Yaklaşım, büyük çip üreticilerinin şu anda benimsediklerinden temel olarak farklı. Nvidia, H200 gibi yapay zeka hızlandırıcıları için pahalı Yüksek Bant Genişlikli Belleğe (HBM), karmaşık paketleme teknolojisine ve son derece yüksek G/Ç veri aktarım hızlarına güveniyor.

Google'ın TPU'su, Amazon'un Interentia'sı ve Microsoft'un yakın zamanda duyurulan Azure Maia 200 hızlandırıcısı da 7 TByte/s aktarım hızıyla 216 GB'a kadar HBM3E bellek kullanıyor. Microsoft, yatırılan dolar başına Nvidia'nın teknolojisinden daha yüksek performans vaat ederken, Maia aynı zamanda çeşitli AI modelleri için genel amaçlı bir hızlandırıcı olarak da tasarlandı.

Taalas, HC1'i yalnızca tek bir model için optimize ederek bu karmaşıklığı ortadan kaldırıyor. Sonuç olarak HBM, 3D yığınlama, sıvı soğutma ve yüksek hızlı I/O gerekmez.

Ancak bunun esneklik açısından bir bedeli var. HC1 büyük ölçüde kabloludur: çip yalnızca Llama 3.1 8B'yi çalıştırabilir, diğer modelleri çalıştıramaz.

Llama 3.1, yapay zeka silahlanma yarışında şimdiden etkileyici bir çağ olan 2024'ün ortalarında tanıtıldı. 8 milyar ağırlığa (8 trilyon, yani Llama 3.1 8B) sahip kompakt versiyon da Raspberry Pi 5 üzerinde çok yavaş da olsa nicelenmiş formda çalışır.

En azından Taalas'a göre bağlam penceresinin boyutu, düşük dereceli bir adaptör (LoRA) kullanılarak yapılandırılabilir ve ince ayar yapılabilir. Şirket ayrıca, ilk nesil silikonun, 6 bitlik parametrelerle birleştirilmiş özel bir 3 bitlik veri formatı kullandığını da kabul ediyor. Bu agresif nicemleme, daha yüksek hassasiyetli GPU kıyaslamalarıyla karşılaştırıldığında bazı kalite kayıplarına yol açar.

Taalas, haleflerini çok hızlı bir şekilde devretmeyi planlıyor. AI ASIC'ler için yalın, otomatik ve hızlı geliştirme süreci genç şirketin asıl hedefidir. Tenstorrent kurucuları Ljubisa Bajic ve Drago Ignjatovic tarafından başlatıldı. İkisi de uzun süre AMD'de çalıştı, Bajic de Nvidia'da. Taalas, şu anda Tenstorrent'i yöneten tanınmış çip geliştiricisi Jim Keller gibi öne çıkan isimler nedeniyle yapay zeka sahnesinde büyük ilgi görüyor.

Yalnızca 24 ekip üyesi ilk ürünü üretti ve toplanan 200 milyon ABD dolarını aşan sermayenin 30 milyon ABD dolarını harcadı. 53 milyar transistörlü bir N6 çipi için 30 milyon dolarlık geliştirme maliyeti çok az. Genel amaçlı yapay zeka hızlandırıcılarının son derece yüksek fiyatları göz önüne alındığında, kurucular karlı bir pazar alanı bekliyor.

Taalas, çiplerini açıkça veri merkezlerini hedef alıyor ve güç tüketiminin onda biri ile geleneksel GPU'lardan 20 kat daha düşük maliyetler vaat ediyor.

Aynı HC1 platformunu temel alan orta ölçekli bir akıl yürütme modelinin ilkbaharda Taalas Laboratuvarlarına ulaşması ve kısa süre sonra çıkarım hizmeti olarak kullanıma sunulması bekleniyor.

Bu nedenle şirket, ikinci nesil HC2 çipleriyle öncü bir LLM uygulamayı planlıyor. HC2 platformu, standartlaştırılmış 4 bitlik kayan nokta formatlarını desteklemek, daha yüksek paketleme yoğunluğu sunmak ve daha da hızlı çalışmak üzere tasarlanmıştır. Kış için seferberlik planlanıyor.

Taalas'ın bahsettiği performans verileri etkileyici ancak şu ana kadar yalnızca sınırlı ölçüde doğrulanabiliyor. Karşılaştırmalar dahili testlerden gelir; Bağımsız üçüncü taraf ölçümleri henüz mevcut değildir.

Agresif nicelemenin neden olduğu kalite kayıplarının, özellikle basit sohbet konuşmalarının ötesine geçen daha karmaşık görevler için uygulamayı nasıl etkileyeceği de belirsizdir. Ayrıca, her yeni modelin kendi silikonunu üretmesi durumunda, modele özel çip konseptinin ekonomik olarak genişleyip genişlemeyeceği de henüz bilinmiyor.

Taalas, eğitimli modellerin bulut bağlantısı olmadan doğrudan cihaz üzerinde çalıştırıldığı “Edge AI” adı verilen uygulamalarla ilgilenmiyor. Bunlar genellikle konuşma tanıma, ses kontrolü, gözetleme kameraları için video görüntülerinde nesne tanıma, radar sensörlerinin değerlendirilmesi veya gürültü analizi yoluyla makine izleme (kestirimci bakım) modelleridir. Bu, şu anda şaşırtıcı bir çeşitlilikle piyasaya çıkan 10 ila 90 üst düzey Int8'in bulunduğu Sinir İşleme Birimlerinin (NPU'lar) alanıdır: M5Stacks AI Pyramid-Pro, Raspberry Pi 5'i güçlendirmek için Hailo NPU'ları, Google Coral ve AMD Ryzen, Intel Panther Lake, Qualcomm Snapdragon, Mediatek Genio, Rockchip ve hatta RISC-V gibi x86 ve ARM işlemcilerin gömülü sürümleri. SpacemiT K3 gibi SoC'ler. Avrupalı ​​otomotiv mikro denetleyici uzmanları Infineon, STMicroelectronics ve NXP'nin tümü, TI ve Renesas gibi entegre NPU'lara sahip yongalar sunuyor.

Ayrıca okuyun


(vza)


Yayımlandı

kategorisi

yazarı:

Etiketler:

Yorumlar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir