Silikondan yapay zeka çıkarımı: Taalas HC1 çipini duyurdu

2023 yılında Kanada'da kurulan start-up Taalas, yapay zeka çıkarımını yeni bir seviyeye taşımayı amaçlayan bir teknoloji göstericisi olan HC1'i duyurdu. Taalas, genel amaçlı AI bilgi işlem hızlandırıcılarındaki yazılımı kullanarak bir dil modeli çalıştırmak yerine, tabiri caizse modeli silikona dönüştürüyor. İlk ürün, üreticiye göre kullanıcı başına saniyede 17.000 jeton üretecek olan “kablolu” Llama 3.1 8B'dir.

Reklamdan sonra devamını okuyun

Taalas'a göre kalp, TSMC tarafından 6 nm işlemde (N6) ve 815 mm² kalıp alanında üretilen, yaklaşık 53 milyar transistöre sahip, uygulamaya özel bir mantık çipidir (ASIC).

Şirketin bir blog yazısında duyurduğu gibi bu, mevcut teknolojiden neredeyse on kat daha hızlı. Karşılaştırma için: Nvidia'nın kendi temel verilerine göre, Nvidia H200 aynı modelde saniyede yaklaşık 230 token elde ediyor. Yapay Analiz'in bağımsız kriterlerine göre, Cerebras gibi uzman çıkarım sağlayıcıları saniyede yaklaşık 1.936 token elde ediyor; bu da Taalas'ın talep ettiği değerin yaklaşık dokuzda biri kadar. SambaNova 916 token/s ile onu takip ederken, Groq 609 token/s ile onu takip ediyor.

Ancak rekabet uyumuyor: Nvidia, Aralık 2025'ten bu yana Groq'un teknolojisini lisanslıyor ve özel donanım alanında kendi konumunu güçlendirmek için tasarım ekibinin büyük bir bölümünü devraldı.

Taalas, aslında olağanüstü bir hızla yanıt veren “Jimmy” sohbet robotunu denemeye sunuyor; testte saniyede neredeyse 16.000 token elde edildi. Şirket henüz HC1 için bir fiyat açıklamadı. İlgilenen geliştiriciler bir çıkarım API'sine erişim için kaydolabilirler.

İki buçuk yıl önce kurulan start-up, üç temel prensibi takip ediyor: bireysel modellerde tam uzmanlaşma, hafıza ve bilgi işlem mantığının tek bir çip üzerinde birleştirilmesi ve tüm donanım yığınının radikal bir şekilde basitleştirilmesi. Taalas, belleği ve bilgi işlem gücünü DRAM'e özgü yoğunlukla tek bir yongada birleştirdiğini iddia ediyor. Bu, geleneksel çıkarım donanımlarında yaygın olan, yavaş çip dışı DRAM ile hızlı çip üzerinde bellek arasındaki ayrımı ortadan kaldırır.

Cerebras da bunu vaat ediyor ama bir levhanın tamamını kaplayan ve 15 kW gücü ısıya dönüştüren devasa Gofret Ölçeği Motorunu (WSE) inşa ediyor.

Reklamdan sonra devamını okuyun

Yaklaşım, büyük çip üreticilerinin şu anda benimsediklerinden temel olarak farklı. Nvidia, H200 gibi yapay zeka hızlandırıcıları için pahalı Yüksek Bant Genişlikli Belleğe (HBM), karmaşık paketleme teknolojisine ve son derece yüksek G/Ç veri aktarım hızlarına güveniyor.

Örneğin Google'ın TPU'su, Amazon'un Interentia'sı ve Microsoft'un yakın zamanda duyurulan Azure hızlandırıcısı Maia 200 de 7 TByte/s aktarım hızıyla 216 GB'a kadar HBM3E bellek kullanıyor. Her ne kadar Microsoft, yatırılan dolar başına Nvidia teknolojisine göre daha yüksek performans vaat etse de Maia aynı zamanda çeşitli yapay zeka modelleri için genel amaçlı bir hızlandırıcı olarak da tasarlandı.

Taalas, HC1'i yalnızca tek bir model için optimize ederek bu karmaşıklığı ortadan kaldırıyor. Sonuç olarak HBM, 3D yığınlama, sıvı soğutma ve yüksek hızlı I/O gerekmez.

Ancak bunun esneklik açısından bir bedeli var. HC1 büyük ölçüde donanımsal olarak donatılmıştır; çip yalnızca Llama 3.1 8B'yi çalıştırabilir, diğer modelleri çalıştıramaz.

Llama 3.1, yapay zeka silahlanma yarışında şimdiden etkileyici bir çağ olan 2024'ün ortalarında sunuldu. 8 milyar ağırlığa (8 trilyon, dolayısıyla Llama 3.1 8B) sahip kompakt versiyon, çok yavaş da olsa Raspberry Pi 5 üzerinde nicemlenmiş biçimde bile çalışır.

En azından Taalas'a göre bağlam penceresinin boyutu, düşük dereceli bir adaptör (LoRA) kullanılarak yapılandırılabilir ve ince ayar yapılabilir. Şirket ayrıca, ilk nesil silikonun, 6 bitlik parametrelerle birleştirilmiş özel bir 3 bitlik veri formatı kullandığını da kabul ediyor. Bu agresif nicemleme, daha yüksek hassasiyete sahip GPU kıyaslamalarıyla karşılaştırıldığında kalite açısından belirli kayıplara yol açar.

Taalas, haleflerini çok hızlı bir şekilde teslim etmeyi planlıyor. AI ASIC'ler için yalın, otomatik ve hızlı geliştirme süreci genç şirketin asıl hedefidir. Tenstorrent kurucuları Ljubisa Bajic ve Drago Ignjatovic tarafından başlatıldı. Her ikisi de daha önce uzun süre AMD'de çalışmış, Bajic de Nvidia'da çalışmıştı. Öne çıkan isimler nedeniyle – tanınmış çip geliştiricisi Jim Keller şu anda Tenstorrent'i yönetiyor – Taalas, AI sahnesinde büyük ilgi görüyor.

Yalnızca 24 ekip üyesi ilk ürünü gerçekleştirdi ve toplanan 200 milyondan fazla sermayenin 30 milyon ABD dolarını harcadı. 53 milyar transistörlü bir N6 çipi için 30 milyon dolarlık geliştirme maliyeti çok az. Genel amaçlı yapay zeka hızlandırıcılarının son derece yüksek fiyatları göz önüne alındığında, kurucular kazançlı bir pazar alanı bekliyorlar.

Taalas açıkça çiplerini veri merkezlerini hedef alıyor ve burada güç tüketiminin onda biri ile geleneksel GPU çıkarımından 20 kat daha düşük maliyetler vaat ediyor.

Aynı HC1 platformunu temel alan orta ölçekli bir akıl yürütme modelinin ilkbaharda Taalas laboratuvarlarına ulaşması ve kısa bir süre sonra çıkarım hizmeti olarak kullanıma sunulması bekleniyor.

Şirket daha sonra ikinci çip nesli HC2 ile öncü bir LLM uygulamayı planlıyor. HC2 platformunun standartlaştırılmış 4 bitlik kayan nokta formatlarını desteklemesi, daha yüksek paketleme yoğunluğu sunması ve daha da hızlı çalışması amaçlanmaktadır. Kış için bir dağıtım planlanıyor.

Taalas'ın bahsettiği performans verileri etkileyici ancak şu ana kadar yalnızca sınırlı ölçüde doğrulanabildi. Kriterler şirket içi testlerden alınmıştır; Üçüncü taraflardan bağımsız ölçümler henüz mevcut değildir.

Agresif nicelemenin neden olduğu kalite kayıplarının, özellikle basit sohbet konuşmalarının ötesinde daha karmaşık görevlerin pratikte nasıl etkileneceği de belirsizdir. Ayrıca, her yeni modelin kendi silikonunu üretmesi durumunda, modele özel çip konseptinin ekonomik olarak ölçeklenip ölçeklenmeyeceği de henüz bilinmiyor.

Taalas, eğitimli modellerin bulut bağlantısı olmadan doğrudan cihaz üzerinde çalıştığı “Edge AI” uygulamalarıyla ilgilenmiyor. Bunlar genellikle konuşma tanıma, ses kontrolü, gözetleme kameraları için video görüntülerinde nesne tanıma, radar sensörü değerlendirmesi veya gürültü analizi yoluyla makine izleme (kestirimci bakım) modelleridir. Bu, şu anda şaşırtıcı bir çeşitlilikte piyasaya çıkan 10 ila 90 Int8 üst kısmın bulunduğu Sinir İşleme Birimlerinin (NPU'lar) alanıdır: M5Stacks AI Pyramid-Pro, Raspberry Pi 5'i güçlendirmek için Hailo NPU'ları, Google Coral ve AMD Ryzen, Intel Panther Lake, Qualcomm Snapdragon, Mediatek Genio, Rockchip gibi x86 ve ARM işlemcilerin gömülü sürümleri ve ayrıca SpacemiT K3 gibi RISC-V SoC'ler. Avrupalı ​​otomotiv mikrodenetleyici uzmanları Infineon, STMicroelectronics ve NXP'nin tümü, TI ve Renesas gibi yerleşik NPU'lara sahip yongalar sunuyor.

Ayrıca okuyun


(vza)


Yayımlandı

kategorisi

yazarı:

Etiketler:

Yorumlar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir