Yapay zeka ile ilgili temel sorunlardan biri, özellikle medya üretimi gibi görevler için kötü şöhretli yüksek güç ve bilgi işlem talebidir. Cep telefonlarında, doğal olarak çalışmaya gelince, güçlü silikonlu sadece bir avuç pahalı cihaz özellik süitini çalıştırabilir. Bulut üzerinde ölçekte uygulandığında bile, pahalı bir olaydır.
Nvidia, Massachusetts Teknoloji Enstitüsü ve Tsinghua Üniversitesi'ndeki insanlarla ortaklaşa bu zorluğu sessizce ele almış olabilir. Ekip, esasen en yaygın kullanılan AI görüntü oluşturma tekniklerinden ikisini birleştiren Hart (hibrid otoregresif transformatör) adlı hibrid bir AI görüntü oluşturma aracı oluşturdu. Sonuç, önemli ölçüde daha düşük hesaplama gereksinimine sahip yanan bir hızlı araçtır.
Size ne kadar hızlı olduğu hakkında bir fikir vermek için, bir bas gitar çalan bir papağan görüntüsü oluşturmasını istedim. Yaklaşık bir saniyede aşağıdaki resimle döndü. İlerleme çubuğunu neredeyse hiç takip edemedim. Aynı istemi Gemini'deki Google'ın Imagen 3 modelinden önce ittiğimde, 200 Mbps internet bağlantısında yaklaşık 9-10 saniye sürdü.
Büyük bir atılım
AI görüntüleri ilk kez dalgalar yapmaya başladığında, difüzyon tekniği her şeyin arkasındaydı, Openai'nin Dall-E görüntü jeneratörü, Google'ın Imagen ve kararlı difüzyon gibi ürünleri güçlendirdi. Bu yöntem, son derece yüksek bir detay seviyesine sahip görüntüler üretebilir. Bununla birlikte, AI görüntüleri oluşturmak için çok aşamalı bir yaklaşımdır ve sonuç olarak yavaş ve hesaplamalı olarak pahalıdır.
Son zamanlarda popülerlik kazanan ikinci yaklaşım, esasen Chatbots ile aynı şekilde çalışan ve bir piksel tahmin tekniği kullanarak görüntüler üreten otomatik regresif modellerdir. Yapay zeka kullanarak görüntü oluşturmak için daha hızlı, aynı zamanda daha hataya eğilimli bir yöntem.
MIT'deki ekip her iki yöntemi de Hart adlı tek bir pakete dönüştürdü. Sıkıştırılmış görüntü varlıklarını ayrı bir jeton olarak tahmin etmek için bir otoregresyon modeline dayanırken, küçük bir difüzyon modeli kalite kaybını telafi etmek için geri kalanını işler. Genel yaklaşım, iki düzineden sekiz adımdan fazla olan adım sayısını azaltır.
HART'ın arkasındaki uzmanlar, “son teknoloji difüzyon modellerinin kalitesine uyan veya aşan görüntüler üretebileceğini, ancak bunu yaklaşık dokuz kat daha hızlı yapan” olduğunu iddia ediyor. Hart, otoregresif bir modeli 700 milyon parametre aralığı ve 37 milyon parametreyi işleyebilen küçük bir difüzyon modeli ile birleştirir.
Maliyet-bilgisayar krizinin çözülmesi
İlginç bir şekilde, bu hibrid araç, üst raf modellerinin kalitesini 2 milyar parametre kapasitesiyle eşleştiren görüntüler oluşturabildi. En önemlisi, Hart bu kilometre taşını dokuz kat daha hızlı bir görüntü üretim hızında elde edebildi ve% 31 daha az hesaplama kaynağı gerektirdi.
Takıma göre, düşük komplo yaklaşımı Hart'ın telefonlarda ve dizüstü bilgisayarlarda yerel olarak çalışmasına izin veriyor, bu da büyük bir kazanç. Şimdiye kadar, ChatGPT ve Gemini gibi en popüler kitlesel pazar ürünleri, bilgi işlem bulut sunucularında gerçekleştiğinden görüntü oluşturma için bir internet bağlantısı gerektirir.
Test videosunda ekip, Intel'in çekirdek seri işlemcisi ve bir NVIDIA Geforce RTX grafik kartı ile bir MSI dizüstü bilgisayarda yerel olarak çalıştığını sergiledi. Bu, bir servet harcamadan oyun dizüstü bilgisayarlarının çoğunda bulabileceğiniz bir kombinasyon.
Hart, saygın bir 1024 x 1024 piksel çözünürlükte 1: 1 en boy oranı görüntüleri üretebilir. Bu görüntülerdeki ayrıntı seviyesi etkileyici ve stilistik varyasyon ve manzara doğruluğu da öyle. Testleri sırasında ekip, hibrid AI aracının üç ila altı kat daha hızlı herhangi bir yerde olduğunu ve yedi kat daha yüksek verim sunduğunu belirtti.
Gelecekteki potansiyel, özellikle Hart'ın görüntü yeteneklerini dil modelleriyle entegre ederken heyecan vericidir. “Gelecekte, belki de bir parça mobilya monte etmek için gereken ara adımları göstermesini isteyerek birleşik bir görme dili üretken modeliyle etkileşime girebilir” diyor.
Zaten bu fikri araştırıyorlar ve hatta Hart yaklaşımını ses ve video üretiminde test etmeyi planlıyorlar. MIT'in Web Gösterge Tablosunda deneyebilirsiniz.
Bazı pürüzlü kenarlar
Kalite tartışmasına dalmadan önce, Hart'ın hala ilk aşamalarında olan bir araştırma projesi olduğunu unutmayın. Teknik tarafta, çıkarım ve eğitim süreci sırasında ekibin vurgulanması gibi birkaç sorun var.
Zorluklar düzeltilebilir veya gözden kaçabilir, çünkü buradaki şeylerin daha büyük şemasında küçükler. Dahası, Hart'ın hesaplama verimliliği, hız ve gecikme açısından sunduğu saf faydalar göz önüne alındığında, herhangi bir önemli performans sorununa yol açmadan devam edebilirler.
Kısa süremde Hart'ı hızlı bir şekilde test ettim, görüntü üretim hızından şaşkındım. Ücretsiz web aracının bir görüntü oluşturmak için iki saniyeden fazla sürdüğü bir senaryo ile karşılaştım. Üç paragraf (kabaca 200 kelimeden fazla uzunluğunda) olan istemlerle bile, Hart açıklamaya sıkıca yapışan görüntüler oluşturabildi.
Tanımlayıcı doğruluğun yanı sıra, görüntülerde bol miktarda ayrıntı vardı. Bununla birlikte, Hart bir AI görüntü üreticisi aracının tipik arızalarından muzdariptir. Rakamlar, yiyecek yemekleri yemek, karakter tutarlılığı ve perspektif yakalamada başarısız olmak gibi temel tasvirlerle mücadele eder.
İnsan bağlamında fotorializm, göze çarpan başarısızlıkları fark ettiğim bir alandır. Birkaç kez, bir yüzüğü bir kolye ile karıştırması gibi temel nesneler kavramını yanlış hale getirdi. Ancak genel olarak, bu hatalar çok, az ve temelde bekleniyor. Sağlıklı bir grup AI aracı, bir süredir orada olmasına rağmen, hala doğru yapamıyor.
Genel olarak, özellikle Hart'ın muazzam potansiyeli nedeniyle heyecanlıyım. MIT ve NVIDIA'nın BT'den bir ürün oluşturup oluşturmadığını veya mevcut bir üründeki hibrid AI görüntü oluşturma yaklaşımını benimseyip benimsemelerini görmek ilginç olurdu. Her iki durumda da, çok umut verici bir geleceğe bir bakış.

Bir yanıt yazın