Yapay zeka (AI) tarafından oluşturulan görüntülerin FLURRY'si, tamamen modern bir aracın ürünü gibi geliyor. Aslında bilgisayarlar onlarca yıldır şövalenin başındaydı. 1970'lerin başında bir sanatçı olan Harold Cohen, eski bir yapay zeka sistemini kullanarak çizim yapmayı öğretti. “AARON” bir robota kağıda siyah-beyaz şekiller çizmesi talimatını verebilir; Cohen on yıl içinde AARON'a insan figürleri çizmeyi öğretti.
Günümüzün “üretken yapay zeka” modelleri fırçayı sanal kağıda koyun: Midjourney ve OpenAI'nin DALL-E'si gibi halka açık uygulamalar, metin istemlerine göre saniyeler içinde görüntüler oluşturur. Nihai ürünler genellikle insanları kandırır. Mart ayında Donald Trump'ın polis tarafından kelepçelendiğini gösteren AI tarafından oluşturulan görüntüler internette yayıldı. Görüntü oluşturucular da hızla gelişiyor. Nasıl çalışıyorlar ve zanaatlarını nasıl geliştiriyorlar?
Üretken yapay zeka modelleri, insan beyninin yapısını gevşek bir şekilde taklit eden birbirine bağlı düğüm katmanlarını kullanan bir yazılım tekniği olan bir tür derin öğrenmedir. Görüntü oluşturucuların arkasındaki modeller devasa veri kümeleri üzerinde eğitiliyor: Halka açık en büyük model olan LAION-5B, 5,85 milyar etiketli görüntü içeriyor. Veri kümeleri genellikle sosyal medya platformları, stok fotoğraf kütüphaneleri ve alışveriş siteleri dahil olmak üzere internetten alınır.
En gelişmiş görüntü oluşturucular genellikle yayılma modeli olarak bilinen bir tür üretken yapay zeka kullanır. Veri kümesindeki görüntülere bozucu görsel “gürültü” ekleyerek, resimler tamamen kararıncaya kadar, onları hâlâ statik nedeniyle kesintiye uğrayan analog bir TV gibi gösteriyorlar. Karışıklığın nasıl düzeltileceğini öğrenen model, orijinaline benzer bir görüntü üretebilir. Belirli görsel kavramlara karşılık gelen piksel gruplarını tanımada daha iyi hale geldikçe, bu bilgiyi “gizli alan” olarak bilinen matematiksel bir kod cebinde sıkıştırmaya, kategorilere ayırmaya ve depolamaya başlar.
Diyelim ki bir jeneratör uygulamasından bir su aygırı resmi oluşturmasını istiyorsunuz. Hangi tür piksel düzenlemelerinin “su aygırı” kelimesiyle ilişkili olduğunu öğrenen bir model (soldaki resme bakın), memelinin gerçekçi bir görüntüsünü oluşturmak için gizli alanından örnek alabilmelidir. Bilgi istemine daha fazla ayrıntı eklemek (örneğin, “Nil nehri boyunca bir yerlerde, yeşil bir su aygırının rönesans döneminden kalma yağlı boya tablosu” (sağdaki resme bakın)) modelin, görüntü stili gibi ek görsel ayrıntı katmanları elde etmesini gerektirir. , doku, renk ve konum ve bunları doğru bir şekilde birleştirmek.
Karmaşık istemlere verilen yanıtlar, özellikle istem açıkça ifade edilmemişse veya tanımladığı sahne eğitim veri setinde iyi temsil edilmiyorsa düzensiz olabilir. Görünüşte basit ücretler bile modelleri şaşırtabilir. İnsan elleri genellikle eksik veya fazla parmaklarla veya fizik kurallarını esnetecek oranlarda tasvir edilir. Eller genellikle fotoğraflarda yüzlerden daha az belirgin olduğundan, yapay zeka modellerinin tekniklerini geliştirebilecekleri daha küçük veri kümeleri vardır. Tehlikeli yüz simetrisi (özellikle gözler, dişler ve kulaklar arasındaki renk ve şekil tutarsızlıkları) bir makinenin çalıştığının bir başka işaretidir. Ve görüntü oluşturucular metinle uğraşır ve çoğu zaman var olmayan harfler veya hayali kelimeler yaratır.
Geliştiriciler, öğrendikleri veri kümelerini iyileştirerek veya algoritmalarda ince ayar yaparak modellerin hatalarından ders almasına yardımcı olabilir. Midjourney, el oluşturma şeklini iyileştirmek için yakın zamanda güncellendi. Hızlı gelişmeler, yapay zeka tarafından oluşturulan bir görüntüyü gerçek bir fotoğraftan veya tablodan ayırmanın yakında imkansız hale gelebileceği anlamına geliyor.
© 2023, The Economist Gazetesi Limited. Her hakkı saklıdır. The Economist'ten lisanslı olarak yayınlandı. Orijinal içeriğe www.economist.com adresinden ulaşılabilir.
HT Premium Aboneliği ile okumaya devam edin
Günlük E Paper I Premium Makaleler I Brunch E Magazine I Günlük İnfografikler

Bir yanıt yazın