ChatGPT'nin yeni resim modeli makalemi el yazısına dönüştürdü

Smart Answers AI tarafından oluşturulan özet

Özetle:

PCWorld, ChatGPT'nin, el yazısı stilleri de dahil olmak üzere yapay zeka tarafından oluşturulan görsellerdeki metinlerin işlenmesinde dikkate değer bir doğruluk sergileyen yeni Images 2.0 modelini test etti.
Yükseltilmiş model artık tüm kullanıcılara sunuluyor ve web araması, infografik oluşturma ve Latin alfabesi dışındaki alfabeler de dahil olmak üzere çoklu dil desteği gibi gelişmiş yetenekler sunuyor.
Images 2.0'ın gelişmiş metin oluşturma özelliği, mükemmel metin doğruluğuyla kataloglar, storyboard'lar ve ayrıntılı teknik belgeler oluşturmaya yönelik pratik uygulamalara kapı açar.

Görüntü oluşturma modellerinin beceriksiz metinlerle ilgili uzun bir geçmişi vardır. Ancak bozuk harfler eskiden yapay zekanın açık bir göstergesi olsa da ChatGPT'nin yeni görüntü oluşturma aracı, metin oluşturma konusunda şimdiye kadar gördüğüm en iyi araç.

ChatGPT'nin Görüntüler 2.0 modelinden (ücretsiz katmandakiler de dahil olmak üzere artık tüm ChatGPT kullanıcılarının kullanımına açık) yakın tarihli bir hikayemden bir miktar metin alıp onu sarı bir not defterine kurşun kalemle çizmesini istedim ve bu bana oldukça mükemmel görünüyor:

Ben Patterson/Dökümhane

Ayrıca yapay zeka tokenleri hakkında bir infografik oluşturmasını ve ona ilk olarak doğru bilgi için web'de arama yapması ve yatay 3:2 en boy oranında bir serif yazı tipi kullanması talimatını vermesini istedim. İşte elde ettiklerim:

Ben Patterson/Dökümhane

Daha sonra Images 2.0'ı başka bir infografik oluşturmakla görevlendirdim; bu kez çeşitli Raspberry Pi modellerini teknik özellikler ve diğer ayrıntılarla birlikte detaylandırıyorum:

Ben Patterson/Dökümhane

Son olarak, modelden havuz başında bir fotoğrafımı çekmesini ve başrolde benim yer aldığım bir yaz kıyafetleri listesi oluşturmasını istedim:

Ben Patterson/Dökümhane

OpenAI, Images 2.0'ın “düşünme” yeteneklerine sahip ilk görüntü oluşturma modeli olduğunu söylüyor; bu, doğrudan dalmadan önce durup bir görüntü istemi üzerinde düşünebileceği anlamına geliyor.

Metin söz konusu olduğunda Images 2.0, Japonca, Korece, Çince, Hintçe, Bengalce ve Latince olmayan metinlerin kullanıldığı diğer diller de dahil olmak üzere çeşitli dilleri destekler.

Ayrıca görüntüleri oluşturmadan önce gerçek zamanlı bilgi için web'de arama yapabilir ve tek çekimde birden fazla görüntü oluşturabilir; katalog görüntüleri, çizgi roman tarzı paneller ve storyboard'lar oluşturmak için idealdir.

OpenAI, Images 2.0'ın “benzeri görülmemiş düzeyde bir özgüllük ve aslına uygunluk” sunacağının sözünü veriyor; bu, (umarız) hızlı uyumda, yani istemlerinizi harfi harfine takip eden görüntüler oluştururken daha iyi bir iş çıkaracağı anlamına geliyor.

Bu düzeyde bir doğrulukla, Görüntüler 2.0, görüntü üreten modeller hakkında uzun zamandır sorduğum soruya bir yanıt sunabilir: Aptal memler veya tüyler ürpertici deepfake'ler oluşturmak dışında ne işe yararlar? Gerçek, pratik uygulama nedir?

Neredeyse anında dizgi, infografik oluşturma ve katalog oluşturma çözümlerden bazıları olabilir, ancak bir yazım hatasını düzeltmek görüntünün tamamen yeniden oluşturulmasını gerektirecektir.

Ayrıca, Görüntüler 2.0 ile ne kadar çok deneme yaparsanız (sadece bir saat kadardır onunla oynuyorum), oluşturulan görüntülerin o kadar aynı görünmesi mümkündür; bu nedenle, dümende tasarım konusunda yetenekli, becerikli bir insan yönlendiriciye ihtiyacınız olacaktır.

ChatGPT'nin yeni resim modeli makalemi el yazısına dönüştürdü

Özetle:

Yorumlar

Bir yanıt yazın Yanıtı iptal et