Apple video yapay zekasına farklı bir yaklaşım deniyor

Apple'ın yapay zeka departmanının yönetimi şu anda yeniden yapılandırılırken, ekibin araştırmacıları, en azından profesyonel dünyada heyecan yaratan yeni bir video yapay zeka modeli yayınladı. STARFlow-V, çok yaygın olan difüzyon modellerinin alışılagelmiş yolunu terk ediyor. Bunun yerine araştırmacılar, şu ana kadar video üretiminde çok az rol oynayan bir teknoloji olan normalleştirme akışlarını kullanıyor.

Reklamdan sonra devamını okuyun

Github'daki proje sayfasında oluşturulan örneklere bakarsanız, STARFlow-V'yi benzer yapay zeka modellerinden ayıran şeyin ne olduğunu hızlı bir şekilde göreceksiniz: Model, kısa videoları çok daha gerçekçi ve istemde belirlenen gereksinimlere daha yakın bir şekilde oluşturuyor. Diğerleri açıklanamaz bir şekilde yanıp sönerken, çarpıcı derecede gerçekçi görünmese veya bozulma gibi tipik AI efektleri gösterirken, Apple modeli sağlam bir kalite sunuyor. Her ne kadar videolar sadece 480p çözünürlüğe sahip olsa da Apple'ın buradaki asıl kaygısı, günlük kullanıma uygun bir model sunmaktan çok, yapılabilirliğini kanıtlamak gibi görünüyor.

7 milyar parametreli model, metin açıklamalarından videolar oluşturabilir, hareketsiz görüntüleri videolara genişletebilir ve mevcut videoları düzenleyebilir. Araştırmacılar STARFlow-V'yi 70 milyon metin-video çifti ve ek olarak 400 milyon metin-görüntü çifti üzerinde eğitti. Model, saniyede 16 kare hızında 480p çözünürlükte ve segment başına 5 saniyeye kadar uzunlukta videolar üretiyor.

Kademeli uzatma yoluyla daha uzun videolar oluşturulur: 5 saniyelik bir bölümün sonu, bir sonrakinin başlangıç ​​noktası görevi görür. Proje sayfasında Apple, 30 saniyeye kadar uzunlukta örnekler gösteriyor. Sıradışı mimarinin gücü tam da burada ortaya çıkıyor. Çünkü yayılma modelleriyle karşılaştırıldığında akışların normalleştirilmesiyle oluşturulan videolar matematiksel olarak geri döndürülebilir. Bu nedenle model, oluşturulan bir videonun olasılığını hassas bir şekilde hesaplayabilir, giriş görüntüleri ve uçtan uca doğrudan trenler için ayrı bir kodlayıcı gerektirmez.

Reklamdan sonra devamını okuyun

Başka bir fark: STARFlow-V, videoları kesinlikle otoregresif olarak, yani kronolojik sırayla kare kare oluşturur, böylece daha sonraki kareler öncekileri etkileyemez. Öte yandan standart difüzyon modelleri genellikle tüm çerçevelerin paralel olarak gürültüsünü giderir.

Araştırmacılar ayrıca modele “küresel-yerel mimari” de verdiler: Birkaç saniye süren kaba zamansal ilişkiler kompakt bir küresel alanda işlenirken, bireysel çerçevelerdeki ince ayrıntılar yerel olarak işleniyor. Bunun amacı, küçük hataların daha uzun dizilerde artmasını ve kendi hayatlarını geliştirmelerini önlemektir.

STARFlow-V, hızlanma için “video duyarlı Jacobian yinelemesine” dayanır: Her değeri birbiri ardına ayrı ayrı hesaplamak yerine, birkaç blok paralel olarak işlenir. Yeni bir bölümün ilk çerçevesi bir öncekinin son çerçevesinden geliştirilir. Apple'a göre sistem, standart otoregresyona kıyasla önemli bir hızlanma sağlıyor.

VBench'teki kıyaslamalarda STARFlow-V, mevcut yayılma modellerine ayak uydurabilecek değerlere ulaşıyor ancak yine de Google'dan Veo 3 veya Runway'den Gen-3 gibi ticari sistemlerin oldukça gerisinde kalıyor.

Ancak Apple'ın modelinde de bir şeyler ters gidiyor: Camın içindeki ahtapot duvardan geçiyor ve bir hamster şeffaf hamster çarkında sanki bu dünyadan gelmemiş gibi koşuyor. Optimizasyonlara rağmen çıkarım hızı hala gerçek zamanlı olmaktan uzaktır.

Apple'ın modelle ne yapmak isteyebileceği de belirsizliğini koruyor: Örneğin, küçük boyutundan dolayı cihazlarda yerel olarak kullanılması düşünülebilir. Sanal veya artırılmış gerçeklik için bir dünya modeli olarak kullanılması da düşünülebilir. Ve son olarak, Apple'ın robot bilimindeki söylentilere konu olan tutkuları için de yararlı olabilir.

İlgilenenler kodu GitHub'da görüntüleyebilir. Modelle ilgili bir makale de orada mevcuttur.


(mki)


Yayımlandı

kategorisi

yazarı:

Etiketler:

Yorumlar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir