Apple video yapay zekasına farklı bir yaklaşım deniyor

Apple'ın yapay zeka departmanının yönetimi şu anda yeniden yapılanma aşamasındayken ekibin araştırmacıları, en azından profesyonel dünyada heyecan yaratan yeni bir video yapay zeka modeli yayınladı. STARFlow-V, çok yaygın olan difüzyon modellerinin iyi bilinen yolundan çıkıyor. Araştırmacılar bunun yerine, şu ana kadar video üretiminde sınırlı bir rol oynayan bir teknoloji olan normalleştirme akışlarını kullanıyor.

Duyurudan sonra devamını okuyun

Github'daki proje sayfasında oluşturulan örneklere bakarsanız, STARFlow-V'yi benzer yapay zeka modellerinden ayıran şeyin ne olduğunu hızlı bir şekilde göreceksiniz: model, kısa videoları çok daha gerçekçi ve istemde belirlenen gereksinimlere daha yakın bir şekilde üretiyor. Diğerleri açıklanamaz bir şekilde titreşirken, çarpıcı derecede gerçekçi görünmüyorken veya bozulma gibi tipik AI efektleri sergilerken, Apple modeli sağlam bir kalite sunuyor. Her ne kadar videolar sadece 480p çözünürlükte olsa da Apple'ın asıl kaygısı günlük kullanıma uygun bir model sunmaktan çok, yapılabilirliğini kanıtlamak gibi görünüyor.

7 milyar parametreli model, metin açıklamalarından videolar oluşturabilir, hareketsiz görüntüleri videolara genişletebilir ve mevcut videoları düzenleyebilir. Araştırmacılar STARFlow-V'yi 70 milyon metin-video çifti ve 400 milyon metin-görüntü çifti üzerinde eğitti. Model, saniyede 16 kare hızında ve segment başına 5 saniyeye kadar süreyle 480p çözünürlükte videolar üretiyor.

Kademeli uzatma yoluyla daha uzun videolar oluşturulur: 5 saniyelik bir bölümün sonu, bir sonrakinin başlangıç ​​noktası görevi görür. Proje sayfasında Apple, 30 saniyeye kadar uzunlukta örnekler gösteriyor. Sıra dışı mimarinin gücü tam da burada ortaya çıkıyor. Çünkü difüzyon modelleriyle karşılaştırıldığında normalleştirilmiş akışlarla oluşturulan videolar matematiksel olarak geri döndürülebilir. Bu nedenle model, oluşturulan bir videonun olasılığını hassas bir şekilde hesaplayabiliyor, giriş görüntüleri için ayrı bir kodlayıcı gerektirmiyor ve doğrudan uçtan uca eğitim veriyor.

Duyurudan sonra devamını okuyun

Başka bir fark: STARFlow-V, videoyu kesinlikle otoregresif bir şekilde, yani kronolojik sırayla kare kare üretir, böylece sonraki kareler öncekileri etkileyemez. Öte yandan standart yayılma modelleri genellikle paralel olarak tüm karelerdeki gürültüyü ortadan kaldırır.

Araştırmacılar ayrıca modele “küresel-yerel mimari” de verdiler: Birkaç saniye süren kaba zamansal ilişkiler kompakt bir küresel alanda işlenirken, bireysel çerçevelerdeki ince ayrıntılar yerel olarak işleniyor. Bunun amacı, küçük hataların daha uzun dizilere dönüşmesini ve kendi hayatlarını geliştirmelerini önlemektir.

STARFlow-V, hızlanma için “videoya duyarlı Jacobian yinelemesine” dayanır: her değeri birbiri ardına ayrı ayrı hesaplamak yerine, birkaç blok paralel olarak işlenir. Yeni bir bölümün ilk çerçevesi bir öncekinin son çerçevesinden geliştirilir. Apple'a göre sistem, standart otoregresyona kıyasla önemli bir hızlanma sağlıyor.

VBench'teki kıyaslamalarda STARFlow-V, mevcut dağıtım modellerine ayak uydurabilecek değerlere ulaşıyor ancak yine de Google'ın Veo 3 veya Runway'in Gen-3'ü gibi ticari sistemlerin oldukça gerisinde kalıyor.

Ancak Apple modelinde bile bir şeyler ters gidiyor: Camdaki ahtapot duvarın içinden geçiyor ve bir hamster şeffaf hamster çarkında sanki bu dünyadan değilmiş gibi koşuyor. Optimizasyonlara rağmen çıkarım hızı hala gerçek zamanlı olmaktan uzak.

Apple'ın modelle ne yapmak isteyebileceği de belirsizliğini koruyor: Küçük boyutundan dolayı cihazlarda yerel kullanım düşünülebilir. Sanal veya artırılmış gerçeklik için küresel bir model olarak kullanılması da düşünülebilir. Ve son olarak Apple'ın robotik alanındaki iddia edilen hedefleri için de yararlı olabilir.

İlgilenenler kodu GitHub'da görüntüleyebilir. Modelle ilgili bir belge de orada mevcut.


(mki)


Yayımlandı

kategorisi

yazarı:

Etiketler:

Yorumlar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir