Google Gemini Omni: nedir ve yeni video AI modeli nasıl çalışır?

İkizler Omni bu bir model Google kendisini Big G tarafından geliştirilen en gelişmiş yapay zeka modeli olan Gemini'nin akıl yürütme yeteneği ile medya üretimi arasındaki buluşma noktası olarak sunuyor.

Google'ın kullandığı formül şudur: “herhangi bir girdiden herhangi bir şey yaratın“yani metinden görsele, videodan sese kadar her türden içerik üretmek. Şimdilik ilk odak noktası video üretimi.

Mountain View şirketi için Gemini, ileriye doğru atılmış bir adımı temsil ediyor “dünya modeli”yani kendisini içerik üretmekle sınırlamayan, aynı zamanda fiziksel dünyanın çeşitli yönlerini simüle etmeye ve anlamaya çalışan bir sistem.

Basit bir ifadeyle nasıl çalışır?

Omni, tek bir metin istemiyle başlamak yerine bir dizi malzeme kombinasyonuyla çalışır. Kullanıcı buna yazılı bir açıklama, referans görseli, video klip, ses dosyası veya birden fazla öğeyi birlikte verebilir. Model, bu girdileri doğal olarak analiz eder, yani bunları ayrı parçalar olarak ele almaz ve tutarlı bir sonuç oluşturmak için Gemini'nin dünyaya ilişkin bilgisini kullanır.

Onu, senkronize ses ile gerçekçi videoların oluşturulmasına izin veren ilk model olan önceki model Veo'dan ayırmak için Google, Omni'nin kendisini hareketli görüntüler üretmekle sınırlamadığı, sezgisel fizik, kültürel bağlam, tarihsel bilgi ve sahnenin mantığını birbirine bağlamaya çalıştığı konusunda ısrar ediyor. Temelde buna benzer şekilde çalışır Nano BanaMountain View şirketinin popüler görüntü oluşturma modeli.

Bunun nedeni bu DerinZihinGoogle'ın öncü yapay zeka üzerinde çalışan ekibi, modelin basit fotogerçekçilikten daha anlamlı hikaye anlatıcılığına geçme kapasitesine sahip olduğunu belirtiyor. Başka bir deyişle sistem, yalnızca kullanıcının ne paylaştığını değil, aynı zamanda bu materyalin nasıl inandırıcı veya anlatı açısından anlamlı bir sahneye dönüştürülebileceğini de anlamayı vaat ediyor.

Mountain View'da Big G'nin yapay zeka alanındaki yeniliklerini sergilediği etkinlik olan Google I/O'da sahnede gösterilen bir örnekte, videoda yakalanan metal bir yapı, baloncuklardan yapılmış gibi görünecek şekilde değiştiriliyor. Bu, ürünün yönünü anlamaya yardımcı olur: Omni, doğrusal bir oluşturucunun ötesinde, doğal dil odaklı görsel-işitsel bir manipülasyon sistemi olmayı hedefler.

Düzenlemede konuşmanın rolü

Gemini Omni, “tek atış” jeneratörü olarak, yani tek bir istem ve nihai sonuçla sunulmuyor. Google bunu bir konuşma düzenleme aracı olarak sunar. Bu, ilk nesilden sonra çekimleri, atmosferi, diyalogları veya sahnenin diğer unsurlarını değiştirmek için modelle konuşmaya devam edebileceğiniz anlamına gelir. Ancak düzenleme yeni bir şey değil: Birçok yapay zeka tabanlı araç, doğal dil düzenlemesine izin veriyor.

Bu, deneyimi klasik düzenleme yazılımından ziyade diyaloğa yaklaştıran bir yaklaşımdır. Başlangıçta her şeyi son derece hassas bir şekilde ayarlamanız gerekmez. Gemini Omni yönlendirme kılavuzundaki DeepMind, kullanıcının istenen efekti (örneğin gerçekçi veya sinematik) belirtebileceğini ve modelin birçok ara ayrıntıyı çözmesini sağladığını öne sürüyor.

Çünkü Google, bunun önceki araçlardan farklı olduğunu düşünüyor

Son yıllarda üretken modeller oldukça ayrı kategorilere ayrıldı: sohbet robotları, görüntü oluşturucular, video sistemleri, ses modelleri. Gemini Omni bu aileleri tek bir yaratıcı iş akışında birleştirmeye çalışıyor. Buradaki fikir, muhakeme ve üretmenin artık iki farklı aşama değil, aynı sistemin iki yeteneği olduğudur.

Geleneksel olanla karşılaştırıldığında fark videoya yönlendirme eski bir modelin kullanıcı tarafından tanımlanan bir sahneyi gerçeğe dönüştürmeye çalışmasıdır. En azından Google'a göre Omni'de model, boşlukları doldurmak, kullanıcı amacını daha iyi yorumlamak ve girdi öğeleri arasında daha fazla tutarlılık sağlamak için gerçek dünya bilgisini ve çok modlu anlayışı kullanıyor.

Somut olarak ne üretiyor?

Şu anda Omni'nin arkasındaki model Gemini Omni Flash'tır: metin, resim, ses ve video girişini kabul eder ve sesli yüksek çözünürlüklü video üretir. Maksimum on saniye.

Google ayrıca Omni'yi yapay zeka destekli video oluşturma platformu Flow'a da bağlıyor. Şirket, Google I/O'da Google Flow ve Flow Music için, bu araçların gelişiminin bir parçası olarak Gemini Omni de dahil olmak üzere yeni işlevler duyurdu.

Nerede kullanılır ve kimler deneyebilir?

Gemini Omni, Google AI planlarına abonelerin kullanımına sunuluyor ve Gemini ve Google Flow gibi deneyimlere entegre ediliyor. DeepMind ayrıca kullanıcıların bunu Gemini ve Google Flow'da deneyebileceğini belirtirken, Google AI planları sayfasında aboneler için küresel dağıtımdan bahsediliyor.

Bu da demek oluyor ki Google ekosisteminin temel bir işlevi olarak en azından şimdilik ayrım gözetmeksizin herkese açık bir model gibi görünmüyor. Google'ın Gemini'yi basit bir asistandan daha geniş bir yaratıcı ve operasyonel platforma dönüştürmeye çalıştığı premium paketin bir parçası.


Yayımlandı

kategorisi

yazarı:

Etiketler:

Yorumlar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir