Sesi temizlemek genellikle zaman çizelgelerini temizlemek ve filtrelerde ince ayar yapmak anlamına gelir, ancak Meta bunun istediğiniz sesi tanımlamak kadar kolay olması gerektiğini düşünüyor. Şirket, basit metin komutlarını kullanarak karmaşık bir kayıttan hemen hemen her sesi izole edebilen, SAM Audio adında yeni bir açık kaynaklı yapay zeka modeli yayınladı.
Kullanıcılar, karmaşık düzenleme yazılımına gerek kalmadan, sesler, enstrümanlar veya arka plan sesleri gibi belirli sesleri çıkarabilirler. Model artık Meta'nın diğer istem tabanlı görüntü ve video düzenleme araçlarını barındıran Segment Her Şeyi Oyun Alanı aracılığıyla edinilebilir.
Genel anlamda SAM Audio, hangi sesle çalışmak istediğinizi anlamak ve onu diğer her şeyden temiz bir şekilde ayırmak için tasarlanmıştır. Meta, bunun müzik prodüksiyonu, podcasting, film ve televizyon, erişilebilirlik araçları ve araştırma gibi kullanım durumları için daha hızlı ses düzenlemenin kapısını açtığını söylüyor.
Örneğin bir içerik oluşturucu, modelin neyi hedeflemesini istediğini açıklayarak vokalleri bir grup kaydından ayırabilir, bir podcast'teki trafik gürültüsünü kaldırabilir veya mükemmel bir kayıttan havlayan bir köpeği silebilir.
SAM Ses nasıl çalışır?
SAM Audio, üç farklı türde istemi destekleyen çok modlu bir modeldir. Kullanıcılar bir sesi metin kullanarak tanımlayabilir, izole etmek istedikleri sesi görsel olarak tanımlamak için videodaki bir kişiye veya nesneye tıklayabilir veya sesin ilk göründüğü zaman aralığını işaretleyebilir. Bu istemler tek başına veya bir arada kullanılabilir ve kullanıcılara nelerin ayrılacağı konusunda ayrıntılı kontrol sağlar.
Kaputun altında sistem, Meta'nın Perception Encoder Görsel-İşitsel motoruna dayanıyor. Modelin, sesleri karışımdan ayırmadan önce tanıma ve anlama yeteneği gibi davranır.
Meta, ses ayırma değerlendirmesini geliştirmek için modellerin konuşma, müzik ve ses efektlerini ne kadar iyi işlediğini ölçen bir kıyaslama olan SAM Audio-Bench'i de tanıttı. Buna, karşılaştırılacak referans parçalar olmasa bile, ayrılmış ses seslerinin insan dinleyiciler için ne kadar doğal ve doğru olduğunu değerlendiren SAM Audio Judge eşlik ediyor.
Meta, bu değerlendirmelerin, SAM Audio'nun farklı istem türleri birleştirildiğinde en iyi performansı gösterdiğini ve sesi gerçek zamanlıdan daha hızlı, hatta geniş ölçekte işleyebildiğini gösterdiğini iddia ediyor.
Bununla birlikte, modelin açık sınırlamaları vardır. Ses tabanlı yönlendirmeleri desteklemez, herhangi bir yönlendirme olmadan tam ayırma gerçekleştiremez ve tek bir sesi korodan ayırmak gibi benzer örtüşen seslerle mücadele eder.
Meta, bu alanları iyileştirmeyi planladığını ve halihazırda işitme cihazı üreticileri ve engelli insanları destekleyen kuruluşlarla erişilebilirlik çalışmaları da dahil olmak üzere gerçek dünyadaki uygulamaları araştırdığını söylüyor.
SAM Audio'nun piyasaya sürülmesi, Meta'nın daha geniş yapay zeka desteğiyle bağlantılıdır. Şirket, gürültülü ortamlar için yapay zeka gözlüklerinde ses netliğini iyileştiriyor, 2027'de gelmesi beklenen yeni nesil karma gerçeklik gözlükleri üzerinde çalışıyor ve ChatGPT'ye rakip olabilecek bir konuşma yapay zekası geliştiriyor; bu da ses, bağlam ve etkileşimi anlayan yapay zeka modellerine daha geniş bir odaklanmanın sinyalini veriyor.

Bir yanıt yazın