Google'ın Pixel Tomurcukları Kablosuz Kulaklıklar bir süredir harika bir gerçek zamanlı çeviri tesisi sundu. Son birkaç yıldır, Timkettle gibi markalar, iş müşterileri için benzer kulaklıklar sundu. Ancak, tüm bu çözümler çeviri için bir kerede sadece bir ses akışını işleyebilir.
Washington Üniversitesi'ndeki (UW) insanlar, aynı anda birden fazla hoparlörün sesini çevirebilen AI güdümlü kulaklıklar şeklinde gerçekten dikkat çekici bir şey geliştirdiler. Bunu kalabalık bir çubukta çok dilli olarak düşünün, etrafındaki insanların konuşmasını anlayabilen, bir kerede farklı dillerde konuşun.
Ekip, yeniliklerinden mekansal bir konuşma çevirisi olarak atıfta bulunuyor ve binaural kulaklıkların nezaketine geliyor. Haksız olarak, Binaural Ses, ses efektlerini insan kulaklarının onları doğal olarak algılama biçimine simüle etmeye çalışır. Onları kaydetmek için, mikrofonlar her iki taraftaki insan kulaklarıyla aynı mesafede kukla bir kafaya yerleştirilir.
Yaklaşım çok önemlidir, çünkü kulaklarımız sadece ses duymaz, aynı zamanda kökeninin yönünü ölçmemize de yardımcı olurlar. Kapsayıcı hedef, canlı konser benzeri bir his sağlayabilen stereo bir efekti ile doğal bir ses alanı üretmektir. Veya modern bağlamda, mekansal dinleme.
Çalışma, üretken repertuarı akıllı saatlere sualtı GP'leri koyabilen, böcekleri fotoğrafçılara, elektronikle etkileşime girebilecek beyin implantları, enfeksiyon duyabilecek bir mobil uygulama ve daha fazlasını içeren uygulamalar içeren Profesör Shyam Gollakota liderliğindeki bir ekibin izniyle geliyor.
Çok konuşucu çevirisi nasıl çalışır?
Enstitünün Paul G. Allen Bilgisayar Bilimleri ve Mühendisliği Okulu'nda profesör olan Gollakota, “İlk kez, her bireyin sesini ve geldiği yönü koruduk” diye açıklıyor.
Ekip, çevredeki hoparlör sayısını belirleyerek ve insanlar dinleme aralığına girip çıktıkça bu sayıyı gerçek zamanlı olarak güncelleyerek harekete geçtiği için yığınlarını bir radara benzetiyor. Tüm yaklaşım cihazda çalışır ve çeviri için bir bulut sunucusuna kullanıcı ses akışlarını göndermeyi içermez. Yaşasın, gizlilik!
Konuşma çevirisine ek olarak, kit ayrıca “her hoparlörün sesinin etkileyici niteliklerini ve hacmini korur.” Hoparlör odanın karşısında hareket ettikçe daha fazla yönlü, yön ve ses yoğunluğu ayarlamaları yapılır. İlginç bir şekilde, Apple'ın AirPod'ların sesi gerçek zamanlı olarak çevirmesini sağlayan bir sistem geliştirdiği söyleniyor.
Her şey nasıl canlanıyor?
UW ekibi, AI kulaklıklarının çeviri özelliklerini yaklaşık bir düzine açık ve iç mekan ayarlarında test etti. Performans gelince, sistem 2-4 saniye içinde çevrilmiş ses alabilir, işleyebilir ve üretebilir. Test katılımcıları 3-4 saniye değerinde bir gecikmeyi tercih ediyor gibi görünüyordu, ancak ekip çeviri boru hattını hızlandırmak için çalışıyor.
Şimdiye kadar, ekip sadece İspanyol, Alman ve Fransızca dil çevirilerini test etti, ancak havuza daha fazlasını eklemeyi umuyorlar. Teknik olarak, kör kaynak ayırma, lokalizasyon, gerçek zamanlı etkileyici çeviri ve binaural rending'i tek bir akışa dönüştürdüler, bu da oldukça etkileyici bir başarı.
Sisteme gelince, ekip bir Apple M2 silikonunda gerçek zamanlı çalışabilen ve gerçek zamanlı çıkarım elde edebilen bir konuşma çevirisi modeli geliştirdi. Ses görevleri bir çift Sony'nin gürültü önleyici WH-1000xm4 kulaklık ve bir sonik varlık SP15C binaural USB mikrofonu tarafından gerçekleştirildi.
Ve işte en iyi bölüm. Kurumun basın açıklaması, “Konsept kanıtı cihazının kodu, başkalarının geliştirmesi için kullanılabilir” diyor. Bu, bilimsel ve açık kaynaklı Tinkering topluluğunun daha ileri projeleri UW ekibi tarafından ortaya konan vakıflara öğrenebileceği ve dayandırabileceği anlamına geliyor.

Bir yanıt yazın