Google başka bir yapay zeka hizmetiyle geri döndü; bu sefer “Gemma” mimarisini kullanan çevrimdışı bir dikte programı. Ancak şirket bunu Gemini uygulamasına veya Gemini işlevine dahil etmek yerine özel bir iPhone uygulamasına sunmaya karar verdi. çok “Google AI Edge Eloquent”in akılda kalıcı adı.
Gizlilik politikası beni duraklatsa da, yayınlandığı gün uygulamaya bir şans vermeye karar verdim. Google, konumunuzun, kişilerinizin, tanımlayıcılarınızın, cihaz teşhislerinizin, iletişim bilgilerinizin, kullanıcı içeriğinizin, kullanım verilerinizin ve “diğer” verilerinizin sizinle ilişkilendirilebileceğini, satın alma işlemlerinin ve diğer teşhis bilgilerinin ise toplanabileceğini ancak sizinle ilişkilendirilemeyeceğini söylüyor. Bu çok fazla veri, özellikle de “ses, gizli konuşmalar ve kişisel verilerin cihazınızdan asla çıkmayacağını” ilan eden bir uygulama için ve aksi takdirde uygulamayı indirmeye istekli olacağımdan emin değilim. Ancak söylendiği gibi, eğer bir hizmet ücretsizse, Sen üründür. Burada açıklama almak için Google'a ulaştım ve yanıt alırsam bu hikayeyi güncelleyeceğim.
Google'ın yeni AI transkripsiyon uygulaması nasıl denenir?
Uygulamayı indirdikten sonra kurulum kolaydır; uygulamanın size söylediği örnek bir ifadeyi kaydedersiniz ve ardından bir seçim yaparsınız: Tamamen çevrimdışı olan ve konuşmalarınızı çevrimiçi olarak cihazınızda depolayan “Cihaz içi mod”; veya “Gelişmiş metin parlatma” ses cihazınızda, ancak metninizi “parlatmak” için Gemini'yi kullanır, bu da buluta veri göndermenizi gerektirir (ve muhtemelen yukarıda belirtilen tüm gizlilik politikası verilerinin gittiği yerdir). Uygulamanın transkriptinizde temel bir düzenleme yapması için Gemini'yi açık tutmanıza gerek kalmayacak; uygulama, tasarım gereği “hım” gibi “doldurucu” kelimeleri kaldırır. Uygulamanın varsayılan olarak “Gelişmiş metin parlatma” modunda açıldığını unutmayın; en azından benim açımdan bu şekilde çalıştı. Ancak ana ekranın sağ üst köşesindeki açma/kapatma düğmesine basit bir dokunuşla “Cihazda moda” geçilir.
Uygulamayı çalışır hale getirirken biraz sorun yaşadım: Ne zaman test etmeye çalışsam, hiç konuşmadığımı iddia ediyordu. Ancak AirPod'ları iPhone'umla eşleştirip eşleştirmeyi kaldırdıktan sonra uygulama çalışıyor gibi görünüyordu. Uygulamayı test etmek için tamamen diyalog temelli olan bu Audio University YouTube videosunun girişini oynattım. Uygulama çalışmaya başlar başlamaz, videoyu neredeyse mükemmel bir doğrulukla, en azından sonuna kadar, hemen yazıya dökmeye başladı. Uygulamanın yanlış kelimeleri girmesini izlerdim, sonra bunları geri çekip bağlam sağlanan sonraki kelimeler olarak değiştirirdim. Kayıt bittiğinde, birkaç tuhaflık dışında, transkript videonun transkriptiyle neredeyse aynıydı: Yanlışlıkla “Eğer bu bizim ilk buluşmamızsa”nın “Bu bizim ilk buluşmamız” olduğunu düşündü ve tek bir cümleyi iki kez kaydetti. Ancak bunun dışında bu, videonun başlangıcının tamamen kullanılabilir bir transkriptidir.
Şu ana kadar ne düşünüyorsun?
Buradan itibaren bir dizi seçeneğiniz var; özellikle de Gemini'yi yardıma davet ederseniz. Yapay zekanın yanlış “parlattığı” metinlerden herhangi birini düzeltmek istemeniz durumunda, transkriptin üzerindeki kalem simgesine dokunarak manuel olarak düzenleyebilirsiniz. Bunun üzerinde, konuşulan kelime sayısı, dakika başına konuşulan kelime ve yapay zekanın yaptığı düzenleme sayısı dahil “Kullanım istatistiklerini” görüntüleyebilirsiniz. Gemini'yi açarsanız, “Önemli Noktalar”, “Resmi”, “Kısa” ve “Uzun” gibi ek AI düzenleme araçlarına erişebileceksiniz. Transkripsiyondan memnun olduğunuzda, metni başka bir yere yapıştırmak üzere panonuza taşımak için kopyala düğmesine dokunabilirsiniz. “Geçmiş” sekmesinde, önceki transkripsiyonlarınızı görüntüleyebilir ve düzenlemek için onlara geri dönebilirsiniz (manuel olarak veya AI ile). “Sözlükler” sekmesinde, sıklıkla kullandığınız ancak yapay zekanın algılayamayacağı belirsiz sözcükleri ekleyerek kayıtlarınızın doğruluğunu artırabilirsiniz.
Kısa testlerimde uygulama iyi çalışıyor ve onu yalnızca cihazda kullanma seçeneğini takdir ediyorum. Daha hızlı veya daha doğru görünüyorsa, özellikle de burada daha sağlam özellikler bulunduğundan, kesinlikle iOS'un yerleşik transkripsiyonları üzerinde kullanmayı düşünürdüm; yapmak verilerimi Google'ın elinden uzak tutmak anlamına geliyor.

Bir yanıt yazın