iOS 26: Apple-api'nin konuşması, hız açısından eski görünmesini sağlıyor

Dolandırıcı Bildirim

Bu makale bu nedenle İngilizce olarak mevcuttur. Yayınlamadan önce teknik yardım ve editoryal revizyon ile çevrildi.

Apple, ses veya canlı kayıtların transkripsiyonunda işletim sisteminin sonraki sürümlerinde açıkça artar. Çeşitli testlerde performanslar artık diğer yaygın vokal tanıma modelleriyle karşılaştırılmıştır. Bununla birlikte, sonuçlar karışıktır: iOS 26, iPados 26 ve MacOS 26 Taoe'de sağlanan yeni Apple API'si, örneğin yaygın fısıltılı openi modelinin hızında önemli ölçüde daha iyidir. Ancak, hassasiyeti iyileştirmek için hala yer var.

Apple News MacStries blogu, 34 -Minute video dosyasıyla geliştirilen vokal çerçevesini test etti. Transkripsiyon için, GitHub'da geri çağrılabilen Apple API testi için YAP adlı bir cihaz kullanılmıştır. Görevi sadece 45 saniye içinde gerçekleştirirken, oldukça popüler MacWhisper aracı 1:41 dakika ile 3:55 dakika arasında gerekli olan harika modelleri.

9to5mac News sayfasında Apple Apple'ın çok hızlı kabul edilen Nvidia Parkeet'e karşı yarıştı ve OpenAAI'ye karşı büyük V3 Turbo'ya karşı. Test hesap makinesi, Unified M2 Pro belleği ve 16 GB'lı bir MacBook Pro'du. Parrocchetto ses dosyasını 2 saniyede 7:31 dakika yönetirken, Apple'ın transkripsiyonunun 9 saniyeye ihtiyacı vardı. Openi modeli sadece 40 saniye sonra bitirildi. Ses dosyası ne kadar uzun olursa, modeller o kadar ayrılmıştır.

Ancak fısıltının yavaşlaması doğruluğu geri ödedi. Karakter kusurlarının oranı (karakter hızı, CER) ve kelimeler hataları (kelime hata oranı, WHO) arasında bir ayrım yapıldı. Ortalama olarak, fısıldayan büyük V3 turbo, daha kesin bir çözüm olarak yüzde 0,3 ve yüzde 1'den biri olduğunu kanıtladı. Apple'ın işaretlerde ortalama yüzde 3 ve kelimeler için yüzde 8'i vardı. Parakakeet yüzde 7 CER ve yüzde 12'lik bir DSÖ ile önemli ölçüde geri döndü.

Sonuç olarak, Apple'ın transkripsiyonu fısıltıya kıyasla açık bir avantaj vaat ediyor ve NVIDIA modelinin pek çok hatasını yapmıyor. Test uzmanları, modelin seçiminin esas olarak uygulama sorunu olduğu sonucuna varıyor. Apple modeli, canlı altyazılar veya endeksleme için daha uzun içeriğin yaklaşık transkripsiyonu olarak zaman kritik uygulamaları için önerilir. Whisper, sadece bir post -minimum detaylandırma istediğinizde veya doğruluğa bağlı olduğu uygulamalarda ön tarafın önüne sahiptir.


(MKI)


Yayımlandı

kategorisi

yazarı:

Etiketler:

Yorumlar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir