T3 Talk2Text – Sanal Grup Toplantılarında Yakın Gerçek Zamanlı Ses Transkripsiyonu İçin Bir Model

Zorluk: Yansıma için grup tartışmalarını yakalamak

Grup projeleri modern eğitimin temel taşıdır, ancak uzaktan işbirliği eşitsiz katılım, yanlış iletişim ve geçmiş tartışmaları hatırlama zorluğu gibi zorluklar getirir. Video konferans araçları gerçek zamanlı etkileşimi kolaylaştırırken, konuşmaları belgelemek için yerleşik desteğe sahip değiller. Manuel not alma hantaldır ve kayıtlardan alınan transkripsiyonlar zaman alıcıdır.

Diye sorduk: Öğrencilere ve eğitimcilere, gerçek zamanlı olarak grup tartışmalarını yakalamak ve bunları yansıtmak için zahmetsiz bir yol sağlayabiliriz?

Tanıtım t3 Talk2Text

T3 - Logo

Çözümümüz, T3 Talk2Textaçık kaynaklı bir web uygulamasıdır:

  • WebRTC tabanlı video konferans (eşler arası, pahalı lisans yok)
  • Otomatik Konuşma Tanıma (ASR) Ve Gerçek zamanlı transkripsiyon Openai'nin Fısıltısı Modeli aracılığıyla
  • İsteğe bağlı özetler (AI tarafından üretilen bilgiler için LLAMA3 kullanarak)

Ticari araçların (örn. Microsoft Teams) aksine, t3 öncelik verir mahremiyet (kendi kendine barındırılan), Çok dilli destekVe erişilebilirlik (Tarayıcı ile herhangi bir cihazda çalışır).

Kullanımda T3 - T3 kullanıcı arayüzü

Temel Yenilikler

  1. Sesli Etkinlik Tespiti (VAD) Boru Hattı

  2. Dinamik transkript biçimleri
    Kullanıcılar transkriptleri şu şekilde indirebilir:

    • PDF'ler (Messenger tarzı, hoparlör hizalaması ile)

    • CSV'ler (analiz için yapılandırılmış)

    • AI özetleri (yoğun noktalar)

      Olası iletişim protokolü çıktı formatları

  3. Ölçeklenebilir mimari

Perde Arkası: Teknik Engellerin Üstesinden Gelme

Mücadele 1: Gerçek Zamanlı İşleme
WebRTC'nin düşük gecikmeli akışları görüntülü sohbet için idealdi, ancak gecikmeden fısıltılı ASR'yi beslemek için dikkatli bir tamponlama gerektiriyordu. VAD bileşenimiz, kaynak kullanımını optimize ederek sadece konuşma segmentlerinin işlenmesini sağladı.

Mücadele 2: Çok dilli destek
Whisper'ın çok dilli yetenekleri t3 Farklı sınıflara uyum sağlayın, ancak gelecekteki çalışmalar anadili olmayan aksanlar için ince ayar yapmayı keşfedecek.

Mücadele 3: Gizlilik İlk Tasarım
Tüm veriler kurumsal sunucularda kalır ve geçici ses dosyaları, GDPR uyumluluğu için kritik olan transkripsiyon sonrası silinir.

Etki ve gelecekteki talimatlar

Öğrenci grupları ile ilk testler t.3 İşbirliğini bozmadan tartışmalara sorunsuz bir şekilde entegre edildi. Eğitimciler şu potansiyelini vurguladılar:

  • Katılım boşluklarını belirleme (hoparlör etiketli transkriptler aracılığıyla).

  • Çatışma Çözümü (geçmiş diyaloğu tekrar gözden geçirme).

  • Araştırma (Kurslar arasında iletişim kalıplarını analiz etmek).

Sonraki adımlar şunları içerir:

  • Dağıtım Fısıldayın Büyük Turbo Daha hızlı, daha doğru transkripsiyonlar için.

  • Öğrenme çıktılarını ölçmek için üniversite derslerinde uzunlamasına çalışmalar.

Deneyin!

T3 ki açık kaynaklı ve kurumların uyum sağlaması için kullanılabilir. Sınıflarda ve ötesinde kullanımını keşfetmek için işbirliklerini memnuniyetle karşılıyoruz.

Kağıdın tamamını okuyun: Kağıt
Kod deposu: Gitithub
Temas etmek: [email protected]


Yayımlandı

kategorisi

yazarı:

Etiketler:

Yorumlar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir