Genel Bakış 5: Transformer-Sé istasyonu dil işlemeyi değiştirir

Uzun zamandır tekrarlayan sinir ağları (RNN) dil işleme için altın standart olarak kabul edilmiştir. Dizileri yavaş yavaş detaylandırmak ve önceki bilgileri hatırlamak için yapıldı. Ancak, özellikle uzun metinler, karmaşık bağımlılıklar ve paralel işleme ile sınırları vardı.

Golo Roden, yerel web GmbH'nin kurucusu ve CTO'sudur. Olaylara ve hizmetlere dayalı olarak dağıtılmış mimarilere özellikle dikkat ederek web ve bulut uygulamalarının ve arıların anlayışı ve geliştirilmesi ile ilgilidir. Yol gösterici ilkesi, yazılımın gelişiminin kendi başına bir son olmaması, ancak her zaman aşağıda bir profesyonellik izlemesi gerektiğidir.

Transformer mimarisinin ortaya çıkmasıyla bu temelde değişti. Sadece daha verimli, aynı zamanda daha verimli, daha ölçeklenebilir ve esnek olduğunu göstermekle kalmadı. Bu arada, Bert, GPT, T5 ve diğerleri dahil olmak üzere birçok yapay zeka sistemi için baskın temeldir.

Bu makalede size transformatör modellerinin sizi neyi ayırt ettiğini gösteriyorum, çünkü benlik kontrolü önemli mekanizma ve bu mimarinin otomatik öğrenmeyi nasıl değiştirdiğini gösteriyor.

Yinelenen ağların sınırları

Tekrarlayan sinir ağları sıralı metinler – kelime veya işaret belirtileri için kelime. Her adımda güncellenen dahili bir bellek taşınır. Bu ilke kısa girişler için iyi çalışır, ancak daha uzun dizilerle birkaç sınıra ulaşır:

Uzun vadeli bağımlılıklar kaybolur: Önceki bilgiler zamanla çözülür.
Gerçek bir paralelleştirme mümkün değildir: her kelime bir öncekine dayandığından, aynı anda geliştirilemez.
Access Sınırlı Bağlamla Sınırlı: Her öğe, tüm bağlamı değil, yalnızca önceki kursu görür.

Bu yapısal zayıflıklar, LSTM veya vinç gibi iyileştirmelerle bile, birçok vokal görevinin çözülmesi zor olduğu anlamına geliyordu.

Transformatörün temel fikri

Transformatörün mimarisi 2017 yılında “İhtiyacınız olan tek şey dikkat” makalesinde sunuldu. Merkezi Fikir: Bilgileri sırayla işlemek yerine, bir metnin tüm bölümleri aynı zamanda “kendi istasyonu” adı verilen bir mekanizma kullanan görüntülenmelidir.

Transformatör modelleri artık özyinelemeli ilmeklerden değil, sesleri paralel olarak işleyen benzer katmanlardan oluşan bir yığıntan oluşuyor. Her seviye, APUT'un hangi bölümlerinin pozisyondan bağımsız olarak birbiriyle ilişkili olduğunu analiz eder.

Bu ilke modele izin verir:

Bağlamı herhangi bir mesafedeki düşünün,
Girişleri ve masrafları aynı anda işlemek için e
Tüm girişi bir bütün olarak analiz etmek için.

Kendi istasyonu: Düzensiz bağlam

Öz-düzenleme mekanizması, her bir eleman için diğer tüm öğelere neyin dikkat etmesi gerektiğine dair bir giriş dizisinde değerlendirir. Basitçe söylemek gerekirse:

Her kelime, diğer tüm kelimelerin ağırlıklı bir kombinasyonunu oluşturur.
Bu ağırlıklandırma içeriğin içeriğinden kaynaklanır.
Örneğin, “doğru” kadına “doğru” kelimesi, cümlenin başında olsa bile başvurabilir.

Bu matematiksel olarak böyle denir Rica etmek-,, Anahtar– VE Değer-Giriş verileri tarafından oluşturulan ve. Bunlar, her jetonun başkalarını ne kadar göstermesi gerektiğini belirlemek için çiftler halinde birleştirilir. Bu nedenle ortaya çıkan ağırlıklar sonraki gösterime akar.

Etki: Model, doğrusal düzenden bağımsız olarak, bu noktada hangi bilgilerin önemli olduğuna esnek bir şekilde karar verebilir.

Konumsal kodlama

Transformatör modelleri APUT'un sırasını göz ardı edebileceğinden, ek bir bileşen gereklidir, yani konumsal kodlama. Kelimelerin göreceli ve mutlak konumunun cümlede korunduğunu garanti eder. Bu adım olmadan, “kedi” gibi bir cümle “kedi avlayan fare” den fareyi kovalamıyor.

Pozisyon üzerindeki konum genellikle bir taşıyıcı olarak eklenir veya dahil edilir ve içerikle birlikte dikkatin hesaplanmasına akar.

Azaltma ve mimarlık

Tam bir transformatör, uygulamaya bağlı olarak genellikle farklı kodlama seviyelerinden oluşur ve/veya daha sonra kod çözülür:

Modeller yalnızca kodlayıcı (örneğin BERT), örneğin sınıflandırma veya sorgulama için metinleri analiz eder.
Yalnızca kod çözmek için modeller (örneğin GPT), örneğin otomatik tamamlamada metinler oluşturur.
Kod çözücü kodlayıcı modellerini (örneğin T5) formatlar arasında çevirin veya dönüştürün.

Bu mimarileri büyük miktarlarda veri ve modelin büyüklüğünde verimli bir şekilde yeniden boyutlandırma yeteneği, transformatörün muzaffer yürüyüşünü kesinlikle modellemiştir. Modern modeller milyarlarca parametre içerir ve daha önce bunalmış ilk prosedürlere sahip olacak veri miktarlarını öğrenir.

Çünkü transformatörler çok başarılı

Transformatör modelleri başarılarını çeşitli faktörlere borçludur:

Yerel ve sıralı düzeyde değil, hassas ve küresel dil bağlamını detaylandırırlar.
Eğitimi hızlandıran son derece paralel olabilirler.
Modülerdirler ve farklı görevler için esnek bir şekilde ayarlanabilirler.
Sadece dil için değil, aynı zamanda görüntüler, videolar, moleküler yapılar ve çok daha fazlası için de uygundur.

Sonuç olarak, modern yardımın evrensel bir kitinde geliştiler.

görüş

Bir sonraki bölüm GPT, Bert veya Claude gibi büyük modellerle ilgilidir. Bu modelleri, eğitildikleri için klasik dilin işleme yaklaşımlarından ayıran ve gerçek bir anlayışa sahip olmasalar da birçok görevi çözdükleri için neyin klasik dilin işlenmesi yaklaşımlarından gösterilecek.

(RME)