GPT, Lama veya Claude gibi büyük modeller (LLM), yapay zeka konusundaki mevcut tartışmayı ılımlıdır. Metin yazın, soruları yanıtlayın, içeriği çevirin ve görünüşte karmaşık görevleri çözün. Görünüşleri genellikle neredeyse insan gibi görünüyor, bu yüzden birçok insan bir anlayış ve hatta bir zeka türünü atfetiyor.
Golo Roden, yerel web GmbH'nin kurucusu ve CTO'sudur. Olaylara ve hizmetlere dayalı olarak dağıtılmış mimarilere özellikle dikkat ederek web ve bulut uygulamalarının ve arıların anlayışı ve geliştirilmesi ile ilgilidir. Yol gösterici ilkesi, yazılımın gelişiminin kendi başına bir son olmaması, ancak her zaman aşağıda bir profesyonellik izlemesi gerektiğidir.
Bununla birlikte, gerçekte, LLM düşünce sistemleri değil, kelimelerin sonuçlarının olasılığını hesaplayan son derece güçlü istatistiksel modellerdir. Başarıları üç faktöre dayanmaktadır: büyük miktarlarda veri, devasa modellerin boyutları ve transformatör mimarisi.
Bu makale LLM'nin ne olduğunu, nasıl eğitildiklerini ve neden “düşünebildikleri” gibi çalıştıklarını açıklamaktadır.
Büyük dil modeli nedir
Bir LLM, bir tasarım sırası veya yanındaki jetonun tahmininde bir tasarım dizisi veya kelimelerle eğitilen bir transformatör kod çözücü olan bir sinir ağıdır. Basitçe söylemek gerekirse: Hangi kelimenin hangi olasılıkla takip ettiğini öğrenir.
Bir jeton bütün bir kelime, hece veya sadece bir işaret olabilir. Bu olasılığı adım adım kullanarak, sıvı ve makul bir etkiye sahip metinler oluşturabilir.
“Büyük” adının iki boyutu vardır:
- Model boyutu: Modern LLM'nin milyarlarca parametresi var.
- Veri Miktarı: Kitaplardan, web sitelerinden, makalelerden ve kodlardan oluşan devasa kurumsal metinler üzerinde eğitildiniz.
Boyut ve veri çeşitliliği kombinasyonu, modellerin son derece yüksek sayıda dilsel model kaydetmesini sağlar.
Tahmin yoluyla eğitim
Bir LLM'nin eğitimi basit bir prensibi izler: “yanındaki jetonun tahmini”: model bir jeton dizisi görür ve bir sonraki işareti tahmin etmeye mahkumdur. Bu tahmin gerçek devam filmi ile karşılaştırılır, hata hesaplanır ve model ağırlıkları bir gradyan prosedürü kullanılarak ayarlanır.
Bu prosedüre “kendi denetimli öğrenme” denir, çünkü eğitim verileri otomatik olarak hedef değerler sağlar. Her metin, herkesin manuel olarak etiket oluşturmak zorunda kalmadan sayısız eğitim örneği sunar.
Model milyarlarca eğitim aşaması aracılığıyla öğreniyor:
- Dilbilgisi ve sözdizimi,
- Kelimelerin tipik kombinasyonları ve ifadeleri e
- Gerçekler, mantıksal modeller veya hatta basit hesaplama kuralları gibi örtük yapılar.
Bütün bunlar, kelimelerin anlamını içeren model olmadan tamamen istatistiksel olarak ortaya çıkar.
Çünkü llms çok yetkin görünüyor
Bir LLM'nin etkisi, dilin kendisinin bilgi için çok güçlü bir ulaşım aracı olduğu gerçeğine dayanmaktadır. Birçok durumda, yeterince dilsel model görenler anlayış yönünü yaratabilirler.
Bir soru sorarsanız, model, eğitim evreninde bu girdiyi takip edebileceği daha olası kelime sırasını üretir. Sorulara insan cevapları genellikle tutarlı olduğundan, zeka izlenimi durur.
Bu davranış aynı zamanda tipik zayıflıkları da açıklar:
- Halüsinasyonlar: Modeller makul ama yanlış gerçekler icat eder çünkü bir şeyin doğru olup olmadığını kontrol edemezler.
- Gerçek anlayış eksikliği: LLM masraflarının ne anlama geldiğini bilmiyor.
- Formülasyonlara duyarlılık: İstemdeki küçük değişiklikler çıktıda büyük farklılıklar yaratabilir.
Bu nedenle LLM, yetkin dil modelleri için makinelerdir, ancak sistemleri bilmiyorum.
Gelişimin ve RLHF'nin etkisi
Birçok iyi bilinen model, örneğin temel eğitimden sonra hala optimize edilmiştir:
- Talimatlar Ayarlama: Model girdiyi talimat olarak yorumlamayı ve kibarca yanıt vermeyi öğrenir.
- RLHF (İnsan Geri Bildirimlerinden Takviye Öğrenimi): İnsan İncelemeleri Modeli istenen cevaplara yönlendirir.
Bu adımlar, “yararlı” ve “insan” LLM'sine önemli ölçüde katkıda bulunur. Ancak, yalnızca veri ve geri bildirimlere dahil olan modelleri yansıtır.
Sınırlar ve uygulama alanları
LLM'ler güçlüdür, ancak evrensel değildir:
- Harici bir bağlantı olmadan mevcut bilgileri sağlamak mümkün değildir.
- Bir dünya modeli yoktur ve öğrenilen modellerin ötesinde mantıklı sonuçlar çıkaramazlar.
- Hesaplıyorlar ve yüksek veri yoğunluğuna sahipler, bu da şirketlerde kullanımı zorlaştırıyor.
Bununla birlikte, birçok modern yapay zeka uygulamasının temelini oluştururlar: metin oluşturma, chatbot, tam kod, semantik araştırma veya özet özet.
görüş
Bu serinin bir sonraki kısmı kendisini AI ve melezlerin sembolik yaklaşımlarına ayıracak. Klasik bilgi temsillerinin neden tekrar önem kazandığını ve istatistiksel ve sembolik yöntemlerin nasıl birleştirilebileceğini gösterecektir.
(RME)

Bir yanıt yazın