Büyük dilsel modellerin sınırları ve AGI ve ASI'nin erişilemezliği üzerine

Büyük dil modellerinin hızlı gelişimi, bunların yapay genel zekaya ve nihayetinde yapay süper zekaya ulaşma potansiyelleri hakkında yoğun tartışmalara yol açtı.

Duyurudan sonra devamını okuyun

Prof. Dr. Michael Stal, 1991 yılından bu yana Siemens Teknoloji'de çalışıyor. Araştırma alanları arasında büyük karmaşık sistemler (dağıtık sistemler, bulut bilişim, IIoT), gömülü sistemler ve yapay zeka için yazılım mimarileri yer alıyor. Yazılım mimarisi konularında iş alanlarına danışmanlık yapıyor ve Siemens'teki kıdemli yazılım mimarlarının mimari eğitiminden sorumlu.

Bu sistemler dil işleme, akıl yürütme ve bilgi sentezinde dikkate değer yetenekler sergilerken, temel mimari ve teorik sınırlamalar, gerçek genel zeka arasındaki boşluğu kapatamayacaklarını göstermektedir. Bu analiz, mevcut Yüksek Lisans paradigmalarının AGI veya ASI'ye ulaşmasını engelleyen temel teknik engelleri inceliyor.

Yapay Genel Zeka (AGI), tüm bilgi ve muhakeme alanlarında insanın bilişsel yeteneklerini karşılayan veya aşan varsayımsal bir yapay zeka biçimidir. Belirli görevler için tasarlanmış dar yapay zeka sistemlerinden farklı olarak AGI, herhangi bir alandaki bilgiyi insan zekası kadar kolay bir şekilde öğrenebilen, anlayabilen ve uygulayabilen esnek zekaya sahip olacaktır. AGI'nin temel özellikleri arasında minimal örneklerden özerk öğrenme, farklı alanlar arasında bilgi aktarımı, yeni durumlarda yaratıcı problem çözme ve soyut kavramları yalnızca kalıp tanıma yoluyla değil, gerçek anlayışla anlama ve değiştirme becerisi yer alır.

Yapay süper zeka (ASI), AGI'nin ötesine geçer ve yaratıcılık, genel bilgelik ve problem çözme de dahil olmak üzere tüm alanlarda insanın bilişsel yeteneklerini çok aşan bir zekayı temsil eder. YZ sadece insan zekasına uymakla kalmayacak, aynı zamanda onu birçok kez aşarak potansiyel olarak insanların hayal bile edemeyeceği içgörüler ve yetenekler kazanacaktır. AGI ve YSZ arasındaki ayrım çok önemlidir çünkü AGI insan düzeyinde genel zekayı temsil ederken, YSZ temelde farklı bir zeka kategorisini ima eder.

Büyük dil modelleri, mevcut haliyle, bir dizideki en olası sonraki belirteci tahmin etmek için büyük metin bütünleri üzerinde eğitilmiş istatistiksel sistemlerdir. Bu modeller, eğitim verilerinden kalıpları sıkıştırmayı ve yeniden üretmeyi öğrenerek tutarlı, bağlamsal olarak uygun yanıtlar üretmelerini sağlar. Ancak bunların işlevselliği, YGZ'yi karakterize eden esnek ve uyarlanabilir zekadan temel olarak farklıdır.

Duyurudan sonra devamını okuyun

Mevcut LLM'lerin çoğunun altında yatan Transformer mimarisi, genel zeka potansiyellerini sınırlayan çeşitli temel sınırlamalar getirmektedir. Dikkat mekanizması dizi işleme açısından güçlü olmasına rağmen eğitim sırasında öğrenilen sabit ağırlıklandırma matrisleri üzerinde çalışır. Bu ağırlıklar, belirteçler arasındaki istatistiksel ilişkileri kodlar, ancak yeniden eğitim olmadan tamamen yeni konseptlere veya alanlara dinamik olarak uyum sağlayamaz. Bu statik doğa, sinir bağlantılarını sürekli olarak yeni deneyimlere göre uyarlayan biyolojik zekayla tam bir tezat oluşturuyor.

Transformatörlerin önceden işlenmesi başka bir önemli sınırlama yaratır. Bilgi, ağın katmanları arasında tek yönde akar ve insan bilişinin yinelemeli ve döngüsel işleme özelliğini engeller. İnsan düşüncesi, üst düzey kavramların alt düzeydeki işlemleri etkilediği ve bunun tersinin de geçerli olduğu sürekli geri bildirim döngülerini içerir. Bu iki yönlü akış, insanların, mevcut LLM mimarilerinde hala eksik olan beceriler olan yansıtma ve yeniden kavramsallaştırma yoluyla anlayışlarını geliştirmelerine olanak tanır.

Ayrıca, sürekli insan konuşmasını ayrı belirteçlere dönüştüren ayrık belirteçleştirme süreci, bilgi kaybına neden olur ve modelin ince nüansları ve bağlama bağlı anlamları anlama yeteneğini sınırlar. İnsan dilinin işlenmesi, fonetik ve morfolojikten semantik ve pragmatiğe kadar birçok seviyede eş zamanlı olarak gerçekleşir ve bu seviyeler arasında sürekli bir entegrasyon vardır. Tokenizasyon darboğazı, LLM'lerin bu tüm dil işleme yelpazesine erişmesini engelliyor.

LLM eğitimini yönlendiren bir sonraki jetonu tahmin etme hedefi, bu sistemlerin bilgiyi anlama ve işleme şekli konusunda temel sınırlamalar yaratır. Bu eğitim paradigması, nedensel anlayıştan ziyade istatistiksel korelasyonu optimize eder ve gerçek anlayıştan ziyade karmaşık model eşleşmesiyle sonuçlanır. Bu yaklaşım birçok dilsel görevde etkileyici bir performans sağlarken, genel zeka için gerekli olan nedensel akıl yürütme ve dünya modelleme yeteneklerini geliştirmede başarısız olur.

LLM eğitiminde kullanılan denetimli öğrenme yaklaşımı, belirli bir zaman noktasında insan bilgisinin anlık görüntüsünü temsil eden statik veri kümelerine dayanmaktadır. Bu, aktif araştırmayı, hipotezler oluşturmayı ve test etmeyi ve sürekli olarak yeni deneyimleri mevcut bilgiye entegre etmeyi içeren insan öğreniminin tersidir. İnsanlar çevreyle etkileşim yoluyla anlayış geliştirir ve eylemlerinden elde edilen geri bildirimlere dayalı olarak zihinsel modeller oluşturur ve geliştirir. Yüksek Lisans'lar bu etkileşimli öğrenme yeteneğinden yoksundur ve deneyimsel öğrenme yoluyla gerçek anlayışı geliştiremezler.

Gittikçe daha fazla veriyle eğitilen daha büyük modellerin eninde sonunda YGZ'ye ulaşacağını belirten ölçeklendirme hipotezi çeşitli teorik zorluklarla karşı karşıyadır. Modelin ve veri kümesinin boyutunun arttırılması, örüntü tanıma ve anlama arasındaki niteliksel değil niceliksel farkları hesaba katar. Daha geniş modellerde yeni yeteneklerin ortaya çıkışı, genellikle zekanın şeklindeki temel değişikliklerden ziyade daha karmaşık model tanımayı yansıtır. Temel mimari ve eğitim sınırlamalarına değinilmeden, ölçeklenebilirlik tek başına istatistiksel hesaplama ile gerçek zeka arasındaki boşluğu kapatamaz.


Yayımlandı

kategorisi

yazarı:

Etiketler:

Yorumlar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir