Uzun Bağlamlı Yapay Zekada Önemli Gelişme

Google Araştırma, modern yapay zeka sistemlerinde büyüyen bir sınırlamayı ele almayı amaçlayan iki yeni araştırma makalesini, Titans ve MIRAS'ı sundu: çok uzun bilgi parçalarını, yavaşlamadan veya önemli bağlamı kaybetmeden işlemek. Titans ve MIRAS birlikte, modellere zaman içinde önemli olan şeyleri korumaları için yapılandırılmış bir yol sunmaya odaklanıyor ve onların genişletilmiş belgeleri, konuşmaları veya veri akışlarını daha büyük bir süreklilikle takip etmelerine olanak tanıyor.

Titanların Mimarisi

Sürpriz bir ölçüm kullanarak verileri işlerken aktif olarak öğrenen Uzun Süreli Bellek modülünü kullanan bir model ailesi.

Sürpriz ölçü, dahili bir hata bayrağıdır; “Bu beklenmeyen bir şey!” sinyalini vermenin matematiksel bir yoludur. Bu sinyal, modelin halihazırda hatırladıkları ile yeni gelen verilerin ona söylediği arasındaki farkı ölçer. Bilginin beklenmedik veya uzun vadeli depolama için önceliklendirilecek kadar önemli olduğunu bildirir.

Bunu etkili kılmak için mimari, çevredeki uzun veri dizilerinin ne kadarını gerçekten kaydettiğini belirlemek için momentum olarak bilinen, sürekli odaklanmayı kullanır. Bu, sonraki ayrıntılar tek tek şaşırtıcı olmasa bile, modelin bu ilk bayrağı takip eden ilgili ayrıntılara öncelik vermeye devam etmesini sağlar.

Son olarak, Titans mimarisi, eski veya daha az kullanışlı bilgileri kademeli olarak temizlemenin matematiksel bir yolu olan, uyarlanabilir bir unutma mekanizması kullanır. Bu, modelin uzun veri dizilerini işlerken güncelliğini yitirmiş ayrıntıları bırakıp yeni ve daha alakalı bilgilere yer açabilmesini sağlar.

Titans mimarisi, sürpriz ölçüm (neyi fark etmeli), momentum (ne kadar kaydetmeli) ve ağırlık azalması (neyi unutmalı) gibi üç unsuru birleştirerek, ne kadar veri işlerse işlesin keskin ve alakalı kalan bir bellek sistemi oluşturur.

MIRAS Çerçevesi

Titanlar belirli bir model ailesi olmasına rağmen MIRAS, dizi modellerinin tasarlanması için bir çerçevedir. Bu mimarileri, bellek modülüne farklı veri parçaları arasındaki ilişkiyi “nasıl” öğreneceğini söyleyen dahili bir amaç kullanarak belirli veri noktalarını birbirleriyle ilişkilendirmeyi öğrenen modüller olan ilişkisel bellek olarak yeniden kavramsallaştırır.

Bu çerçevede bir model oluşturmak için tasarımcılar dört temel seçim yapar:

Bellek Yapısı: Basit vektörlerden Titanlarda kullanılan derin MLP katmanlarına kadar değişebilen belleğin fiziksel mimarisi.
Dikkat Önyargısı: Belleğin gelen bilgiyi nasıl önceliklendirdiğini ve nasıl bağladığını belirleyen spesifik iç amaç.
Bellek Kararlılığı ve Saklanması: Yeni bilgilerin öğrenilmesi ile geçmiş durumun korunması arasında denge kuran mekanizma.
Bellek Algoritması: Modelin test zamanında öğrenmesine olanak tanıyan gradyan iniş yöntemleri gibi belleği güncellemek için kullanılan öğrenme yöntemi.

Sorun: Yapay Zeka İşleyebiliyor Ama Hatırlamakta Zorlanıyor

Modern yapay zeka modelleri, doğrudan önlerindeki bilgiyi analiz etmede etkilidir. Bağlam çok büyüdükçe zorluk başlar. Belgeler, veri kümeleri veya konuşmalar uzadıkça modeller, ayrıntıları korumak ile hesaplama maliyetini yönetilebilir tutmak arasında bir seçimle karşı karşıya kalır.

Modern dil modelleri genellikle uzun bağlamı iki yoldan biriyle ele alır:

Dikkat Penceresi
İhtiyaç duyulduğunda önceki metni doğrudan tekrar ziyaret ederler ve mevcut adım için neyin önemli olduğuna karar vermek üzere önceki belirteçlere tekrar tekrar bakarlar.
Durum Sıkıştırması
Daha önce gelenleri daha küçük bir dahili özete sıkıştırırlar, böylece ilerlemeye devam edebilirler, ayrıntıyı verimlilikle takas ederler.

Her iki yaklaşım da işe yarar, ancak girdiler uzadıkça her biri bozulmaya başlar. Dikkat penceresiyle, önceki materyalin tekrar tekrar gözden geçirilmesi, hesaplama kaynakları açısından giderek daha fazla talepkar hale gelirken, durum sıkıştırmasıyla, daha önce gelenleri sıkıştırmak, daha sonra önemli hale gelen ayrıntıların kaybolma riskiyle karşı karşıya kalır.

Sınırlama ölçek veya hız değil, bellektir. Mevcut sistemler hafızayı kullanım sırasında kasıtlı olarak yönetilebilecek bir şey olarak ele almamaktadır. Bunun yerine, uzun aralıklarda neyin korunması gerektiğine karar vermek için yapılandırılmış bir yol olmaksızın, geriye doğru tarayarak veya ileriye doğru sıkıştırarak sabit mimari kalıplara güvenirler.

Titanlar ve MIRAS, bu soruna, belleği, mimarilerinden pasif olarak devralmak yerine, modellerin aktif olarak yönetebileceği bir şey olarak ele alarak yaklaşıyor.

Araştırma Neden İki Bölümde Sunuldu?

Bu sınırlamanın ele alınması tek bir teknik değişiklikten fazlasını gerektirir. Bir adım, modellerin pratikte belleği gerçekten farklı şekilde yönetebildiğini göstermektir. Bir diğeri ise her yeni mimariyi tek seferlik bir çözüm olarak ele almak yerine bu tür sistemleri bilinçli olarak tasarlamanın bir yolunu geliştirmektir.

İki makale bu ihtiyaçları yansıtıyor:

Bunlardan biri, modellere bir tür uzun süreli hafıza kazandırmak için somut bir yöntem sunuyor.
Diğeri ise bu fikrin anlaşılması ve etrafında modeller oluşturulması için bir çerçeve sağlar.

Titanlar: Bir Uzun Süreli Bellek Biçimi Eklemek

Titans sorunun pratik yönüne odaklanıyor. Bir modelin çalışırken bilgi toplamasını sağlayan bir mimari sunar. Model, daha önceki girdileri tekrar tekrar yeniden işlemek veya her şeyi küçük bir gösterime sıkıştırmak yerine, seçilen bilgileri zaman içinde ileriye taşıyabilir.

Basit, sabit boyutlu bir özet kullanan geleneksel sistemlerden farklı olarak bu modül, çok daha karmaşık ve ayrıntılı bilgileri yakalayabilen derin bir sinir ağıdır.

Amaç, geçmişi tekrar tekrar taramadan veya önemli ayrıntıları kaybetmeden, çok uzun girdilerle çalışmayı mümkün kılmaktır. Titans, mevcut model tasarımlarının yerini alacak şekilde sunulmamaktadır. Bu, halihazırda işe yarayanları atmak yerine bağlamı ele alma biçimlerini genişleten, onlarla birleştirilebilecek ek bir katmandır.

MIRAS: Bellek Odaklı Modeller Tasarlamak İçin Bir Çerçeve

Titans'ın belirli bir mekanizmayı tanıttığı yerde MIRAS geri adım atıyor ve daha geniş tasarım sorusuna bakıyor. Dizi modellerini zaman içinde ilişkileri saklayan ve güncelleyen sistemler olarak ele alır ve bu belleğin nasıl çalışması gerektiği hakkında düşünmek için yapılandırılmış bir yol önerir.

MIRAS, mimarileri temelde farklı kategoriler olarak görmek yerine, onları bilginin nasıl depolandığı, eşleştirildiği, güncellendiği ve saklandığı ile ilgili küçük bir dizi tasarım seçeneği etrafında düzenler.

MIRAS, Titanlar gibi sistemleri yorumlamanın ve sıfırdan başlamadan yenilerini geliştirmenin bir yolunu sağlar.

Bu Yaklaşımın Uzun Bağlam İşlemeyi İyileştirip İyileştirmediğini Test Etmek

Bu belleğe dayalı yaklaşımın pratik bir avantaja dönüşüp dönüşmeyeceğini belirlemek için araştırmacılar, bunu bağlam aralıklarının son derece uzun olduğu görevlerdeki mevcut tasarımlarla karşılaştırarak değerlendirdiler.

Uzun bağlam değerlendirmelerinde Titanlar, test edilen temel modellere göre daha yüksek alma doğruluğunu korurken 2 milyon tokenin üzerine ölçeklendi. Devasa belgelerde gömülü gerçekler üzerinden akıl yürütmeyi gerektiren BABILong değerlendirmesinde Titanlar, önemli ölçüde daha az parametreye sahip olmalarına rağmen GPT-4 de dahil olmak üzere çok daha büyük modellerden daha iyi performans gösterdi.

MIRAS belgesi ayrıca bu başarının tek bir modelle sınırlı olmadığını da ortaya koyuyor. Araştırmacılar, çerçevesini kullanarak oluşturulan birkaç farklı sistemi test ederek, bu tasarım ilkelerinin, farklı görevlerde tutarlı bir şekilde yüksek performanslı sonuçlar ürettiğini gösterdi.

Bu değerlendirmeler, yapısal, aktif belleğin, modellerin, hesaplama maliyetinde alışılagelmiş ödünler olmadan, çok büyük veri kümelerinde yüksek hassasiyeti korumasını sağladığını gösteriyor.

Titans araştırmacıları sonuçlarını açıkladı:

“Çeşitli görev görevlerine ilişkin deneysel değerlendirmemiz, Titanların Transformers'lardan ve özellikle modern, doğrusal yinelenen modellerden daha etkili olduğunu doğruluyor.
uzun bağlam. Yani Titanlar, temel çizgilerden daha iyi bir doğrulukla 2M bağlam penceresi boyutundan daha büyük ölçeklenebilir.”

MIRAS araştırmacıları, MIRAS'ın neden bir ilerlemeyi temsil ettiğini açıklıyor:

“Bu yazıda, çevrimiçi optimizasyon ve test zamanı ezberlemenin bağlantısını açıklayan genel bir çerçeve olan Miras'ı sunuyoruz. Miras çerçevesi, literatürdeki çeşitli standart mimari seçimlerin (örneğin, unutma kapısı) rolünü açıklayabilir ve belleği daha iyi yönetebilen yeni nesil mimarilerin tasarlanmasına yardımcı olabilir.

Çerçevemize dayanarak, her biri kendi dezavantajlarına (dezavantajlarına) sahip üç yeni dizi modeli sunuyoruz. Deneysel değerlendirmelerimiz, tüm bu değişkenlerin çeşitli aşağı yönlü görevlerde Transformatörlerden ve doğrusal RNN'lerden daha güçlü olduğunu göstermektedir. Bu çalışmada Miras'ı kullanan çeşitli varyantlar sunuyoruz.

Gelecekte, farklı alt görevler için bu alternatif mimarileri keşfetmek, geleceğe yönelik ilginç bir yön olacaktır.”

Araştırmacıların Sonuçları

Titans makalesi (PDF), kısa menzilli işlemeyi özel bir uzun vadeli bellekle birleştirmenin, modellerin yalnızca daha büyük dikkat pencerelerine veya daha agresif sıkıştırmaya dayanmadan genişletilmiş girdileri işleme biçimini geliştirebileceği sonucuna varıyor. Bunu, mevcut mimarilerin yerini almaktan ziyade onlarla entegre edilebilecek ek bir yetenek olarak sunuyor.

MIRAS makalesi, dizi modellerini daha sistematik olarak tasarlanabilen ve karşılaştırılabilen, hafızaya dayalı sistemler olarak tanımlamaktadır. Çerçevesinin, bellek davranışını açık bir tasarım boyutu haline getirerek bu tür modellerin nasıl oluşturulduğuna rehberlik etmesi amaçlanmaktadır.

Her iki makale de belleği modellerin kasıtlı olarak yönetebileceği bir şey olarak ele alıyor: Titanlar kullanım sırasında bilgi depolayabilen bir mekanizma ekleyerek ve MIRAS bellekle çalışan modelleri tasarlamak ve karşılaştırmak için bir çerçeve oluşturarak.

Google'ın blog yazısı Titanları ve MIRAS'ı önemli kılan şeyin ne olduğunu açıklıyor:

“Titanların ve MIRAS çerçevesinin piyasaya sürülmesi, dizi modellemede önemli bir ilerlemeye işaret ediyor. Veri geldikçe ezberlemeyi öğrenen bellek modülleri olarak derin sinir ağlarını kullanan bu yaklaşımlar, sabit boyutlu yinelenen durumların sınırlamalarının üstesinden gelir.

Ayrıca MIRAS, çevrimiçi optimizasyon, ilişkisel bellek ve mimari tasarım arasındaki bağlantıyı ortaya çıkaran güçlü bir teorik birleştirme sağlar. Bu araştırma, standart Öklid paradigmasının ötesine geçerek, RNN'lerin verimliliğini uzun bağlamlı yapay zeka çağı için ihtiyaç duyulan ifade gücüyle birleştiren yeni nesil dizi modellerinin kapısını açıyor.”

Birlikte, daha iyi uzun bağlam performansına giden yolun yalnızca daha büyük pencereler veya daha büyük modellerden ibaret olmadığını, aynı zamanda yapay zekaya hatırladıklarını yönetmesi için yapılandırılmış bir yol sunmaktan geçtiğini gösteriyorlar.

Shutterstock/AntonKhrupinArt'tan Öne Çıkan Görsel