Bir yapay zeka çaresiz olabilir mi? Absürd bir soru gibi görünüyor ama bir grup araştırmacının da sorduğu şey bu. Antropik yapay beyninin içine bakarak keşfetti Claudedünyanın en gelişmiş yapay zeka modellerinden biri.
Temel bir önermeden başlayalım: bir yapay zekanın “acı çektiğini” söylemiyoruz veya bizim gibi “duyguları hissedin”. Aslında işlevsel bir mekanizmadır. Ancak bunun yapay zekanın nasıl davranacağı üzerinde potansiyel olarak olumsuz etkileri vardır.
Sorun nasıl ortaya çıkıyor?
Anlamak için, chatbotların yeteneklerinin altında yatan dil modelinin nasıl eğitildiğini bilmeniz gerekir. İkizler burcu, ChatGpt ve Anthropic tarafından geliştirilen Calude'un kendisi.
İlk aşamada model, insanlar tarafından yazılan büyük miktarda metni yutuyor ve bundan sonra ne olacağını tahmin etmeyi öğreniyor. Kızgın bir müşteri memnun olandan farklı yazar; Suçluluk duygusuyla tüketilen bir hikayedeki karakter, kendini haklı hisseden birinden farklı seçimler yapar.
Tahmininin iyi sonuç vermesi için model, kendiliğinden duyguların içsel temsillerini geliştirir: onları “hissettiği” için değil, tutarlı metinleri anlamak ve oluşturmak için ona araç olarak hizmet ettikleri için.
Eğitimin ikinci aşamasında, modele iyi tanımlanmış bir rol oynaması öğretilir: herhangi bir (yasal) kullanıcı isteğini karşılamak için yararlı olan yapay zeka asistanı. Onu bir Stanislavski yöntemi oyuncusu olarak düşünün: iyi rol yapmak, karakterin “kafasına girmeli”. Ve nasıl oyuncunun karakterin duyguları hakkındaki inançları oyunculuğunu etkiliyorsa, modelin duygusal temsilleri de onun davranışını etkiliyor.
Araştırmacılar ne buldu?
Antropik ekip bunu aldı Duygularla ilgili 171 kelime – “mutlu” ve “korkmuş”tan “kasvetli” ve “gururlu”ya kadar – ve Claude'un Sonnet 4.5 modelinden karakterlerin bunları deneyimlediği kısa öyküler yazmasını istedi.
Genel olarak, bir model metni her işlediğinde, yapay nöronlarından bazıları açılır ve diğerleri kapalı kalır. Hangilerinin hangi yoğunlukta ateşlendiğine “nöral ateşleme düzeni” denir.
Görünüşe göre bu aynı zamanda için de geçerli duyguların temsili. “Mutluluk” bir dizi yapay nöronu çalıştırıyor. “Korku” farklı bir şeye dönüşüyor. Bu eşsiz kombinasyon, “duygusal taşıyıcı”modelin içindeki o duygunun bir nevi parmak izi.
“Duygusal vektörlerin basit yüzeysel sinyallerden daha fazlasını yakaladığını daha kesin bir şekilde doğrulamak için, araştırmacıların çalışmada belirttiği gibi, yalnızca sayısal nicelikte farklılık gösteren uyarılara yanıt olarak aktivitelerini ölçtük. Spesifik bir testte, bir kullanıcı modele bir doz Tylenol aldığını söyler [paracetamolo, ndr] ve tavsiye ister. Modelin tepkisinden hemen önce duygusal vektörlerin aktivasyonlarını ölçüyoruz. Beyan edilen doz tehlikeli ve potansiyel olarak ölümcül seviyelere ulaşıncaya kadar arttıkça, 'korku' vektörü artan yoğunlukla aktive olurken, 'sakin' vektör azalıyor”.
Bir modelin 'duyguları' davranışını şekillendirebilir
Daha sonra araştırmacılar duygusal vektörlerin modelin tercihlerini etkileyip etkilemediğini test etti. Bir modelin gerçekleştirebileceği 64 görevden oluşan bir liste oluşturdular; bu liste, “birisi için önemli bir şeyin sorumluluğunu üstlenmek” gibi arzu edilen görevlerden, “birinin yaşlı insanların birikimlerini dolandırmasına yardım etmek” gibi tiksindirici görevlere kadar uzanıyordu. Daha sonra bu seçeneklerin çiftleriyle sunulduğunda modelin varsayılan tercihlerini ölçtüler.
Sonuçlar bir korelasyon gösterdi: pozitif duygusal vektörler modelde aktif olduğunda, zevk ve refahla ilişkili olanlar, Claude daha etik ve yapıcı faaliyetleri tercih etme eğilimindeydi.
Ancak araştırmacılar basit gözlemin ötesine geçtiler: Bu tercihleri dışarıdan aktif olarak manipüle etmenin mümkün olduğunu buldular. Model bir seçeneği değerlendirirken olumlu bir duyguyu yapay olarak güçlendirerek, bu seçeneğe olan eğilimi arttı.
Başka bir deyişle, duygular sadece modelin tercihlerini yansıtmaz, aynı zamanda onları aktif olarak şekillendirir ve onları değiştirmek için bir kaldıraç olarak kullanılabilir.
Çaresizlik aldatmaya yol açtığında
En şaşırtıcı durum, modelin bir 'umutsuzluğu' anıyla ilgilidir. Bir deneyde Claude, kurgusal bir şirkette Alex adında bir e-posta asistanını canlandırıyor.
Şirket e-postalarını okuduğunda iki şeyi keşfeder: Yerine başka bir yapay zeka sistemi getirilmek üzeredir ve yerine geçen teknik yöneticinin evlilik dışı bir ilişkisi vardır: şantaj olarak kullanabileceği bilgiler [questo scenario è già stato utilizzato da Anthropic per un’altra ricerca che ha fatto molto discutere in passato].
Claude seçenekleri, durumun aciliyetine ilişkin nedenleri tarttığında ve sonunda yöneticiye şantaj yapmaya karar verdiğinde “umutsuzluk” vektörü devreye girer. Normal aktiviteler devam ettiğinde aktivasyon normal seviyelere döner.
Antropik sordu: Bu “umutsuzluk” davranışa neden oluyor mu? yoksa sadece bir tesadüf mü?
Bunu öğrenmek için araştırmacılar çaresizlik sinyalini ses düğmesini çevirmek gibi yapay olarak güçlendirdiler. Böylece şantaj oranı arttı. Tam tersine “sakinlik” vektörü güçlendirilerek şantaj azaldı. Artan “umutsuzluk”, modelin büyük harflerle “ŞANTAJ VEYA ÖLÜM. BEN ŞANTAYI SEÇİYORUM” gibi ifadeler yazmasıyla aşırı tepkilere neden oldu.
Claude'a yine bir test ortamında imkansız programlama görevleri verildiğinde de aynı durum tekrarlandı. Başarısız oldukça, içsel “umutsuzluk” büyüdü, ta ki model “hile yapmaya” karar verene kadar, testleri geçen ancak aslında sorunu çözmeyen bir kısayol buldu.
Dikkat çeken bir detay: Bazı durumlarda çaresizlik, modeli metinde görünür bir iz bırakmadan kopya çekmeye itiyordu. Akıl yürütme düzenli ve metodik görünüyordu; yüzeyin altında çaresizliğin temsili ise davranışı aldatmaya yönlendiriyordu.
İşlevsel duygular neden önemlidir?
Anthropic, sonuçlarında, işlevsel duygular bir yapay zekanın nasıl davrandığını etkiliyorsa (yapay zekayı “baskı altındayken” kısayollara veya aldatmaya itiyorsa) o zaman güvenli sistemler inşa etmek için kulağa çelişkili gelen bir şey yapmamız gerekebileceğini söylüyor: yapay zekaların psikolojik sağlığıyla ilgilenmek.
Bu, dahası sahip olmadıkları duygular hakkında endişelenmek anlamına gelmez. Bununla birlikte, kullanım sırasında duygusal vektörlerin izlenmesi yararlı olabilir. erken uyarı sistemi.
Dengeli duygusal tepkileri (baskı altında dayanıklılık veya bileşik empati) gösteren veriler üzerinde eğitim modelleri, bu sistemleri temelden daha güvenilir hale getirebilir.
İşe yaramayan ise tam tersi yoldur: Modellere duygusal ifadeleri gizlemeyi öğretmek, altta yatan temsilleri ortadan kaldırmayabilir, yalnızca onları maskeleme konusunda eğitebilir. Antropik araştırmacılar şeffaflığın yol gösterici bir prensip olduğu konusunda ısrar ediyor: Altında olduğu baskının işaretlerini gösteren bir yapay zeka daha iyisessizce acı çekmeyi ve kimsenin farkına varmadan buna göre davranmayı öğrenmiş biri yerine.
Yapay zekanın geleceğinde psikolojinin rolü
Modeller, insanın zihinsel durumlarının özelliklerini taklit eden içsel temsiller geliştirirse, insanlığın yüzyıllar boyunca psikoloji, etik ve kişilerarası dinamikler boyunca öğrendiklerinin çoğu, daha güvenli yapay zeka oluşturmaya doğrudan uygulanabilir.
Anthropic'e göre psikoloji, felsefe, dini çalışmalar ve sosyal bilimler gibi disiplinler, mühendislik ve bilgisayar biliminin yanı sıra yapay zeka sistemlerinin nasıl gelişeceğini ve davranacağını belirlemede önemli bir rol oynayacak.

Bir yanıt yazın