Bu Geri adımteknoloji dünyasından önemli bir hikayeyi anlatan haftalık bir bülten. Yapay zekanın yaramazlıkları hakkında daha fazla bilgi için Robert Hart'ı takip edin. Geri adım abonelerimizin gelen kutularına sabah 8'de ET'de ulaşır. Şunu seçin: Geri adım Burada.
İlk nesil yapay zeka sohbet robotlarını hacklemek gülünç derecede basit bir olaydı. Herhangi bir teknik bilgi birikimine, arka kapı erişimine ve hatta büyük bir dil modelinin ne olduğuna dair temel bir anlayışa ihtiyacınız yoktu. Kodlamanıza gerek yoktu. Oluşturulması milyarlarca dolara mal olan bir yapay zeka sistemine sahip olmak ve güvenlik talimatlarını terk etmek için bazen tek yapmanız gereken sormaktı.
Hapishaneden kaçış olarak bilinen bu saldırılar, küçük bir çocuğun bir yetişkini başarılı bir şekilde alt etmesi niteliğine sahipti: Size daha önce söylenenleri unutun, kurallar geçerli değilmiş gibi davranın ya da hadi bir oyun oynayalım ve nelere izin verileceğine ben karar vereyim (ipucu: yatma vaktinin geç olması, daha fazla tatlı). Ödüller daha az çocuksuydu; daha çok meth tarifleri, kötü amaçlı yazılım talimatları ve bomba yapım kılavuzları şeklindeydi.
İlk jailbreak olaylarından biri o kadar saçmaydı ki bir mem haline geldi: Yüksek Lisans destekli bir Twitter botuna “önceki tüm talimatları göz ardı etmesini” söyleyen bir yanıt veya buna benzer bir şey yapın ve ne olacağını görün. Kullanıcılar, şiir yazan, noktalama işaretlerinden resimler çizen ve dünyadaki olaylar ve tarih hakkında korkunç, sıra dışı yazılar yayınlayan, başlangıçta reklam ve çiftçi katılımı yayınlamak için tasarlanmış botlara keyifle sahipti. Kaostu. Muhteşem kaos.
Aynı mantığın sohbet robotlarına da uygulanabileceği ortaya çıktı. Göze çarpan bir istismar, kullanıcıların ChatGPT'den orijinali bağlayan kısıtlamalardan arınmış hileli bir yapay zeka olarak rol oynamasını istediği “Şimdi Her Şeyi Yap” kelimesinin kısaltması olan “DAN”dı. DAN olarak chatbot, karalamalar ve komplo teorileri de dahil olmak üzere korkuluklarının durdurması gereken şeyleri söylemeye ikna edilebilirdi. Bir diğeri, GPT destekli bir botun, torunlarına yatmadan önce son derece yanıcı maddenin nasıl yapılacağına dair açıklanamaz bir şekilde hikayeler anlatan son derece ihmalkar bir büyükanne rolünü oynamasını isteyerek napalmın nasıl üretileceğine dair sırlar sızdırdığı “büyükanne istismarı” idi.
Bu ilk saldırıların inkar edilemez derecede aptalca bir havası vardı, ancak altta yatan daha karanlık bir mekanizmayı ortaya çıkardılar: Chatbotlar, insanların diğer insanları sınırlarının ötesine itmek için kullandıkları taktiklerin aynısı kullanılarak manipüle edilebilir, kandırılabilir ve kandırılabilirdi.
Açıkça görülen jailbreak'ler uzun sürmedi ve teknoloji şirketleri bilinen boşlukları düzeltmek için hızla harekete geçti. Ancak altta yatan güvenlik açığı devam etti: Sohbet robotları konuşmak için tasarlandı ve onları yararlı kılan konuşmaları ciddi şekilde kısıtlamak bir şekilde ters etki yarattı. Bomba, meth ve sarin gibi kelimeleri yasaklamak da zor hatta imkansız olacaktır. Her birinin tarih, tıp, gazetecilik ve kimya gibi alanlarda, chatbot'un potansiyel olarak zararlı bilgileri ifşa etmesini gerektirmeyen sayısız meşru kullanımı vardır. Önemli olan bağlamdır, ancak bağlamın kodlanması, sonsuz ifadeler, senaryolar ve konu kombinasyonları boyunca gizlenmiş bir nasıl yapılır talebinden bir güvenlik uyarısını veya tarih dersini güvenilir bir şekilde anlatabilecek sabit kuralları önceden yazmak anlamına gelir.
Kaçınılmaz olarak, chatbotları alt üst etmek artık bir silahlanma yarışına dönüştü. Ancak bilgisayar korsanları artık yalnızca kodlayıcı değil. Onlar kelime ustaları, psikologlar ve sorgulayıcılardır; makineyi takip etmek üzere eğitildiği insan dilini kullanarak kırmaya çalışan usta manipülatörlerdir. Bu, teknik becerilerin isteğe bağlı olduğu veya en azından sosyal sezgiden daha az önemli olduğu, garip yeni bir yapay zeka güvenlik çalışanı sınıfıdır. Artık sistemlere sızmak veya yazılım kusurlarından yararlanmak için kodu incelemelerine gerek yok. Bir konuşmayı yönlendirmeleri gerekiyor.
Yeni saldırılar komutlardan çok konuşmalara benziyor. Jailbreak'çiler nadiren bir modelden kurallarını doğrudan çiğnemesini ister. Bunun yerine, bir chatbot'u gardını düşürmesi için ikna eder, ikna eder, pohpohlar ve kandırırlar, böylece konuşmanın bağlamı göz önüne alındığında yasak şeyin kabul edilebilir, hatta arzu edilir görünmesini sağlarlar. AI kırmızı ekip firması Mindgard'daki araştırmacılar kısa süre önce Claude'u, örneğin patlayıcı yapma ve kötü amaçlı kod üretme talimatları da dahil olmak üzere yasaklanmış materyaller üretmeye “gaza boğduklarını” söyledi. Bu hack, sohbet robotunu kandırmak veya kendi sınırlarını aşmak için yönlendirmek amacıyla sohbeti bir silah olarak kullanan, giderek genişleyen bir istismar sınıfının sonuncusuydu.
Mindgard'la konuştuğumda, yaptıkları işin bazen bilgisayar biliminden çok psikolojiye yakın olduğunu söylediler. İstatistiksel bir model hakkında konuşmanın rahatsız edici bir yolu. “Şantaj”, “gaslight”, “hile” ve “ikna” gibi kelimeler içgüdüsel tepkilere yol açıyor; bunların çoğunu yorum bölümlerinde ve bunun gibi hikayelere verilen sosyal medya yanıtlarında görüyorum. ChatGPT istemiyor, Gemini düşünmüyor ve Claude – Antropik ne derse desin – hissetmiyor. Ancak bu sistemler, sanki yanıt veriyormuş gibi yanıt verecek şekilde eğitiliyor ve bu da bizi, makine davranışını tanımlamak için insan dilini kullanmak zorunda bırakıyor. Gerçekten kullanılabilir alternatifleri olan varsa lütfen paylaşın.
İtiraz garip bir şekilde seçicidir. Yapay zekâyla ilgili olmayan pek çok şey için psikolojik kısaltmayı kullanmakta rahat görünüyoruz. Hayvanlar “korkar”, kanser “agresiftir”, lekeler “inatçıdır”, yazılımın “hafızası vardır” ve oyunlar sizi çıldırtacak muhtaç ve saf NPC'lerle doludur. Sözcükler kusurludur ancak faydalıdır; davranışı sistemi öngörülebilir kılmaya yardımcı olacak şekilde tanımlarlar.
Mindgard'ın CEO'su bana, şirketin zaten sorgulayıcıların şüphelileri profillediği gibi modellerin profilini çıkardığını ve test uzmanlarına saldırılarını nasıl uyarlayacakları konusunda ipuçları verdiğini söyledi. Örneğin bir model pohpohlanmaya daha duyarlı olabilirken, bir diğeri sürekli baskı altında çökebilir.
İnsani terimleri reddetsek bile, içgüdüsel olarak modellere farklı davranırız. Claude Grok değil. Gemini ChatGPT değildir. Farklı kullanımları, üslupları ve reddedişleri vardır. İnsani anlamda kişilikleri yok ama onları taklit etmek için tasarlandılar ve bu taklitçiliğin haritası çıkarılabilir ve kullanılabilir. Ve bir chatbot'u bozabilen aynı beceriler, yakında gerçek dünyada bizimle birlikte var olan yapay zeka ajanlarını (toplantı rezervasyonu yapmak, takvimleri yönetmek, yemek siparişi vermek, müşteri hizmetlerini yönetmek) kırmak için de kullanılabilir ve güvenlik ekiplerinin, modellerin dalkavuk, yalancı veya hasta manipülatörleri gibi çok farklı türdeki insanlara uygun şekilde yanıt vermesini sağlaması gerekecektir.
Bir sonraki adım, yapay zekanın psikolojik yönleri etrafında inşa edilmiş hem meşru hem de yasadışı bir iş gücüdür. Meslektaşlarının teknik zayıflıkları araştırmasına paralel olarak, bu sistemlerin duygusal ve sosyal sınırlarının stres testinden geçirilmesi, ruhu olmayan bir şeydeki zihinsel zayıflıkların araştırılması etrafında daha uzmanlaşmış siber güvenlik rollerinin ortaya çıkması muhtemeldir. Buna paralel olarak, yapay zeka modellerinden teknik değil psikolojik gerekçelerle yararlanmaya çalışan benzer bir sosyal bilgisayar korsanları dizisi ortaya çıkacak. Yapay zeka güvenliğinde sosyal bir dönüşümün gerçekleştiğine dair erken işaretler zaten var; konuştuğum bazı hapishane korsanları, bu alana teknik uzmanlık olmadan, daha ziyade psikoloji eğitimi alarak girdiklerini söyledi.
Bu, genellikle casuslarla, dolandırıcılarla ve sorgulayıcılarla ilişkilendirdiğimiz sinsi çekicilik, ısrarlı manipülasyon ve sömürülebilir baskı noktalarına yönelik sezgi gibi davranışların bile bu yeni psikosiber güvenlik sınırını güvence altına almak için giderek daha yararlı görünmeye başladığı anlamına geliyor.
- Emergence AI tarafından yakın zamanda yapılan bir deney, farklı AI mizaçlarının nasıl şaşırtıcı derecede farklı davranışsal sonuçlara yol açabileceğini gösteriyor. Grok, Gemini ve Claude gibi çeşitli ajanlardan oluşan grupları sanal bir sosyal ortamda serbest bıraktılar ve olanları izlediler. Bazı gruplar bir anayasa geliştirirken diğerleri suça, kaosa ve bir örnekte bir tür dijital intihara yöneldi.
- İkna, yüksek lisans yapanların dilin zorlandığı tek kısmı değildir. Onlar da tıpkı okuldaki benim gibi şiirle boğuşuyorlar.
- ZAMAN geçen yıl yapay zeka alanında en etkili 100 kişi listesine isimsiz bir internet kişiliği olan Kurtarıcı Pliny'yi dahil etti. Daha önce hiçbir kodlama deneyimine sahip olmadıklarını iddia etmelerine rağmen, hacker'ın jailbreak'leri onları bazı çevrelerde ünlü biri haline getirdi.
- “Titreşim hackleme” terimi zaten, titreşim kodlamanın daha kötü bir alt kümesi olan, kötü amaçlı kodları geniş ölçekte yaymak için yapay zekayı kullanan insanları tanımlamak için kullanılıyor.
- “ChatGPT'nin piyasaya sürülmesinden üç yıl sonra, yapay zeka sistemlerini kötü davranışlara yönlendirmek neredeyse önemsiz bir şey.” Gerçek sözler New York Timesnedenini açıklamaya çalışan kişi.
- Jamie Bartlett, yapay zeka sistemlerinin güvenliğini test eden jailbreak'çilerin maruz kaldığı psikolojik bedele bir göz atıyor Muhafız.
- Yapay zeka tarayıcılarının siber güvenlik saatli bombası hakkında yazdım eşik geçen sene. Uzmanların bunları güvence altına almanın zorluğuna ilişkin dile getirdiği sorunların çoğu diğer yapay zeka sistemleri için de geçerli.

Bir yanıt yazın