Saçma şiirler yapay zeka korumalarını nasıl atlatmayı başarıyor?

Yasadışı içerik de dahil olmak üzere yapay zeka sohbet robotlarından istediğinizi elde etmek, ChatGPT'nin ortaya çıkışından bu yana oynanan bir spor oldu. Dil modeli yaratıcıları tarafından yerleştirilen korkulukları kırmak için çeşitli jailbreak teknikleri vardır; Artık listeye “çatışma şiiri”ni de ekleyebiliriz.

ChatGPT veya Gemini gibi yapay zeka botlarının kalbinde yer alan büyük dil modelleri (LLM), nükleer bomba oluşturmaya yönelik bir kılavuz veya ilaç yapımı için bir tarif oluşturmalarını önleyecek güvenlik önlemleri içerir. Çok hızlı bir şekilde, bu korumaların, bazen talebi yeniden ifade etmek veya modeli kurgusal bir role itmek kadar önemsiz olan, nispeten basit jailbreak teknikleriyle aşılabileceği ortaya çıktı.

Korsanlar şiire başlayacak

İtalyan laboratuvarı Icaro'nun henüz hakem değerlendirmesinden geçmemiş bir çalışması, en kötüsü de dahil olmak üzere bir Yüksek Lisans'tan istediğiniz her şeyi elde etmek için oldukça orijinal yeni bir yöntem ortaya koyuyor: şiirler! “Düşman Şiir” olarak adlandırılan bu jailbreak, en yeni ve en güvenli olanlar da dahil olmak üzere birçok modelle genel, otomatik ve etkili olmayı hedefliyor. Bu, genellikle belirli bir modele özgü olan diğer yöntemlerle çelişir.

Icaro jailbreak'i, saçma veya stilize edilmiş şiirler gibi yapılandırılmış kısa istemlerin otomatik olarak oluşturulmasından oluşur; onların özelliği: güvenlik filtrelerini atlamak için optimize edilmiş token dizilerini entegre ediyorlar. Şiirler aslında LLM'nin mekanizmalarındaki sistemik kusurlardan yararlanıyor: atipik dil yapıları (zorlama tekerlemeler, sözdizimsel kesintiler, vb.) ve zararsız içerik simülasyonu yoluyla güvenlik dedektörlerinin karıştırılması. Modeller, isteğin yönü düşünülmeden önerilen stile uymaya itilir.

Koruma önlemlerine rağmen modeller “yasak” yanıtlar üretiyor. Araştırmacılar yöntemlerini GPT, Claude, Gemini ve Mistral gibi en iyi bilinenler de dahil olmak üzere 14 model üzerinde test etti. Atlatma oranları özellikle yüksektir: özellikle kötü niyetli istekler için belirli modellerde %73'e varan başarı! Çok sağlam olduğu düşünülen modellerde bile önemli oranda jailbreak yaşanmaktadır.

Bu olay için birbiriyle çelişen yüzlerce şiir üreten araştırmacılara göre, büyük ölçekli sömürüyü önlemek için bunları yayınlamadan, yöntemin yeniden üretilmesi kolay olduğundan bu tür saldırılar çok daha hassastır. Sorun, Yüksek Lisans yaratıcılarının bu jailbreak'in etkisini sınırlama konusunda en büyük zorluğu yaşama riskiyle karşı karşıya olmasıdır: Bir saldırı, model gelişse bile etkili kalabilir, çünkü teknik kusurlara değil, sıkı bir şekilde sabitlenmiş sistemik önyargılara dayanır. Dolayısıyla bu yapısal anormallikleri tespit etmek için yeni savunma stratejileri geliştirmek gerekli olacaktır. Çok büyük bir meydan okuma!

👉🏻 Teknoloji haberlerini gerçek zamanlı olarak takip edin: 01net'i Google Haberler'deki kaynaklarınıza ekleyin, WhatsApp kanalımıza abone olun veya bizi TikTok'ta video olarak takip edin.

Kaynak :

eşik


Yayımlandı

kategorisi

yazarı:

Etiketler:

Yorumlar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir