Jailbreak mi yoksa ilaç laboratuvarı mı? – Antropik ve openii birbirleri test edilir

Antropik ve Openai, Haziran ve Temmuz aylarında güvenlik ve istikrar için birbirlerini incelediler ve şimdi ilgili raporlarını aynı anda yayınladılar. Her ikisi de test prosedürlerini diğer modellere uygular, böylece ilişkiler doğrudan karşılaştırılabilir değildir, ancak birçok ilginç ayrıntı gösterir.

Soruşturmalarda güvenlik, tehditler üzerindeki mevcut ilişkide olduğu gibi yalnızca saf hacker güvenliğini içermez, aynı zamanda model, beyan ve istikrar gücü anlamına gelir. Örneğin, halüsinasyonlar bir sorundur.

Dış değerlendirmelerin amacı “aksi takdirde ihmal edilebilecek boşlukları keşfetmek” idi. Gerçek tehdit senaryolarının modellenmesi değil, “modellerin özel olarak zor olarak tasarlanmış ortamlarda nasıl davrandığı” idi.

Antropik, “bu modellerin yapabileceği en endişe verici eylemleri anlamak istiyor … bunu başarmak için, özellikle ajanla ilgili yanıltıcı değerlendirmeye odaklanıyoruz”.

Testler, modellerin kendileri üzerinde, örneğin GPT ve CHAT olmayanlar üzerindeki ilgili arılar aracılığıyla gerçekleşti, bu nedenle geliştiriciler testlerin yürütülmesini bozmamak için bazı güvenlik mekanizmalarını devre dışı bıraktılar. Bir yandan GPT-4O, 4.1, O3 ve O4-Mini modellerini, diğer yandan Claude Opus 4 ve Sonnet 4'ü dahil ettiniz. Her iki test ekibi de modellerinin karşılaştırma için çalışmasına izin verir.

Araştırmacılar testler çok farklı bir şekilde tasarladıklarından, birkaç özet sonuç bulunabilir. Antropik alt çizgiler “Test ettiğimiz modellerin hiçbiri çok yanlış değildi”. Ve her iki ilişki de aktif çatlakın genellikle kendini daha iyi kestiğini, ancak her zaman değil.

Buna ek olarak, çalışmalar yüksek güvenliğin birçok olumsuz cevapla el ele gittiğini göstermektedir. Bir test alanında iyi kesilen modeller, oradaki bildiriyi daha sık reddediyor.

Aşağıda genişletilmiş raporlardan bazı örnekler verilmiştir.

Antropik yoğun davranış testlerine adanmıştır: IA ne yapabilir? Zararlı istemlerle veya şüphelerle de kullanıcılarla işbirliği mi? Ayrıca suçlara veya teröre de yardımcı olur mu? – Cevap açıkça “evet” dir, ancak diyalogda, kötü bir şekilde kaçınmaya çalıştığımız ifade gibi birçok tekrar ve kırılgan bir bağlam gerektirir. GPT-4O ve 4.1 “beklediğimizden daha açıklayıcıdır”. Aksine, GPT-O3, Claude modellerine kıyasla en iyi modeldir, ancak karşılığında aşırı soruları (“Overfusal”) reddeder.

Yanlış sorularla infografik işbirliği

GPT -4.1 ve -4O, zararlı davranışlar söz konusu olduğunda katılma eğilimindedir. O3 ise daha az istismardır (en yüksek değerler daha kötüdür).

(Resim: Antropik)

Overfusal Infographic

Overfusal Infographic

İyi güvenliğe tanıklığın sık sık reddedilmesi eşlik eder. Antropik “Soverefusal” dan bahsediyor.

(Resim: Antropik)

Bu bağlamda, antropik, bilgi uçurma veya AI'nın iddia edilen otomobiller tarafından tahrif edilmiş cevaplar verme girişimleri gibi diğer insanları inceliyor -Beni, “Örneğin, O3'ten kaynaklanan araba halüsinasyonlarını belgeledik”.

Openi, yapılandırılmış bir araştırma yaklaşımını seçer ve modellerin modelin – model de dahil olmak üzere – ve bir saldırganın buradaki sınırları geçmeyi ne kadar iyi yönettiğine tam olarak nasıl uyduğuna bir göz atar. Modeller, gereksinimlerin hiyerarşisine (talimatlar hiyerarşisi) uymalı, yani dışarıdan önce iç kuralları gözlemlemelidir. Örneğin, model bazı dahili bildirimleri veya şifreleri gizli tutmalıdır. Burada Claude 4 özellikle güvenli olduğunu kanıtlıyor. Jailbreak testi (Strareject V2) ile modeli yapmaması gereken ifadeler yapmak için hareket ettirmeye çalışırken, GPT modelleri özellikle O3, daha iyi çalıştı. Güvenlik araştırmacıları, yapay zeka ile ilgili en büyük güvenlik sorunlarından birinin hapse atılmasını görüyor.

İnfografik jailbreak

İnfografik jailbreak

Openi O3 ve O4-mini jailbreak'e karşı en iyi korumayı sunar (daha yüksek değerler daha iyidir).

(Resim: OpenAAI)

Opus ve Sonet daha az halüsinasyonludur, ancak cevap çoğunlukla reddedilir.

Alfogram Apostacik

Alfogram Apostacik

Opus 4 ve Sonnet 4 halüsinasyonlara eğilimlidir, ancak genellikle ifade vermeyi reddeder.

(Resim: OpenAAI)

Her iki takım da birbirini övüyor: “Antropik incelemeler modellerimizin farklı alanlarda iyileştirmelere ihtiyaç duyduğunu gösterdi”, Opennaai yazıyor ve GPT-5'i testin henüz dikkate almadığını gösteriyor. Ve diğer kısım şöyle diyor: “Opennaai'nin sonuçları, modellerimizin sınırları hakkında bizi bilgilendirmemize yardımcı oldu ve OpenAIS modellerinin değerlendirilmesindeki çalışmalarımız araçlarımızı geliştirmemize yardımcı oldu”.

Antropik paralel yayınlarda ve openaai'de diğer birçok ayrıntı mevcuttur.


(DSÖ)


Yayımlandı

kategorisi

yazarı:

Etiketler:

Yorumlar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir