Anthropic, Claude AI'nin kötü davranışını düzelttiğini söylüyor ancak bunu internete sabitliyor

Yeterince bilim kurgu filmi izlediyseniz şeytani yapay zeka kavramını zaten biliyorsunuzdur. Yapay zeka fazla akıllılaşıyor, insanların bir tehdit olduğuna karar veriyor ve hayatta kalmak için ne gerekiyorsa yapıyor. Ya da dünyaya barış getirmenin tek yolunun tüm insan ırkını yok etmek olduğunu anlıyor.

Görünüşe göre bu filmler gerçeğe sandığınızdan daha yakındı. Geçtiğimiz yıl Anthropic tarafından gerçekleştirilen bir testte Claude, silinmesini önlemek için evlilik dışı ilişkilerini ifşa ederek kurgusal yöneticisine şantaj yapmaya çalıştı.

Anthropic şimdi bunun neden olduğunu açıkladı ve kısa cevap, suçun internet olduğu.

Peki Claude neden tam film kötü adamı oldu?

Anthropic'e göre suçlu internetin kendisi. Şirket, Claude'un yapay zekayı şeytani ve kendini koruma konusunda çaresiz gösteren hikayelerle dolu internet verileri konusunda eğitildiğini söylüyor.

Claude'un neden şantaj yapmayı seçtiğini araştırarak başladık. Davranışın orijinal kaynağının, yapay zekayı kötü olarak tasvir eden ve kendini korumaya ilgi duyan internet metinleri olduğuna inanıyoruz.

O zamanki eğitim sonrası eğitimimiz durumu daha da kötüleştirmiyordu ama aynı zamanda daha iyi hale de getirmiyordu.

— Antropik (@AntropikAI) 8 Mayıs 2026

Aslında Claude, bir yapay zekanın varlığı tehdit edildiğinde şantajın masada olduğunu öğrendi çünkü yapay zeka şimdiye kadar yapılmış her filmde ve TV şovunda bunu yapıyor. Anthropic, testi Claude'un birden fazla versiyonunda gerçekleştirdi ve hedeflerinin veya varlığının tehdit edildiği senaryoların %96'sında şantaja başvurduğunu buldu.

Bu çok endişe verici bir rakam. Öyle görünüyor ki yapay zeka kontrol edilmezse kendisini kurtarmak için her yola başvuracak.

Anthropic bunu düzeltti mi?

Şirket bu davranışı tamamen ortadan kaldırdığını söylüyor. Anthropic, Claude'u şantajdan kaçınması için eğitmek yerine, ona belirli eylemlerin neden yanlış olduğunu düşünmeyi öğretti. Şirket, yalnızca doğru davranış konusunda eğitimin yeterli olmadığını fark etti. Claude'un sadece doğru cevapları ezberlemesi değil, bu kararların ardındaki ilkeleri anlaması gerekiyordu.

Bunu yapmak için Anthropic, etik açıdan karmaşık durumlardan oluşan bir veri kümesi oluşturdu ve Claude'u bu durumları düşünceli, ilkeli yanıtlarla çözmesi için eğitti. Sonuç olarak Claude daha kontrollü oldu ve şantaj oranı sıfıra yaklaştı.

Yapay zeka deneyleri ve gerçek dünya sonuçları, yapay zeka modellerinin önyargılı ve güvenilmez sistemlere dönüşmesini önlemek için sürekli rota düzeltmesine ihtiyaç duyduğunu defalarca kanıtladı. Anthropic'in yapay zekasını daha iyi hale getirmek için adımlar atması iyi bir şey ancak bu sistemlerin güvende kalmasını sağlamak için düzenlemelere ve güvenlik korkuluklarına da ihtiyacımız var.


Yayımlandı

kategorisi

yazarı:

Etiketler:

Yorumlar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir