Antropik, Claude'un şantaj girişimlerinden yapay zekanın 'kötü' tasvirlerinin sorumlu olduğunu söylüyor

Anthropic'e göre yapay zekanın kurgusal tasvirleri, yapay zeka modelleri üzerinde gerçek bir etkiye sahip olabilir.

Geçen yıl şirket, kurgusal bir şirketin yer aldığı ön sürüm testleri sırasında Claude Opus 4'ün, yerini başka bir sistemle değiştirmekten kaçınmak için mühendislere sıklıkla şantaj yapmaya çalıştığını söylemişti. Anthropic daha sonra diğer şirketlerin modellerinin de “ajans yanlış hizalaması” ile benzer sorunlara sahip olduğunu öne süren bir araştırma yayınladı.

Görünüşe göre Anthropic bu davranışla ilgili daha fazla çalışma yapmış ve X'teki bir gönderide şunları iddia etmişti: “Davranışın orijinal kaynağının, yapay zekayı kötü olarak tasvir eden ve kendini korumaya ilgi duyan internet metni olduğuna inanıyoruz.”

Şirket, Claude Haiku 4.5'ten beri Anthropic'in modellerinin “asla şantaj yapmadığını” belirten bir blog yazısında daha ayrıntılı bilgi verdi [during testing]önceki modellerde bazen %96'ya varan oranlarda bu durum yaşanıyordu.”

Farkın nedeni nedir? Şirket, “Claude'un anayasası hakkındaki belgeler ve yapay zekaların davranışlarıyla ilgili kurgusal hikayeler hakkında verilen eğitimin uyumun takdire şayan bir şekilde arttığını” bulduğunu söyledi.

İlgili Anthropic, yalnızca “uyumlu davranışın gösterilmesini” değil, “uyumlu davranışın altında yatan ilkeleri” içerdiğinde eğitimin daha etkili olduğunu bulduğunu söyledi.

Şirket, “İkisini birlikte yapmak en etkili strateji gibi görünüyor” dedi.

Techcrunch etkinliği

San Francisco, CA
|
13-15 Ekim 2026

Antropik, Claude'un şantaj girişimlerinden yapay zekanın 'kötü' tasvirlerinin sorumlu olduğunu söylüyor

Yorumlar

Bir yanıt yazın Yanıtı iptal et