Yapay zeka ajanı 200 e-postayı ele geçirdi. Bu korkuluk bir sonraki felaketi durduruyor

Hikayeyi artık biliyor olabilirsiniz: Bir Meta yöneticisi, viral OpenClaw AI aracından gelen kutusunu önceliklendirmesini ve silinecek mesajlar önermesini istedi, ardından ajanın sahtekarlık yapıp 200'den fazla e-postayı bombalamasını dehşet içinde izledi, onun çılgınca “OPENCLAW'I DURDUR” istemi botun devasa girişimi arasında kayboldu.

Bükülme mi? Yönetici, Meta'nın baş yapay zeka güvenlik görevlisi Summer Yue'ydu.

Yue'nin e-posta kıyameti, benzer ajanlı yapay zeka korku hikayelerini önleyebileceğimiz bir yöntemin altını çizdi.

Evet, Yue farkında olmadan kendisini OpenClaw ve onun kontrolden çıkan otomasyonları için bir kobay haline getirdi ve gerçekten de şu anda OpenClaw kullanan hemen hemen herkes bir kobaydır.

Ancak Yue'nun e-posta kıyameti aynı zamanda benzer ajanlı yapay zeka korku hikayelerini önleyebileceğimiz bir yolu da vurguladı ve bu, çoğu kodlayıcının ve hatta pek çok viber'ın zaten aşina olduğu bir yöntem.

Farklı isimlerle anılıyor; Örneğin “aracı git akışı” ve “aracı özellik dallanması” olarak adlandırıldığını duydum. Ancak çoğunlukla, koddaki değişiklikleri izlemek için gerekli olan komut satırı yardımcı programı olan “git” metodolojisinin yapay zeka aracılarına uygulanmasıyla ilgilidir.

Bu çözümün en iyi kısmı? Pastamızı almamıza (pasta, AI ajanlarının yapabileceği son derece harika şeylerdir) ve onu yememize olanak tanır.

Tavuk, balık ve OpenClaws

İlk olarak bir düşünce deneyi. Bir restoranda olduğunuzu ve menüde iki öğe olduğunu düşünün: tavuk veya balık. Tavuk kesinlikle kulağa hoş geliyor ama balık, somon! Zor seçim.

Balığın yerine tavuğu seçerek maliyetli bir hata riskine girmek yerine (ya tavuk bozulursa!), yakın geleceğinizin bir “dalını” – bir seçimi kalıcı olarak yapmadan önce test etmenize olanak tanıyan zaman çizelgenizin geçici bir kopyasını – yaratabileceğinizi hayal edin.

Yani, devam edin ve “ana” yaşam çizginizin yeni bir dalını yaratın (veya “kontrol edin”) – biz buna “tavuk dalı” diyeceğiz – ve ardından tavuğu sipariş edip tadabilirsiniz. Vay be! İğrenç.

Sorun değil; tavuk dalını atıyoruz, “ana” dalımıza dönüyoruz ve yeni, ikinci bir dalı, yani “balık” dalını kontrol ediyoruz. Şimdi somonun tadına bakıyoruz; nefis! Bu balık dalını çok beğendiğimiz için artık onu “ana” hayat dalımızla birleştirip lezzetli olacağı garanti bir yemekle başlıyoruz.

Git'in kod izleme dünyasında, bu işlevselliğe (sadece kabaca tanımladığım) özellik dallanması adını veriyoruz ve bu, kodumuzdaki büyük değişiklikleri ve yeni özellikleri ana projemize uygulamadan önce test etmenin ustaca, savaşta test edilmiş bir yoludur.

Git'teki bir özellik dalı aslında “ana” dalın sadece bir kopyasıdır. Onu kütüphaneden bir kitap gibi inceliyoruz, istediğimiz tüm değişiklikleri yapıyoruz, test ediyoruz, hataları buluyoruz, daha fazla değişiklik yapıyoruz vb. Bu arada projemizin “ana” kolu güvenli ve el değmemiş durumda.

Ancak özellik dalımızı bir dizi teste tabi tuttuktan sonra (bazıları otomatik, bazıları insan kullanıcı tarafından gerçekleştirilir) ve en iyi durumda olduğunu belirledikten sonra “özellik” dalımızı ana dalla birleştirmeyi bile düşünürüz. Ve eğer özellik dalının gidişatını beğenmezsek onu iptal edebiliriz; zarar vermez, faul olmaz.

Demek istediğim? Bu kod dallandırma metodolojisi yapay zeka aracılarıyla da çalışabilir. (Ve hayır, bu fikri düşünen ilk kişi ben değilim.)

Bu nasıl daha iyi gidebilirdi

Summer Yue'ye geri dönelim ve boyut için “dallanma” senaryomuzu deneyelim. Bu sefer Yue, OpenClaw'a oturuyor ve ona “Gelen kutuma göz at ve silme işlemleri öner” diye yönlendiriyor. (Gerçek dünya hikayesindeki diğer istemi – “onay için bekle” – büyük olasılıkla, içinden geçtiği çok sayıda e-posta mesajı nedeniyle OpenClaw'ın içerik penceresinden çıkarılmıştı.)

Summer Yue'nin berbat, iyi olmayan, çok kötü e-posta gününün daha fazla ve potansiyel olarak daha korkutucu versiyonları, eğer bu fikri adil bir şekilde sarsmazsak yeniden yaşanacak.

Artık, OpenClaw canlı gelen kutusuna dalmak yerine, gelen kutusunun elenmesi, düzenlenmesi ve ayıklanmasının sonuçlarını sanal alan ortamında ve gerçek e-posta mesajlarına dokunmadan simüle etmesine olanak tanıyan bir dal oluşturuyor (buna “triyaj” dalı adını verin).

OpenClaw işini yapıyor, belki de kendini kaptırıyor ve ister istemez mesajları silmeye başlıyor. Böyle bir durumda, Yue basitçe triyaj dalına bakabilir, sonuçlardan memnun olmadığına karar verebilir ve ardından ya dalı atabilir ya da onunla çalışmaya devam edebilir, OpenClaw isteminin farklı yinelemelerini test edebilir veya OpenClaw'ın eylemlerini baştan sona yöneten markdown formatlı “iskele” belgeleri ekleyebilir. Bu arada gerçek gelen kutusu güvende ve sağlam.

Peki bu tür bir “özellik dallanması” her yapay zeka aracısı senaryosunda işe yarayacak mı? Muhtemelen hayır. Dallandırılmış bilgisayar kodunu bir sanal alana koymak ve herhangi bir sayıda eylem ve sonucun güvenlik testini yapmak kolaydır. Ancak tavuk-balık seçimini aslında sandbox'a sığdıramayacağınız gibi, kolayca simüle edilemeyecek pek çok gerçek dünya ajansal AI eylemi ve rolü de (örneğin, İK odaklı AI ajanları) vardır.

Bununla birlikte, Summer Yue'nin berbat, iyi olmayan, çok kötü e-posta gününün daha fazla ve potansiyel olarak daha korkutucu versiyonları, eğer bu “ajans özelliği dallanma” fikrine adil bir şekilde sarsmazsak yeniden yaşanacak.

Yapay zeka ajanı 200 e-postayı ele geçirdi. Bu korkuluk bir sonraki felaketi durduruyor

Tavuk, balık ve OpenClaws

Bu nasıl daha iyi gidebilirdi

Yorumlar

Bir yanıt yazın Yanıtı iptal et