OpenAI, AI tarayıcılarının anlık enjeksiyon saldırılarına karşı her zaman savunmasız olabileceğini söylüyor

OpenAI, Atlas AI tarayıcısını siber saldırılara karşı güçlendirmek için çalışırken bile şirket, yapay zeka aracılarını genellikle web sayfalarında veya e-postalarda gizlenen kötü niyetli talimatları takip etmeye yönlendiren bir saldırı türü olan hızlı enjeksiyonların, yakın zamanda ortadan kalkmayacak bir risk olduğunu kabul ediyor ve bu da yapay zeka aracılarının açık web üzerinde ne kadar güvenli bir şekilde çalışabileceğine dair soruları artırıyor.

OpenAI Pazartesi günkü bir blog yazısında, firmanın aralıksız saldırılarla mücadele etmek için Atlas'ın zırhını nasıl güçlendirdiğini ayrıntılarıyla anlatan “Web'deki dolandırıcılık ve sosyal mühendislik gibi hızlı enjeksiyonun da tamamen 'çözülmesi' pek mümkün değil” diye yazdı. Şirket, ChatGPT Atlas'taki “aracı modunun” “güvenlik tehdidi yüzeyini genişlettiğini” kabul etti.

OpenAI, Ekim ayında ChatGPT Atlas tarayıcısını piyasaya sürdü ve güvenlik araştırmacıları, Google Dokümanlar'da, temel tarayıcının davranışını değiştirebilecek birkaç kelime yazmanın mümkün olduğunu gösteren demolarını yayınlamak için acele ettiler. Aynı gün Brave, dolaylı istem enjeksiyonunun Perplexity's Comet dahil yapay zeka destekli tarayıcılar için sistematik bir zorluk olduğunu açıklayan bir blog yazısı yayınladı.

OpenAI, istem tabanlı enjeksiyonların ortadan kalkmadığını fark eden tek kişi değil. Birleşik Krallık'ın Ulusal Siber Güvenlik Merkezi bu ayın başlarında, üretken yapay zeka uygulamalarına yönelik ani enjeksiyon saldırılarının “hiçbir zaman tamamen hafifletilemeyeceği” ve web sitelerini veri ihlallerinin kurbanı olma riskiyle karşı karşıya bırakacağı konusunda uyardı. Birleşik Krallık hükümet kurumu, siber profesyonellere, saldırıların “durdurulabileceğini” düşünmek yerine, hızlı enjeksiyonların riskini ve etkisini azaltmalarını tavsiye etti.

OpenAI adına şirket şunları söyledi: “Hızlı enjeksiyonu uzun vadeli bir AI güvenlik sorunu olarak görüyoruz ve buna karşı savunmamızı sürekli olarak güçlendirmemiz gerekecek.”

Şirketin bu Sisifos görevine cevabı mı? Firmanın söylediği proaktif, hızlı tepki döngüsü, yeni saldırı stratejilerinin “vahşi ortamda” kullanılmadan önce dahili olarak keşfedilmesine yardımcı olma konusunda erken umut vaat ediyor.

Bu, Anthropic ve Google gibi rakiplerin söylediklerinden tamamen farklı değil: Sürekli anlık saldırı riskine karşı mücadele etmek için savunmaların katmanlı olması ve sürekli olarak stres testine tabi tutulması gerekir. Örneğin Google'ın son çalışmaları, aracı sistemler için mimari ve politika düzeyindeki kontrollere odaklanıyor.

Ancak OpenAI'nin farklı bir yaklaşım benimsediği nokta “LLM tabanlı otomatik saldırgan”dır. Bu saldırgan temel olarak OpenAI'nin takviyeli öğrenmeyi kullanarak eğittiği ve bir AI aracısına kötü amaçlı talimatlar gizlice sokmanın yollarını arayan bir bilgisayar korsanı rolünü oynamak üzere eğitilmiş bir bottur.

Bot, saldırıyı gerçekte kullanmadan önce simülasyonda test edebilir ve simülatör, hedef yapay zekanın saldırıyı görmesi durumunda nasıl düşüneceğini ve hangi eylemleri gerçekleştireceğini gösterir. Bot daha sonra bu yanıtı inceleyebilir, saldırıda ince ayar yapabilir ve tekrar tekrar deneyebilir. Hedef yapay zekanın iç muhakemesine ilişkin bu içgörü, dışarıdakilerin erişemeyeceği bir şeydir; dolayısıyla teorik olarak OpenAI'nin botu, kusurları gerçek dünyadaki bir saldırgandan daha hızlı bulabilmelidir.

Bu, yapay zeka güvenlik testlerinde yaygın bir taktiktir: Uç durumları bulmak için bir aracı oluşturun ve simülasyonda bunlara karşı hızlı bir şekilde test yapın.

“Bizim [reinforcement learning]OpenAI, “eğitimli bir saldırgan, bir aracıyı onlarca (hatta yüzlerce) adımdan oluşan karmaşık, uzun vadeli, zararlı iş akışlarını yürütmeye yönlendirebilir” diye yazdı. “Ayrıca kırmızı ekip oluşturma kampanyamızda veya dış raporlarımızda yer almayan yeni saldırı stratejilerini de gözlemledik.”

Resim Kredisi:OpenAI

Bir demoda (yukarıda kısmen resmedilmiştir) OpenAI, otomatik saldırganın kötü amaçlı bir e-postayı kullanıcının gelen kutusuna nasıl soktuğunu gösterdi. Yapay zeka temsilcisi daha sonra gelen kutusunu taradığında, e-postadaki gizli talimatları izledi ve ofis dışında bir yanıt hazırlamak yerine bir istifa mesajı gönderdi. Ancak şirkete göre, güvenlik güncellemesinin ardından “aracı modu” hızlı enjeksiyon girişimini başarıyla tespit edebildi ve bunu kullanıcıya işaretleyebildi.

Şirket, anında enjeksiyona kusursuz bir şekilde karşı koymanın zor olduğunu, ancak gerçek dünyadaki saldırılarda ortaya çıkmadan önce sistemlerini güçlendirmek için büyük ölçekli testlere ve daha hızlı yama döngülerine güvendiğini söylüyor.

Bir OpenAI sözcüsü, Atlas'ın güvenliğine yönelik güncellemenin başarılı enjeksiyonlarda ölçülebilir bir azalmaya yol açıp açmadığını paylaşmayı reddetti ancak firmanın lansmandan bu yana Atlas'ı hızlı enjeksiyona karşı güçlendirmek için üçüncü taraflarla birlikte çalıştığını söyledi.

Siber güvenlik firması Wiz'in baş güvenlik araştırmacısı Rami McCarthy, takviyeli öğrenmenin saldırgan davranışına sürekli uyum sağlamanın bir yolu olduğunu ancak bunun resmin yalnızca bir parçası olduğunu söylüyor.

McCarthy, Tmzilla'a “Yapay zeka sistemlerinde risk hakkında akıl yürütmenin yararlı bir yolu, özerkliğin erişimle çarpılmasıdır” dedi.

McCarthy, “Ajan tarayıcılar genellikle bu alanın zorlu bir bölümünde yer alıyor: orta düzeyde özerklik ile çok yüksek erişimin birleşimi” dedi. “Mevcut önerilerin çoğu bu ödünleşimi yansıtıyor. Oturum açılmış erişimin sınırlandırılması öncelikle maruz kalmayı azaltırken, onay taleplerinin gözden geçirilmesini gerektirmek özerkliği kısıtlar.”

Bunlar, OpenAI'nin kullanıcıların kendi risklerini azaltmalarına yönelik tavsiyelerinden ikisi ve bir sözcü, Atlas'ın mesaj göndermeden veya ödeme yapmadan önce kullanıcı onayı almak üzere de eğitildiğini söyledi. OpenAI ayrıca kullanıcıların temsilcilere gelen kutunuza erişmelerini sağlamak ve onlara “gerekli olan işlemi yapmalarını” söylemek yerine özel talimatlar vermesini önerir.

OpenAI'ye göre “Geniş serbestlik, güvenlik önlemleri mevcut olsa bile gizli veya kötü amaçlı içeriğin aracıyı etkilemesini kolaylaştırıyor.”

OpenAI, Atlas kullanıcılarını hızlı enjeksiyonlara karşı korumanın en önemli öncelik olduğunu söylerken McCarthy, riske yatkın tarayıcıların yatırım getirisi konusunda bazı şüpheleri davet ediyor.

McCarthy, Tmzilla'a şunları söyledi: “Günlük kullanım durumlarının çoğunda, aracı tarayıcılar henüz mevcut risk profillerini haklı çıkaracak yeterli değeri sunmuyor.” “E-posta ve ödeme bilgileri gibi hassas verilere erişimleri göz önüne alındığında risk yüksek, her ne kadar bu erişim aynı zamanda onları güçlü kılıyor olsa da. Bu denge gelişecek, ancak bugün ödünleşimler hala oldukça gerçek.”

OpenAI, AI tarayıcılarının anlık enjeksiyon saldırılarına karşı her zaman savunmasız olabileceğini söylüyor

Yorumlar

Bir yanıt yazın Yanıtı iptal et