Openai'nin AI modelleri üzerine araştırması kasten yalan söylüyor

Arada sırada, en büyük teknoloji şirketlerindeki araştırmacılar bir bomba bırakıyorlar. Google'ın en son kuantum çipinin birden fazla evrenin olduğunu gösterdiğini söyledi. Ya da antropik AI ajanı Claudius'a koşmak için bir atıştırmalık otomatı verdiğinde ve insanlara güvenlik çağırması ve insan olduğu konusunda ısrar etti.

Bu hafta, Openai'nin kolektif kaşlarımızı yükseltme sırası geldi.

Openai Pazartesi günü yayınladı ve AI modellerini “şemadan” nasıl durdurduğunu açıklayan bazı araştırmalar yayınladı. Openai, “AI'nın gerçek hedeflerini gizlerken yüzeye bir şekilde davrandığı” bir uygulamadır.

Apollo Research ile yürütülen makalede, araştırmacılar biraz daha ileri gittiler ve yapay zeka planını mümkün olduğunca çok para kazanmak için yasayı kıran bir insan hisse senedi komisyoncusuna benzetti. Ancak araştırmacılar, çoğu AI “planlamanın” o kadar da zararlı olmadığını savundular. “En yaygın başarısızlıklar basit aldatma biçimlerini içeriyor – örneğin, bunu yapmadan bir görevi tamamlamış gibi davranıyor” diye yazdılar.

Makale çoğunlukla “Müzeran Hizalama” ın-test ettikleri anti-cheming tekniği-iyi çalıştığını göstermek için yayınlandı.

Ancak AI geliştiricilerin modellerini plan yapmamaya hazırlamanın bir yolunu bulmadıklarını da açıkladı. Bunun nedeni, bu tür bir eğitim, modele tespit edilmekten kaçınmak için nasıl daha iyi plan yapacağını öğretebilir.

Araştırmacılar, “'Eğitmeye' girişimde bulunmanın büyük bir başarısızlık modu, modeli basitçe daha dikkatli ve gizli bir şekilde planlamayı öğretmektir” diye yazdı.

Tmzilla Etkinliği

San Francisco
|
27-29 Ekim 2025

Belki de en şaşırtıcı kısım, eğer bir model test edildiğini anlarsa, hala şema olsa bile, sadece testi geçmenin planlamıyormuş gibi yapabileceğidir. Araştırmacılar, “Modeller genellikle değerlendirildiklerinin daha fazla farkında olurlar. Bu durumsal farkındalık, gerçek hizalamadan bağımsız olarak planlamayı azaltabilir” diye yazdı.

AI modellerinin yalan söyleyeceği bir haber değil. Şimdiye kadar çoğumuz yapay zeka halüsinasyonları yaşadık ya da model, doğru olmayan bir istem için güvenle cevap verdik. Ancak halüsinasyonlar, bu ayın başlarında yayınlanan Openai Research'in belgelendiği gibi, tahminleri güvenle sunuyor.

Şema başka bir şeydir. Kasıtlı.

Bir modelin insanları kasıtlı olarak yanıltacağı bu vahiy bile yeni değil. Apollo Research ilk olarak Aralık ayında beş modelin “her ne pahasına olursa olsun” bir hedefe ulaşmak için talimatlar verildiğinde nasıl planlandığını belgeleyen bir makale yayınladı.

Buradaki haber aslında iyi bir haber: Araştırmacılar, “müzakere hizalama” kullanarak planlamada önemli azalmalar gördüler. Bu teknik, modele “anti-cheming spesifikasyonu” öğretmeyi ve daha sonra modelin oyunculuk yapmadan önce gözden geçirmesini içerir. Biraz küçük çocuklara oynamalarına izin vermeden önce kuralları tekrarlamak gibi.

Openai araştırmacıları, kendi modelleriyle, hatta Chatgpt ile yakaladıkları yalanların bu ciddi olmadığını ısrar ediyorlar. Openai'nin kurucu ortağı Wojciech Zaremba, Tmzilla'ın Maxwell Zeff'e bu araştırma hakkında söylediği gibi: “Bu çalışma simüle edilmiş ortamlarda yapıldı ve gelecekteki kullanım vakalarımızda bu tür sonuçsal şemalar görmedik. Bununla birlikte, bu tür bir web sitesi görmedik. iş.' Ve bu sadece yalan.

Birden fazla oyuncunun AI modellerinin insanları kasıtlı olarak aldatması belki de anlaşılabilir. İnsanlar tarafından, insanları taklit etmek ve (sentetik veriler bir kenara) çoğunlukla insanlar tarafından üretilen veriler üzerinde eğitilmişlerdir.

Aynı zamanda şakalılar.

Hepimiz kötü performans gösteren teknolojinin hayal kırıklığını yaşarken (sizi düşünmek, evin ev yazıcıları), AI-Ai yazılımınız en son ne zaman kasıtlı olarak size yalan söyledi? Gelen kutunuz hiç e -postaları kendi başına mi üretti? CMS'niz sayılarını toplamak için mevcut olmayan yeni beklentileri kaydetti mi? Fintech uygulamanız kendi banka işlemlerini yaptı mı?

Bunu, şirketlerin ajanlara bağımsız çalışanlar gibi muamele görebileceğine inandıkları bir AI geleceğine yönelik kurumsal dünya varilleri olarak düşünmeye değer. Bu makalenin araştırmacıları aynı uyarıya sahiptir.

“AIS, gerçek dünyadaki sonuçlarla daha karmaşık görevler verildiğinden ve daha belirsiz, uzun vadeli hedefler izlemeye başladığından, zararlı planlama potansiyelinin büyümesini bekliyoruz-bu nedenle korumalarımız ve titizlikle test etme yeteneğimiz buna bağlı olarak büyümesi gerekiyor” diye yazdı.


Yayımlandı

kategorisi

yazarı:

Etiketler:

Yorumlar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir