İnsanlar şimdi AI kıyaslamak için Super Mario kullanıyor

Pokémon'un yapay zeka için zor bir ölçüt olduğunu düşündü mü? Bir grup araştırmacı, Super Mario Bros.'un daha da zor olduğunu savunuyor.

Cuma günü California San Diego Üniversitesi'nde bir araştırma kuruluşu olan Hao Ai Lab, AI'yi canlı Super Mario Bros. oyunlarına attı. Antropic'in Claude 3.7 en iyisini yaptı, ardından Claude 3.5. Google'ın Gemini 1.5 Pro ve Openai'nin GPT-4O'su mücadele etti.

Super Mario Bros'un orijinal 1985 sürümü ile aynı sürümü açık değil. Oyun bir emülatörde koştu ve AIS'i Mario üzerinde kontrol etmek için bir çerçeve olan Gamingagent ile entegre oldu.

Resim Kredileri:Hao laboratuvar

Hao'nun şirket içinde geliştirdiği Gamingagent, “Bir engel veya düşman yakınsa, kaçmak/kaçmak için sola atlayın” ve oyun içi ekran görüntüleri gibi AI temel talimatlarını besledi. AI daha sonra Mario'yu kontrol etmek için Python kodu şeklinde girişler oluşturdu.

Yine de Hao, oyunun her modeli karmaşık manevraları planlamak ve oyun stratejileri geliştirmek için “öğrenmeye” zorladığını söylüyor. İlginç bir şekilde, laboratuvar, Openai'nin O1 gibi, çözümlere ulaşmak için adım adım problemlerle “düşünen” akıl yürütme modellerinin, çoğu ölçütte genellikle daha güçlü olmasına rağmen, “mantıklı olmayan” modellerden daha kötü performans gösterdiğini buldu.

Araştırmacılara göre, akıl yürütme modellerinin bunun gibi gerçek zamanlı oyunlar oynamakta zorlanmasının temel nedenlerinden biri, eylemlere karar vermek için biraz zaman almalarıdır. Super Mario Bros.'da zamanlama her şeydir. Bir saniye, bir sıçrama güvenli bir şekilde temizlenmiş ve ölümünüze düşme arasındaki fark anlamına gelebilir.

Oyunlar onlarca yıldır AI kıyaslamak için kullanılmıştır. Ancak bazı uzmanlar, AI'nın oyun becerileri ile teknolojik ilerlemeler arasında bağlantılar çizme bilgeliğini sorguladılar. Gerçek dünyadan farklı olarak, oyunlar soyut ve nispeten basit olma eğilimindedir ve teorik olarak sonsuz miktarda veri sağlarlar.

Son gösterişli oyun ölçütleri, Openai'de bir araştırma bilimcisi ve kurucu üyesi olan Andrej Karpathy'nin “değerlendirme krizi” adını verdiğine işaret ediyor.

“Gerçekten bilmiyorum [AI] Şu anda bakmak için metrikler, ”diye yazdı X.“ TLDR benim tepkim, bu modellerin şu anda ne kadar iyi olduğunu gerçekten bilmiyorum. ”

En azından AI Play Mario'yu izleyebiliriz.

İnsanlar şimdi AI kıyaslamak için Super Mario kullanıyor

Yorumlar

Bir yanıt yazın Yanıtı iptal et