
GPT-5.5, IQ'nun 136, Opus 4.7 132 olduğunu gösteriyor. Yeni bir site, AI kıyaslamalarını IQ puanlarına dönüştürüyor. Sorun, sonucun pek fazla ölçülmemesidir.
Bir yapay zeka modeline IQ puanı yapıştırmak, anında tepki uyandıran türden bir fikir: Kağıt üzerinde büyüleyici, çizdiğiniz anda şüpheli. AI IQ adlı yeni bir site, sonuçları derleyerek bu sorunun üstesinden geldi. 12 halka açık kıyaslama (ARC-AGI, FrontierMath, GPQA ve diğerleri) ve bunları beş boyuta dağıtılan tahmini bir IQ puanına dönüştürmek: soyutlama, matematiksel akıl yürütme, programlama, eleştirel akıl yürütme ve eylemli akıl yürütme. Site, EQ-Bench 3'ten elde edilen bir duygusal zeka puanı bile sunuyor. Mayıs 2026 itibarıyla, OpenAI'nin GPT-5.5'i tahmini IQ'su 136 ile zirvede yer alıyorBunu 132 puanla Anthropic'in Opus 4.7'si, 131 puanla Google Gemini 3.1 Pro ve 131 puanla GPT-5.4 takip ediyor. Ayrı bir ölçekte, Mensa Norveç testini temel alan TrackingAI, Grok-4.20 Uzman Modu ve GPT-5.4 Pro 145 puanla berabere kalıyor.
IQ neden yapay zekanın zekasını ölçmüyor?
Sitedeki en dikkat çekici grafik zaman içindeki evrimi gösteriyor. Ekim 2023 itibarıyla GPT-4-turbo'nun tahmini IQ'su 75 civarındaydı. Otuz ay sonra önde gelen modeller 136 ile flört ediyor. İki buçuk yılda altmış puanlık ilerlememuhteşem. Üstteki sıkıştırmanın dışında farklı bir hikaye anlatılıyor: İlk beş model yalnızca 7 puanla ayrılıyor (AI IQ'da 129'dan 136'ya, Mensa'da 141'den 145'e).
Temel sorun rakamlarda değil, ölçtüğünü iddia ettiğimiz şeylerde. 2021'den bu yana yapay zekaların bilişsel değerlendirmesi üzerinde çalışan ve çalışmanın sınırlamalarını ayrıntılı olarak belgeleyen araştırmacı Alan D. Thompson, AI IQ sitesinin ele almadığı dört tuzağı tespit ediyor. Öncelikle, IQ testleri insan bilişi için tasarlandıve bunları insan dışı zekaya uyguladığımız anda ölçekleri bulanıklaşıyor. Daha sonra, bu testler ortalama insan popülasyonu üzerinde standartlaştırılır ve bu da aşırı puanların (yaklaşık 155'in ötesinde) yorumlanmasını insanlar arasında bile istatistiksel olarak güvenilmez hale getirir. Üçüncü tuzak: Yapay zeka, insan zekasından temel olarak farklıdır (bir model, ileri düzey bir matematik problemini çözebilir ve altı yaşındaki bir çocuğun ustalaştığı sağduyulu bir görevde başarısız olabilir). Son nokta: AI IQ testleri yönetmez. Site, mevcut kıyaslamalardan elde edilen sonuçları derliyor ve şirket içi bir algoritma aracılığıyla bunları IQ puanlarına çeviriyor; bu, kilometreleri Celsius derecesine dönüştürmek anlamına geliyor: İşlem teknik olarak mümkün ancak sonuç, ünitenin vaat ettiği anlamına gelmiyor.
Makaleden VentureBeat Siteyi popüler hale getiren kişi de bunun farkında: Her tedarikçi, genellikle güçlü yönlerini vurgulamak için seçilen kendi kriterlerini yayınlıyor ve “Kimsenin aynı şeyi aynı şekilde ölçemediği bir Babil Kulesi” yaratıyor. Ve en zorlu kriterler (ARC-AGI-2, FrontierMath Tier 4, İnsanlığın Son Sınavı) şimdiden doygunluğa ulaşmaya başlıyor, bu da ölçüm sınırının kapasite sınırından daha hızlı yaklaştığı anlamına geliyor.
Yapay zekayı insan IQ ölçeğine göre sıralamak, ilerlemeyi genel halk için somut hale getirme avantajına sahiptir. Ancak kıyaslamalardan elde edilen bir puanı zeka ölçüsüyle karıştırmak, ateşi termometreyle ölçmek gibidir.
👉🏻 Teknoloji haberlerini gerçek zamanlı takip edin: 01net'i Google'daki kaynaklarınıza ekleyin ve WhatsApp kanalımıza abone olun.
Kaynak :
Yapay Zeka IQ'su

Bir yanıt yazın