Google, AI sohbet robotlarının yalnızca %69 oranında doğru olduğunu tespit ediyor… en iyi ihtimalle

Google, günümüzün yapay zeka sohbet robotlarının gerçekte ne kadar güvenilir olduğuna dair net bir değerlendirme yayınladı ve rakamlar hiç de iç açıcı değil. Yeni tanıtılan FACTS Benchmark Suite'i kullanan şirket, en iyi yapay zeka modellerinin bile %70'lik gerçek doğruluk oranını aşma konusunda zorluk çektiğini buldu. En iyi performans gösteren Gemini 3 Pro %69 genel doğruluğa ulaşırken OpenAI, Anthropic ve xAI'nin önde gelen diğer sistemleri daha da düşük puan aldı. Paket servis basit ve rahatsız edici. Bu sohbet robotları, bunu yaparken kendinden emin görünseler bile kabaca her üç cevaptan birini yanlış veriyor.

Karşılaştırma önemlidir çünkü mevcut yapay zeka testlerinin çoğu, bir modelin ürettiği bilginin gerçekten doğru olup olmadığına değil, bir görevi tamamlayıp tamamlayamayacağına odaklanır. Finans, sağlık ve hukuk gibi sektörler için bu boşluk maliyetli olabilir. Kendinden emin görünen ancak hatalar içeren akıcı bir yanıt, özellikle kullanıcılar sohbet robotunun neden bahsettiğini bildiğini varsaydığında, gerçek hasara neden olabilir.

Google'ın doğruluk testi neyi ortaya koyuyor?

FACTS Benchmark Suite, Google'ın FACTS ekibi tarafından Kaggle ile birlikte dört gerçek dünya kullanımında gerçek doğruluğu doğrudan test etmek için oluşturuldu. Bir test, bir modelin yalnızca eğitim sırasında öğrendiklerini kullanarak gerçeklere dayalı soruları yanıtlayıp yanıtlayamayacağını kontrol eden parametrik bilgiyi ölçer. Bir diğeri, arama performansını değerlendirerek modellerin doğru bilgileri almak için web araçlarını ne kadar iyi kullandığını test ediyor. Üçüncüsü temellendirmeye, yani modelin yanlış ayrıntılar eklemeden sağlanan belgeye sadık kalıp kalmadığına odaklanır. Dördüncüsü, çizelgeleri, diyagramları ve görselleri doğru okumak gibi çok modlu anlayışı inceler.

Sonuçlar modeller arasında keskin farklılıklar olduğunu göstermektedir. Gemini 3 Pro, %69'luk FACTS puanıyla liderlik tablosunda lider olurken, onu Gemini 2.5 Pro ve OpenAI'nin ChatGPT-5'i neredeyse %62 ile takip etti. Claude 4.5 Opus yüzde ~%51'e inerken, Grok 4 ~%54 puan aldı. Multimodal görevler genel olarak en zayıf alandır ve doğruluk genellikle %50'nin altındadır. Bu önemlidir çünkü bu görevler, bir chatbot'un bir satış grafiğini güvenle yanlış okuyabileceği veya bir belgeden yanlış numarayı çekebileceği ve gözden kaçırılması kolay ancak geri alınması zor hatalara yol açabileceği grafikleri, diyagramları veya görselleri okumayı içerir.

Buradan çıkan sonuç, sohbet robotlarının işe yaramaz olduğu değil, körü körüne güvenin riskli olduğudur. Google'ın kendi verileri yapay zekanın geliştiğini gösteriyor ancak güvenilir bir gerçek kaynağı olarak ele alınabilmesi için hâlâ doğrulamaya, korkuluklara ve insan gözetimine ihtiyacı var.


Yayımlandı

kategorisi

yazarı:

Etiketler:

Yorumlar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir