Bu ayın başlarında, Openai en son amiral gemisi yapay zeka (AI) sistemini GPT-5'i yayınladığında, şirket bunun önceki modellerden daha “yönetim kurulu genelinde” olduğunu söyledi. İddianın yedeklenmesi, yazılım kodlaması, matematik ve sağlık hizmetleri gibi alanları değerlendiren bir dizi kıyaslama testinde yüksek puanlardı.
Bunun gibi kıyaslama testleri, AI sistemlerini değerlendirmenin standart yolu haline gelmiştir – ancak bize bu sistemlerin gerçek dünyadaki gerçek performansı ve etkileri hakkında fazla bir şey söylemezler.
AI modellerini ölçmenin daha iyi bir yolu ne olurdu? Bir grup AI araştırmacısı ve metrologu – Ölçüm Bilimi uzmanları – son zamanlarda bir yolun ön plana çıktı.
Burada metroloji önemlidir, çünkü sadece giderek daha fazla bağımlı olabileceğimiz AI sistemlerinin güvenilirliğini sağlamakla kalmayıp, aynı zamanda daha geniş ekonomik, kültürel ve toplumsal etkilerinin bir ölçüsüne ihtiyacımız var.
Güvenliği Ölçme
Kullandığımız araçların, ürünlerin, hizmetlerin ve süreçlerin güvenilir olmasını sağlamak için metrolojiye güveniyoruz.
Biyomedikal bir etik – sağlık yapay zeka olarak kalbime yakın bir şey al. Sağlık hizmetlerinde AI, teşhisleri ve hasta izlemeyi iyileştirmeyi, ilacın daha kişiselleştirilmesini ve hastalıkları önlemeye yardımcı olmanın yanı sıra bazı idari görevleri ele almayı vaat eder.
Bu vaatler, ancak sağlık yapay zekasının güvenli ve etkili olduğundan emin olsaydık ve bu, onu ölçmek için güvenilir yollar bulmak anlamına gelirse gerçekleştirilecektir.
Örneğin, ilaçların ve tıbbi cihazların güvenliğini ve etkinliğini ölçmek için zaten köklü sistemlere sahibiz. Ancak bu henüz AI için geçerli değildir – sağlık hizmetlerinde veya eğitim, istihdam, kolluk kuvvetleri, sigorta ve biyometri gibi diğer alanlarda.
Test sonuçları ve gerçek etkiler
Şu anda, son teknoloji ürünü AI sistemlerinin değerlendirilmesi kriterlere dayanmaktadır. Bunlar, AI sistemlerini çıktılarına göre değerlendirmeyi amaçlayan testlerdir.
Bir sistemin yanıtlarının ne sıklıkta doğru veya alakalı olduğu veya bir insan uzmanının yanıtlarıyla nasıl karşılaştırıldıkları hakkındaki soruları cevaplayabilirler.
Kelimenin tam anlamıyla çok çeşitli bilgi alanlarını kapsayan yüzlerce AI ölçütü vardır.
Bununla birlikte, kıyaslama performansı bize bu modellerin gerçek dünya ortamlarında sahip olacağı etki hakkında çok az şey anlatıyor. Bunun için, bir sistemin dağıtıldığı bağlamı dikkate almamız gerekir.
Ölçütlerle ilgili sorun
Kıyaslamalar, ticari AI geliştiricileri için ürün performansını göstermek ve finansman çekmek için çok önemli hale geldi.
Örneğin, bu yıl Nisan ayında Biliş AI adlı genç bir girişim, bir yazılım mühendisliği ölçütünde etkileyici sonuçlar verdi. Kısa bir süre sonra şirket, 2 milyar USD'ye (3,1 milyar AUSD) değer veren bir anlaşmada 175 milyon ABD Doları'nı (270 milyon AUSD) finanse etti.
Kıyaslamalar da oynandı. Meta, skorunu önemli bir chatbot rütbesi sitesinde optimize etmek için Lama-4 modelinin bazı versiyonlarını ayarlamış gibi görünüyor. Openai'nin O3 modeli FrontierMath ölçütünde yüksek puan aldıktan sonra, şirketin ölçütün arkasındaki veri kümesine erişebildiği ve sonuçla ilgili sorular sorduğu ortaya çıktı.
Buradaki genel risk, İngiliz ekonomist Charles Goodhart'ın ardından Goodhart Yasası olarak bilinir: “Bir önlem hedef haline geldiğinde, iyi bir önlem olmaktan vazgeçer.”
Algoritmik etik alanının gelişiminin şekillendirilmesine yardımcı olan Rumman Chowdhury'nin sözleriyle, metriklere çok fazla önem vermek, “manipülasyon, oyun ve kısa vadeli niteliklere miyop odaklanmaya ve uzun vadeli sonuçların yetersiz değerlendirilmesine” yol açabilir.
Ödeme Ötesi
Öyleyse kıyaslama değilse, o zaman ne? Sağlık AI örneğine dönelim. Sağlık hizmetlerinde büyük dil modellerinin (LLM'ler) yararlılığını değerlendirmek için ilk kriter, tıbbi lisans sınavlarından yararlanmıştır. Bunlar, özellikle yetki alanlarında pratik yapmalarına izin verilmeden önce doktorların yeterliliğini ve güvenliğini değerlendirmek için kullanılır.
Son teknoloji modeller artık bu tür kriterlerde mükemmel bir puan elde ediyor. Bununla birlikte, bunlar gerçek dünya klinik uygulamasının karmaşıklığını ve çeşitliliğini yeterince yansıtmadığı için yaygın olarak eleştirilmiştir.
Buna karşılık, bu modelleri daha çeşitli ve gerçekçi görevlerde değerlendirmek için yeni nesil “bütünsel” çerçeveler geliştirilmiştir. Sağlık uygulamaları için en sofistike, karar verme ve not almadan iletişim ve araştırmaya kadar beş klinik görev kategorisinde 35 ölçüt içeren Medhelm Değerlendirme Çerçevesidir.
Daha iyi testler gibi görünür
Medhelm gibi daha bütünsel değerlendirme çerçeveleri bu tuzaklardan kaçınmayı amaçlamaktadır. Belirli bir uygulama alanının gerçek taleplerini yansıtacak şekilde tasarlanmıştır.
Bununla birlikte, bu çerçeveler hala insanların gerçek dünyada AI sistemiyle etkileşim biçimlerini muhasebeleştirmekten yoksundur. Ve faaliyet gösterdikleri daha geniş ekonomik, kültürel ve toplumsal bağlamlar üzerindeki etkileri ile anlaşmaya başlamıyorlar.
Bunun için yepyeni bir değerlendirme ekosistemine ihtiyacımız olacak. AI sistemlerini değerlendirmek için titiz ve tekrarlanabilir yollar geliştirmek amacıyla akademi, endüstri ve sivil toplumdan uzmanlıktan yararlanması gerekecektir.
Bu konuda çalışmak çoktan başladı. AI sistemlerinin gerçek dünyadaki etkisini konuşlandırdıkları bağlamlarda değerlendirmek için yöntemler vardır-kırmızı takımlama (testçilerin kasıtlı olarak sistemden istenmeyen çıkışlar üretmeye çalıştığı) ve saha testi (bir sistemin gerçek dünya ortamlarında test edildiği). Bir sonraki adım, bu yöntemleri rafine etmek ve sistematikleştirmektir, böylece aslında önemli olan güvenilir bir şekilde ölçülebilir.
Yapay zeka getirmenin bir kısmını bile sunarsa, sadece teknoloji seçkinlerini değil, hepimizin çıkarlarını koruyan bir ölçüm bilimine ihtiyacımız var. (Konuşma) Rd Rd
Bir yanıt yazın