Meta's Vanilla Maverick AI modeli, popüler bir sohbet ölçütünde rakiplerin altında yer alıyor

Bu haftanın başlarında Meta, kalabalık bir ölçüt LM Arena'da yüksek bir puan elde etmek için Lama 4 Maverick modelinin deneysel, yayınlanmamış bir versiyonunu kullanmak için sıcak suya indi. Olay, LM Arena'nın bakımcılarını özür dilemeye, politikalarını değiştirmeye ve değiştirilmemiş vanilya maverick'i puanlamaya teşvik etti.

Görünen o ki, çok rekabetçi değil.

Değiştirilmemiş Maverick, “Llama-4-Maverick-17B-128E-İncelemesi”, Openai'nin GPT-4O, Antropic'in Claude 3.5 sonnet ve Google'ın Gemini 1.5 Pro gibi modellerin altında yer aldı. Bu modellerin çoğu aylardır.

Neden kötü performans? Şirket, geçen Cumartesi yayınlanan bir grafikte açıkladı. Bu optimizasyonlar, insan değerlendiricilerinin modellerin çıktılarını karşılaştıran ve hangilerini tercih ettiklerini seçen LM Arena'ya iyi oynadı.

Daha önce yazdığımız gibi, çeşitli nedenlerle, LM Arena hiçbir zaman bir AI modelinin performansının en güvenilir ölçüsü olmamıştır. Yine de, bir modeli bir ölçütle uyarlamak – yanıltıcı olmanın yanı sıra – geliştiricilerin modelin farklı bağlamlarda tam olarak ne kadar iyi performans göstereceğini tahmin etmelerini zorlaştırıyor.

Bir açıklamada, bir meta sözcüsü Tmzilla'a Meta'nın “her türlü özel varyant” ile deney yaptığını söyledi.

Sözcü, “'Lama-4-Maverick-03-26-Experimental', LM Arena'da da iyi performans gösteren sohbet optimize edilmiş bir sürümdür” dedi. “Şimdi açık kaynak sürümümüzü yayınladık ve geliştiricilerin Lama 4'ü kendi kullanım durumları için nasıl özelleştirdiğini göreceğiz. Ne inşa edeceklerini görmekten heyecan duyuyoruz ve devam eden geri bildirimlerini dört gözle bekliyoruz.”


Yayımlandı

kategorisi

yazarı:

Etiketler:

Yorumlar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir