Microsoft Çarşamba günü birkaç yeni “açık” AI modeli başlattı, bunlardan en çok Openai'nin O3-Mini ile en az bir ölçütle rekabet edebildi.
Tüm yeni lisanslı modeller-Phi 4 Mini Akıl Yürütme, PHI 4 Akıl Yürütme ve Phi 4 Akıl Yürütme Plus-“akıl yürütme” modelleridir, yani karmaşık sorunlara daha fazla zaman kontrol çözümleri harcayabilirler. Microsoft'un bir yıl önce başlattığı PHI “Küçük Model” ailesini genişletiyorlar.
Phi 4 Mini Akıl Yürütme, Çin AI Startup Deepseek'in R1 akıl yürütme modeli tarafından üretilen yaklaşık 1 milyon sentetik matematik problemi konusunda eğitildi. Microsoft, yaklaşık 3,8 milyar parametrenin boyutunda, Phi 4 Mini Akıl Yürütme eğitim uygulamaları için tasarlanmıştır.
Parametreler kabaca bir modelin problem çözme becerilerine karşılık gelir ve daha fazla parametreye sahip modeller genellikle daha az parametreye sahip olanlardan daha iyi performans gösterir.
14 milyar parametreli bir model olan Phi 4 Akıl yürütme, “yüksek kaliteli” web verileri ve Openai'nin yukarıda belirtilen O3-mini'den “küratörlü gösteriler” kullanılarak eğitildi. Microsoft'a göre matematik, bilim ve kodlama uygulamaları için en iyisi.
Phi 4 Akıl Yürütme Plus'a gelince, Microsoft'un belirli görevler üzerinde daha iyi doğruluk elde etmek için bir muhakeme modeline uyarlanmış daha önce yayınlanan Phi-4 modelidir. Microsoft, Phi 4 Akıl Yürütme Plus'ın önemli ölçüde daha fazla parametreye sahip bir model olan R1'in performans seviyelerine yaklaştığını iddia ediyor (671 milyar). Şirketin dahili kıyaslamasında ayrıca bir matematik beceri testi olan Omnimath'da PHI 4 muhakeme artı O3-Mini eşleşmesi var.
Phi 4 Mini Akıl Yürütme, PHI 4 Akıl Yürütme ve PHI 4 Akıl Yürütme Plus, ayrıntılı teknik raporların eşlik ettiği AI Dev Platform Hugging Yüzünde mevcuttur.
Tmzilla Etkinliği
Berkeley, CA
|
5 Haziran
Şimdi kitap
“Damıtma, takviye öğrenimi ve yüksek kaliteli veriler kullanılarak bunlar [new] Modeller büyüklüğünü ve performansı dengeliyor, ”diye yazdı Microsoft bir blog yayınında.“ Düşük gecikme ortamları için yeterince küçükler, ancak çok daha büyük modellere rakip olan güçlü akıl yürütme yeteneklerini koruyorlar. Bu karışım, kaynak sınırlı cihazların bile karmaşık akıl yürütme görevlerini verimli bir şekilde gerçekleştirmesine izin veriyor. ”
Bir yanıt yazın