OpenAI GPT-5.5'i tanıtıyor: daha fazla aracı, daha az sohbet robotu

Yine perşembe mi? OpenAI bir sonraki dil modelini açıkladı: GPT-5.5 kendisini bir sohbet robotu olmaktan çok, bağımsız çalışan bir yapay zeka aracısı olarak görüyor. Şirketin bildirdiğine göre model, görevleri bağımsız olarak planlamayı, araçları kullanmayı, ara sonuçları doğrulamayı ve daha uzun süreler boyunca tutarlı bir şekilde çalışmayı amaçlıyor. GPT-5.5, en üst model olarak yalnızca Mart ayı başında piyasaya sürülen önceki GPT-5.4'ün yerini alıyor.

Duyurudan sonra devamını okuyun

Odak noktası yazılım geliştirme, araştırma, veri analizi ve yazılımın arayüzler arasında nasıl çalıştığıdır. OpenAI bloguna göre, daha yüksek performansa rağmen token başına yanıt hızının GPT-5.4 ile aynı kalması bekleniyor. OpenAI, gerekçe olarak yapay zeka destekli yük dağıtımı da dahil olmak üzere tüm altyapıdaki optimizasyonları gösteriyor ancak şirket, spesifik uygulamaya ilişkin teknik ayrıntılar sunmuyor. Ayrıca GPT-5.5'in aynı görevler için önceki modele göre önemli ölçüde daha az token kullandığı söyleniyor.

Aracı tabanlı kodlamada maksimum puanlar

OpenAI'ye göre model, planlama, hata ayıklama ve takım oluşturma dahil olmak üzere karmaşık geliştirme görevlerinin bağımsız olarak işlenmesi olan aracı kodlama olarak adlandırılan alanda özellikle güçlüdür. GPT-5.5 duyuru sayfasında OpenAI, deprem dedektörü, iki basit 3D oyun ve bir ay görevinin etkileşimli görselleştirmesi gibi çeşitli sonuçları gösteriyor:

Önerilen editoryal içerik

Onayınız doğrultusunda harici içerik buraya yüklenecektir.

Çok aşamalı komut satırı iş akışları için bir referans noktası olan Terminal-Bench 2.0'da GPT-5.5 %82,7'lik bir doğruluğa ulaşır. Bu onu Claude Opus 4.7 (%69,4) ve Gemini 3.1 Pro'nun (%68,5) önüne koyuyor. Yapay Analiz Kodlama Endeksi'nde GPT-5.5'in rakip modellerle aynı performansı yarı maliyetle sunduğu söyleniyor.

Neyse ki OpenAI, tüm kriterleri dahili öncüllerinin yanı sıra Opus 4.7 ve Gemini 3.1 Pro ile karşılaştırmalı olarak bir tabloda açıkça listeliyor.

(Resim: OpenAI)

Masaüstünü ekran görüntüsü aracılığıyla kontrol etme konusunda da ilerleme var – OpenAI “Bilgisayar kullanımı” hakkında konuşuyor -: OSWorld Onaylı kıyaslamada GPT-5.5 %78,7'ye ulaştı ve bu nedenle %78,0 ile Claude Opus 4.7'nin hemen önünde yer alıyor. Anthropic, en son modeli Opus 4.7'yi GPT-5.5'ten sadece bir hafta önce piyasaya sürdü ve öncelikle gelişmiş talimat uyumluluğunu vurguladı.

Duyurudan sonra devamını okuyun

Boşluklu kıyaslama karşılaştırmaları

OpenAI tarafından yayınlanan performans verilerine daha yakından bakıldığında karşılaştırılabilirliğin sınırlı olduğu ortaya çıkıyor. Bazı kıyaslamalar rakip modeller için değerler içermez. Örneğin dahili Expert-SWE'de GPT-5.5 yalnızca önceki modelle rekabet ediyor – harici referans değerleri tamamen eksik. Toolathlon ve CyberGym masaları da eksik.

Dış modellerin de dahil olduğu yerde daha farklı bir tablo ortaya çıkıyor. GDPval bilgi çalışması kıyaslamasında, GPT-5.5 maksimum %84,9 değerine ulaşır ancak GPT-5.4 (%83,0) ve Claude Opus 4,7'nin (%80,3) yalnızca biraz ilerisindedir. Çok düzeyli web araması için bir test olan TarayıcıComp'ta Gemini 3.1 Pro, %85,9 ile temel GPT-5.5 modelini (%84,4) bile geride bırakıyor; yalnızca Pro sürümü %90,1 ile önde. Gerçek performansı güvenilir bir şekilde sınıflandırmak için bağımsız testlerin yapılması gerekmektedir.

Strateji olarak özel modeller

GPT-5.5, OpenAI'nin yakın zamanda model tekliflerini farklılaştırdığı bir dizi hızlı sürüme katılıyor. Geçtiğimiz hafta şirket, düşünme modlarına sahip geliştirilmiş bir görüntü modelini tanıttı. Birkaç gün önce biyolojik araştırmalarda uzmanlaşmış bir model olan GPT-Rosalind ortaya çıkmıştı. Nisan ortasında OpenAI, doğrulanmış güvenlik araştırmacıları için daha esnek güvenlik kısıtlamalarına sahip bir varyant olan GPT-5.4-Cyber'ı duyurdu.

Güvenlik söz konusu olduğunda OpenAI, GPT-5.5 için bugüne kadarki en kapsamlı koruma önlemlerini vurguluyor. Piyasaya sürülmeden önce, genişletilmiş siber güvenlik ve biyoloji yeteneklerini özel olarak test etti, dahili ve harici yeniden ekip çalışması gerçekleştirdi ve yaklaşık 200 erken erişim ortağından geri bildirim aldı. Seçilen kullanıcılar, OpenAI'nin GPT-5.4-Cyber ile zaten oluşturduğu bir konsept olan “Güvenilir Erişim” programı aracılığıyla güvenlikle ilgili işlevlere genişletilmiş erişim elde ediyor.

GPT 5.5, başlangıçta ChatGPT ve Codex'teki Plus, Pro, Business ve Enterprise kullanıcılarına sunuldu. Pro GPT-5.5 Pro çeşidi Pro, Business ve Enterprise hesaplarıyla sınırlıdır. OpenAI, API'nin genel sürümünü duyurdu ancak henüz bir tarih belirtmedi. Şirket henüz Avrupa'daki fiyatlandırma veya GDPR uyumluluğu hakkında yorum yapmadı.

Ayrıca okuyun

(vza)