GPT-5.4 geldi: profesyoneller için yerel bilgisayar kontrolü ve gelişmiş verimlilik

GPT-5.3 Instant'ın piyasaya sürülmesinden sadece iki gün sonra – OpenAI'nin, birçok kullanıcının fazla geveze bulduğu GPT-5.2'ye tepkisi, Anthropic Opus 4.6 ile neredeyse aynı anda yayınlandı – şirket çıtayı yeniden yükseltiyor: GPT-5.4 burada ve bu sefer OpenAI aynı anda birden fazla cephede oynamak istiyor.

Duyurudan sonra devamını okuyun

GPT-5.4'ün artımlı bir güncelleme olması amaçlanmamıştır; daha ziyade önceden ayrı olan model hatlarını (muhakeme, kodlama ve bilgi çalışması) tek bir sınır modelinde bir araya getirmeyi amaçlamaktadır. OpenAI'ye göre GPT-5.4, geliştiriciler için önerilen model olarak GPT-5.3-Codex-Spark'ın da yerini alıyor.

Bilgisayar denetimi ve web araması: GPT-5.4 geçiyor

Muhtemelen en şaşırtıcı yenilik: GPT-5.4, yerel bilgi işlem yeteneklerine sahip ilk genel OpenAI modelidir. Aracılar, özel bir ek modele gerek kalmadan masaüstü ortamlarında bağımsız olarak gezinmek, fareyi ve klavyeyi kontrol etmek ve birden fazla uygulamadaki karmaşık iş akışlarını yürütmek için bunu kullanabilir.

GPT-5.4, ekran görüntüsü yoluyla masaüstü aracı kontrolü için standart kıyaslama olan OSWorld-Verified'da %75 puan alarak hem %72,4'lük insan kıyaslama puanını hem de yayınlandığında %72,7 puan alan ve o zamanın standardı belirleyen Opus 4.6'yı geride bıraktı. GPT-5.2 hala %47,3 seviyesindeydi.

Bu tablo, kalıcı ve çok aşamalı web aramasının referans noktası olan SfogliaComp'ta da benzer: Opus 4.6, GPT-5.2'ye (%65,8) kıyasla %84,0 ile açık bir avantaja sahipti. GPT-5.4 artık %82,7'ye ulaşıyor – hemen arkasında, ancak Pro sürümü Opus 4.6'yı %89,3 ile açıkça geride bırakıyor.

44 profesyonel sektördeki temsilcilerin performansını ölçen GDPval kıyaslamasında Opus 4.6, piyasaya sürüldüğü sırada GPT-5.2'yi yaklaşık 144 Elo puanı geride bıraktı; bu, modeller arasındaki en dikkat çekici boşluklardan biri. GPT-5.4 artık bu farkı kapatıyor: Sektör uzmanlarıyla karşılaştırıldığında %83'lük bir kazanma oranıyla, GPT-5.2'nin %70,9'unu önemli ölçüde geride bırakıyor. Her iki şirket de biraz farklı GDPval değişkenleri bildirdiği için Opus 4.6 ile doğrudan Elo karşılaştırması hala beklemede.

Duyurudan sonra devamını okuyun

İlerleme özellikle e-tablolarda belirgindir: yatırım bankacılığı modelleme görevleri için dahili bir kıyaslamada, GPT-5.4 %87,3'e ulaşırken, GPT-5.2 %68,4'e ulaştı. OpenAI ayrıca halüsinasyon oranını da önemli ölçüde azalttığını iddia ediyor: Bireysel ifadeler GPT-5.2'ye göre %33 daha az yanlış olacak ve tam yanıtlar %18 daha az hata içerecektir.

Akıl yürütme ve kodlama

Soyut örüntü tanımanın referans noktası olan ARC-AGI-2'de GPT-5.4 en net ünlem işaretini koyuyor: Pro sürümünde GPT-5.4 %83,3'e ulaşırken onu %77,1 ile Google Gemini 3.1 Pro (Önizleme), standart sürümde GPT-5.4 %73,3 ve Opus 4,6 %68,8 ile takip ediyor.

OpenAI'ye göre GPT-5.4, bilim, hukuk ve felsefenin çok disiplinli bir akıl yürütme testi olan Ultimate Exam of Humanity'de %52,1 puan alırken, Pro sürümü %58,7 puan alıyor. Gemini 3.1 Pro, varyanta bağlı olarak %51,4 veya %44,4 iken Opus 4.6 yalnızca %35 civarındadır.

Piyasaya sürüldüğü sırada Opus 4.6, Terminal-Bench 2.0 kodlama kriterinde %65,4 ile diğer tüm Frontier modellerine liderlik ediyordu. GPT-5.3-Codex %77,3 ile ilk sırada yer aldı ve bu nedenle %75,1'e ulaşan GPT-5.4'ün biraz üzerinde yer aldı.

1 Milyon Token Bağlamı: Deneysel, Standart Dışı

Her iki model de artık 1 milyon token içerik penceresi sunuyor ancak farklı yaklaşımlarla. OpenAI özellikle bunun Codex için deneysel bir özellik olduğunu ve varsayılan olarak etkin olmadığını belirtiyor. Bağımsız analizlere göre aşağıdakiler Opus 4.6 için de geçerlidir: Daha geniş bağlam, otomatik olarak daha iyi sonuçlar anlamına gelmez: 1 milyon token için ön derleme gecikmesi, ilk çıktı tokenı görünmeden önce iki dakikadan fazla olabilir.

Hacker News'teki tartışmada kullanıcılar bunu kişisel deneyimleriyle doğruluyor: çoğu kişi, içerik penceresi dolduğunda Codex'in başlığı kaybettiğini bildiriyor. Kod tersine mühendisliğini, büyük miktarlarda ayrıştırılmış kodun aynı anda analiz edilmesinin gerektiği en umut verici kullanım durumu olarak belirtiyorlar. Geliştiriciler için önemli: 272.000'den fazla giriş jetonu içeren istemler, tüm oturum için giriş fiyatının iki katı ve çıkış fiyatının 1,5 katı fiyatla faturalandırılır.

“Arama Araçları” yakın zamanda GPT-5.4 ile kullanıma sunuldu. GPT-5.4, tüm araç tanımlarını baştan itibaren komut istemine yüklemek yerine, gerektiğinde bunları dinamik olarak alır. 36 MCP sunucusu ve 250 görevle yapılan testlerde bu, aynı doğrulukla token tüketimini %47 oranında azalttı. Bu, yoğun alet gerektiren uygulamalar için önemli bir maliyet avantajıdır.

Model düşünürken müdahale edin

GPT-5.4 Thinking gelecekte ChatGPT'de gösterilecek Düşünce adımlarının ön planı. Kullanıcılar, yanıt oluşturma sırasında müdahale edebilir ve baştan başlamak zorunda kalmadan doğru yönlendirme yapabilir. Model ayrıca uzun görevler sırasında konuşmadaki önceki adımların bağlamına da dikkat etmelidir.

GPT-5.4 Thinking artık ChatGPT'de Plus, Team ve Pro kullanıcılarına sunuluyor ve GPT-5.2 Thinking'in yerini alıyor. GPT-5.2 Thinking, eski bir seçenek olarak üç ay boyunca mevcut kalacak ve 5 Haziran 2026'da kullanımdan kaldırılacak. Model, API'de aşağıda gösterilmektedir. gpt-5.4 mevcut, Pro sürümü olarak gpt-5.4-pro.

Fiyat açısından OpenAI'nin Anthropic'e göre bir avantajı var: Opus 4.6'nın maliyeti milyon girdi tokenı başına 5 dolar ve çıktı tokenı başına 25 dolardır; GPT-5.4 ise 2,50 dolar ve 15 dolardan önemli ölçüde daha düşüktür. Ayrıca Anthropic, bağlam ek ücretini 200.000 tokendan başlayarak ücretlendirirken, OpenAI yalnızca 272.000 tokendan başlayan ücretler alıyor. OpenAI ayrıca GPT-5.4'ün artan token verimliliğinin etkili tüketimi daha da azalttığını iddia ediyor.

Kesintisiz yarış

OpenAI ve Anthropic şu anda endüstri gözlemcilerinin bile yetişemeyeceği bir hızla birbirlerini geride bırakıyorlar. Antropik şef Dario Amodei, otonom silah sistemlerinde yapay zekanın kullanımı konusunda Pentagon'la tartışırken ve OpenAI sonuçta ortaya çıkan sözleşme boşluğuna atlarken, her iki şirket de rakamların ne anlama geldiklerinin anlaşılmasından daha hızlı arttığı karşılaştırmalı değerlendirmeler üzerinde paralel bir savaşa giriyor.

Ayrıca okuyun

(vza)