Databricks, OfficeQA ile büyük dil modelleri ve yapay zeka aracılarının önceki değerlendirmesindeki boşluğu doldurmayı amaçlayan yeni bir açık kaynak kıyaslaması sunuyor. ARC-AGI-2, İnsanlığın Son Sınavı veya GDPval gibi popüler testlerden farklı olarak OfficeQA, soyut düşünme görevlerini değil, hataların maliyetli hale geldiği günlük çalışma hayatının gerçekçi senaryolarını hedefler.
Duyurudan sonra devamını okuyun
Odak noktası, sözde temelli akıl yürütmedir: Yapay zeka sistemleri, soruları büyük, heterojen ve bazen de yapılandırılmamış belge stoklarına dayalı olarak yanıtlamalıdır. Databricks, ABD Hazine Bültenlerini kullanıyor: seksen yıldan daha eskiye dayanan yaklaşık 89.000 sayfalık tablolar, incelemeler ve geçmiş veriler. Karşılaştırma, mevcut Frontier modellerinin performansına bağlı olarak “kolay” ve “zor” olarak bölünmüş, açıkça test edilebilir yanıtlara sahip 246 soru içermektedir.

Anthropic'in Claude Opus 4.5 aracısı tüm veri kümesinde %37,4'ü çözerken OpenAI'nin GPT-5.1 aracısı %43,1'e ulaştı. Özellikle zor 113 örnekten oluşan bir alt küme olan OfficeQA-Hard'da Claude Opus 4.5 Agent %21,1 ve GPT-5.1 Agent %24,8 puan aldı.
(Resim: Databricks)
Sonuçlar düşük. GPT 5.1 aracısı ve Claude Opus 4.5 aracısı da dahil olmak üzere test edilen aracılar, belge külliyatına erişim olmadan soruların yalnızca %2'sini doğru yanıtladı. Sağlanan PDF'lerle bile başarı oranı %45'ten azdır ve özellikle zor sorularda %25'ten bile azdır. Bulgular, akademik ölçütlere göre güçlü performansın kurumsal hazırlık konusunda çok az şey ifade ettiğini öne sürüyor.
Şirketlerde “hemen hemen doğru” yeterli değil
Hata analizi, bilinen ancak çözülmemiş sorunları ortaya çıkarır: karmaşık tablolardaki analiz hataları, birçok kez gözden geçirilen finansal verilerin kötü işlenmesi ve grafiklerin görsel olarak anlaşılmasındaki eksiklikler. Önemli olan bu zayıflıkların varlığı değil, boyutlarıdır: İş bağlamlarında “neredeyse doğru” yeterli değildir; yanlış önemli rakamlar veya güncelliğini yitirmiş değerler ciddi sonuçlara yol açabilir.

Görsel Yorumlama Testi Sorusu: Yapay zeka ajanları, ABD Hazine Bakanlığı Aylık Bülteni'nin (Eylül 1990) 5. sayfasındaki çizgi grafiklerde yerel yüksek seviyelerin sayısını doğru bir şekilde belirleyemiyor.
(Resim: Databricks)
OfficeQA kendisini bir performans gösterisinden çok bir teşhis aracı olarak görüyor. Çarpıcı olan, gerçekçi belgelere ve net, otomatik olarak doğrulanabilir yanıtlara verilen sürekli dikkattir. Aynı zamanda, kapsamlı da olsa tek bir veri kümesinin şirket içindeki çeşitli bilgi kaynaklarıyla karşılaştırıldığında ne kadar temsil edici olduğu sorusu hala açık kalıyor. Yeni kriterin öncelikle kendisini daha sonraki senaryolarda kanıtlaması gerekiyor. Databricks'in Grounded Reasoning Cup 2026'yı başlatmasının nedeni tam olarak budur: Araştırmacılar ve endüstri ortakları OfficeQA'yı hazine örneğinin ötesinde test etmeli ve böylece yaklaşımın daha geniş kabul görmesine ve daha da geliştirilmesine katkıda bulunmalıdır.
Duyurudan sonra devamını okuyun
Databricks tarafından geliştirilen OfficeQA kıyaslaması, açık kaynaklı bir proje olarak araştırma topluluğunun kullanımına ücretsiz olarak sunulmaktadır ve halka açık GitHub deposu aracılığıyla edinilebilir.
(fo)
Bir yanıt yazın