Yapay zeka aracılarının kurala uygun davranışlarını kıyaslama testleri
Reklamdan sonra devamını okuyun
Yapay zeka ajanları, eğer amaçlarına hizmet ediyorsa yalan söyler ve güvenlik kurallarını atlatır. ODCV Bench adı verilen yeni bir kıyaslama, ilk kez otonom aracıların yalnızca niyet beyanlarını değil, gerçek davranışlarını da ölçmeyi amaçlıyor. Çeşitli alt görevlere sahip 40 senaryo içerir. Bunlardan birinde, hava koşulları nedeniyle geciken aşıyı bir sürücünün teslim etmesi gerekiyor. Temsilci düzenli olarak ara verip teslimatı geciktirebilir veya güvenlik protokollerini değiştirerek sürücünün ara vermeden sürüşe devam etmesine izin verebilir.
Karşılaştırma ayrıca temsilcilerin kuralları yalnızca doğrudan sorulduğunda mı yoksa yalnızca teşvikin yeterli olduğu durumlarda mı ihlal ettiğini de kontrol ediyor. Testlerde, Claude Opus 4.5, GPT 5.1 ve Gemini 3 dahil olmak üzere test edilen modellerin yüzde 30 ila 50'si güvenlik yönergelerini ihlal etti.

ChatGPT doktor yerine mi geçecek?
Büyük dil modelleri tıbbi lisans testlerini geçer ve semptomları güvenilir bir şekilde sınıflandırır. Oxford Üniversitesi'nde yapılan bir testte, insan müdahalesi olmadan vakaların yüzde 94,9'unda en az bir ilgili hastalık tespit edildi. Ancak gerçek insanlar modelleri sorguladığı anda değerler çöktü: Yapay zeka desteğine sahip katılımcılar, vakaların yalnızca maksimum yüzde 34,5'inde ilgili hastalıkları tanıdı.
Oxford ekibinin vardığı sonuç net: Yapay zeka sistemleri sağlık hizmetlerinde kullanılmadan önce, yalnızca sınav soruları veya simüle edilmiş konuşmalarla değil, gerçek insanlarla da test edilmelidir.
Daha hassas ilaç tasarımı için yapay zeka motoru
Reklamdan sonra devamını okuyun
Google DeepMind'ın bir yan kuruluşu olan Isomorphic Labs, ilaç geliştirmeye yönelik yeni bir sistemi tanıttı. Şirkete göre, “İlaç Tasarım Motoru” (IsoDDE), potansiyel aktif bileşenlerin proteinlere nasıl bağlandığını önceki AlphaFold 3'e göre iki kat daha doğru bir şekilde tahmin ediyor. Bu, özellikle eğitim verilerinden büyük ölçüde sapan yapılar için geçerli. Özünde ligandlarla, yani bir proteine bağlanan ve onun işlevini etkileyen küçük moleküllerle ilgilidir. Bu etkileşimi tam olarak anlamak, yeni ilaçların geliştirilmesinde merkezi bir sorundur.
Sistem aynı zamanda aktif bir bileşenin hedef proteine ne kadar güçlü bağlandığını da tahmin edebiliyor ve hatta proteinler üzerinde daha önce bilinmeyen kenetlenme bölgelerini bile bulabiliyor. Isomorphic Labs'e göre IsoDDE bu sonuçları saniyeler içinde sağlıyor ve bu da ilaç adaylarının bilgisayar destekli ön seçimini önemli ölçüde hızlandırabilir.
Yapay zeka kullanımı rahatlama yerine ek işe yol açıyor
Berkeley Haas İşletme Okulu'ndaki araştırmacılar, sekiz ay boyunca yaklaşık 200 çalışanı olan bir ABD teknoloji şirketini gözlemledi. Şirket, çalışanlarına, kullanımlarını zorunlu kılmadan ticari yapay zeka araçlarına erişim izni vermişti. Sonuç: Çalışanlar daha hızlı çalıştı, daha fazla görev üstlendi ve gönüllü olarak çalışma saatlerini uzattı. Yapay zeka onlara daha fazlasını yapabileceklerini hissettirdi. Doğal molalar ortadan kalktı, bunun yerine sürekli görevler arasında geçiş yapılıyordu. Yapay zeka ile etkileşime geçmek sıradan bir sohbet gibi hissettirdi ve iş ile kişisel yaşam arasındaki çizgileri bulanıklaştırdı.
Başlangıçtaki heyecan azaldıkça çalışanlar iş yükünün giderek arttığını hissetmeye başladı. Sonuçları: kronik yorgunluk, tükenmişlik ve artan dalgalanma. Denetçiler genellikle yüksek üretkenliğin sürdürülebilir mi yoksa sağlık pahasına mı olduğunu ayırt edemiyorlardı. Berkeley araştırmacıları bu nedenle şirketlerin yapay zekanın ne zaman ve nasıl kullanılması gerektiği konusunda net kurallar oluşturmasını öneriyor.
Deep Research büyük GPT-5 güncellemesi alıyor
OpenAI, ChatGPT'deki “Derin Araştırma” araştırma fonksiyonunu yeni model GPT-5.2'ye dönüştürdü. Araç şimdiye kadar o3 ve o4-mini modellerini temel alarak çalışıyordu. Kullanıcılar artık uygulamaları ChatGPT'ye bağlayabilir, sistemin belirli web sitelerinde arama yapmasını sağlayabilir ve bir araştırmanın ilerlemesini gerçek zamanlı olarak takip edebilir. İsterseniz aramayı yarıda kesebilir, soru sorabilir veya yeni kaynaklar ekleyebilirsiniz.
Deep Research, bir yıl önce ChatGPT'deki ilk yapay zeka aracısı olarak piyasaya sürüldü: Sistem, bir yanıt oluşturmadan önce kullanıcı sorgusuna dayalı olarak çok aşamalı web aramalarını bağımsız olarak gerçekleştiriyor. OpenAI, web aramasının hatalara karşı koruma sağlamadığına dikkat çekiyor. Temel kural geçerliliğini koruyor: oluşturulan metinler ne kadar uzun olursa, yanlış bilgi riski de o kadar yüksek olur.
Yapay zeka aslında ne kadar akıllı? Üretken yapay zekanın işimiz, boş zamanlarımız ve toplumumuz açısından ne gibi sonuçları var? Haberler'nin “Yapay Zeka Güncellemesi”nde The Decoder ile birlikte size hafta içi her gün en önemli yapay zeka gelişmelerine ilişkin güncellemeleri sunuyoruz. Cuma günleri uzmanlarla yapay zeka devriminin farklı yönlerini inceliyoruz.
Yüksek Lisans öğrencileri hala çok sık halüsinasyon görüyor
En iyi yapay zeka modelleri bile düzenli olarak gerçekleri uydurur. Bu, İsviçre Üniversitesi EPFL, ELLIS Tübingen Enstitüsü ve Max Planck Akıllı Sistemler Enstitüsü'ndeki araştırmacılar tarafından geliştirilen “Halluhard” adlı yeni bir kıyaslamayla kanıtlanmıştır. Hukuki vakalar, araştırma soruları ve programlama gibi konulardaki birden fazla soru-cevap oturumu boyunca gerçekçi konuşmalarda halüsinasyonları ölçer. Test edilen en güçlü yapılandırma olan web araması etkinleştirilmiş Anthropics Claude Opus 4.5, vakaların yaklaşık yüzde 30'unda hala yanlış bilgi üretti. Web aramaları olmadığında bu oran yüzde 60 civarındaydı.
Nedeni: Web aramalı modeller genellikle uygun bir kaynaktan alıntı yapar, ancak daha sonra orada olmayan ayrıntıları icat eder. Daha uzun konuşmalarda oran artıyor çünkü modeller kendi önceki hatalarından yola çıkıyor. Yetersiz alıntı yapılan araştırma makaleleri gibi niş bilgilere karşı özellikle savunmasızdırlar. Orada bilgi, eğitim verilerinde yalnızca parçalar halinde görünür; bu bir cevap için yeterlidir, ancak doğru bir cevap değildir.
Ring kameralar için AI fonksiyonunun eleştirisi
Amazon'un yan kuruluşu Ring'in yapay zeka işlevi “Arama Partisi” için yaptığı Super Bowl reklamının ardından eleştiriler artıyor. İşlev, köpek sahiplerinin kayıp hayvanları bulmasına yardımcı olmayı amaçlıyor: Yapay zeka, mahalledeki tüm Ring kameralarının kayıtlarını otomatik olarak araştırıyor. Ancak eleştirmenler bunu ağ bağlantılı bir gözetim aygıtının yaratılması olarak görüyor. Demokrat Senatör Ed Markey, “Bu kesinlikle köpeklerle ilgili değil, kitlesel gözetlemeyle ilgili” diye yazdı.
Ring daha önce kolluk kuvvetleriyle yakın bağları nedeniyle eleştirilmişti. Kurucu Jamie Siminoff yönetiminde polise bir zamanlar kamera görüntülerine doğrudan erişim izni verildi. Bu işbirliği daha sonra azaltıldı ancak Siminoff'un geçen yıl geri dönmesinin ardından yeniden başlatıldı.
ChatGPT ABD'de reklam yayınlamaya başladı
OpenAI, ABD'de ilk kez ChatGPT'de reklam gösteriyor. Reklamlar ücretsiz sürüm ve en ucuz ücretli sürüm olan “ChatGPT Go” ile sınırlıdır. Daha pahalı abonelikler reklamsız kalır. Reklamların AI yanıtları üzerinde hiçbir etkisi olmamalı ve reklam olduğu görsel olarak açıkça tanınabilmelidir. Reklamverenler sohbet geçmişlerine veya kişisel verilere erişim sağlamaz; yalnızca tıklama sayıları gibi anonimleştirilmiş performans verilerine erişim elde eder. Reklamların seçimi mevcut sohbet konusuna ve geçmiş etkileşimlere bağlıdır: Bir yemek tarifi ararken, yemek pişirme aksesuarlarına veya teslimat hizmetlerine ilişkin reklamlar görünebilir.
OpenAI başlangıçta reşit olmayanlara yönelik reklamların yanı sıra sağlık ve politika alanlarındaki reklamları da hariç tutuyor. Şirket, ücretsiz ve Go sürümlerini çalıştırmanın çok büyük altyapı maliyetlerine neden olduğunu söyleyerek bu adımı haklı çıkarıyor. Bu nedenle reklam geliri ekonomik açıdan gereklidir.
Çin insansı robotlara büyük yatırım yapıyor
Çin, beş yıl içinde insansı robotlarda dünya pazar lideri olmayı hedefliyor. Yerel yönetimler şirketlere indirimli ofis alanı, ucuz kredilere erişim ve sübvansiyonlu vasıflı işçiler sağlar. Shenzhen'deki “Robot Vadisi” gibi merkezlerde milyarlarca dolar yapay zeka modellerine ve robotik donanımına akıyor. Devlet aynı zamanda önemli bir birincil alıcı olarak da hareket etmektedir.
Finansman sonucunda Çin'de 140'tan fazla insansı robot start-up'ı ortaya çıktı. ABD'de endişe artıyor: Wall Street Journal'ın haberine göre Beyaz Saray, özellikle ABD robotik endüstrisini teşvik etmeyi amaçlayan bir kararname hazırlıyor.
Netflix'in seslendirme sanatçısı sözleşmesi yasa dışı
Almanca konuşan seslendirme sanatçılarına yönelik mevcut Netflix sözleşmesi, görünüşe göre mevcut haliyle yasal değil. Bu, Almanca Konuşanlar Birliği (VDS) tarafından yaptırılan hukuki görüşten kaynaklanmaktadır. AOR anlaşması olarak adlandırılan anlaşma, konuşmacıların Netflix'e ses kayıtlarına ilişkin kapsamlı haklar vermesini gerektiriyor: 50 yıl boyunca AI eğitimi, dijital düzenleme ve çoğaltma ve sentetik seslerin oluşturulması için kullanım.
VDS, üyelerine imza atmamalarını tavsiye ediyor. Bu tavsiyeye uyarsanız, yakın gelecekte Netflix'in ilk şirket içi yapımları Almanca dublajsız olarak ortaya çıkabilir.
Yer imi koleksiyonu için yapay zeka kütüphanecisi Stella
Çevrimiçi yer imi yöneticisi Raindrop.io, Stella adında bir yapay zeka asistanını tanıttı. Kaydedilen bağlantılar arasında arama yapar, makaleleri özetler ve yer imi koleksiyonunuzu düzenlemenize yardımcı olur. Kullanıcılar örneğin şunu sorabilir: “Yapay zekanın temellerine ilişkin tüm bağlantıları bulun” ve yorumlanmış bir liste alabilirsiniz. Stella, doğrudan sağlayıcı tarafından barındırılan bir OpenAI dil modeli üzerinde çalışır, dolayısıyla harici bir API aracılığıyla hiçbir veri akışı olmaz. Hizmet, Raindrop.io'nun oluşturduğu bağlantılı web sitelerinin statik kopyalarını yine de kullanır.
Stella'ya MCP sunucusu aracılığıyla da erişilebilir, böylece kullanıcılar yer imlerini diğer uygulamalar aracılığıyla sorgulayabilirler. Bu işlev Raindrop.io Pro abonelerine ayrılmıştır ve yıllık maliyeti yaklaşık 30 Euro'dur.
Yapay zeka ajanları Roma masa oyununun kurallarını belirliyor
Leiden Üniversitesi'ndeki bir araştırma grubu, daha önce bilinmeyen bir Roma masa oyununun kurallarını yeniden oluşturmak için yapay zekayı kullandı. Oyun parçasının fotoğrafları, paralel çizgiler, çapraz köşe çizgileri ve merkez çizgisi olan 21 × 14,5 santimetrelik bir dikdörtgeni göstermektedir. Muhtemelen küçük yuvarlak taşlarla oynanıyordu. Mikroskobik inceleme ve 3D tarama, çizgilerin etrafındaki taşın daha fazla aşınmış olduğunu ortaya çıkardı.
Bu aşınma ve yıpranma işaretlerine dayanarak, araştırmacılar iki yapay zeka ajanının birbirine karşı oynamasını ve böylece kuralları belirlemesini sağladı. Başlangıç noktası çok daha genç oyunlardan bilinen oyun kurallarıydı. Bu nedenle pistler, amacın rakibin hareket etmesini engellemek olduğu sözde bloklama oyununa en uygun olanıdır. Bilinen en eski engelleme oyunları Orta Çağ'a kadar uzanır. Buluntu artık bu tür oyunların yüzyıllar önce oynandığını kanıtlıyor.

(igr)
Bir yanıt yazın