“ChatGPT Health”: Tıbbi acil durumlarda ve intiharın önlenmesindeki zayıflıklar

Ocak 2026'da OpenAI, sağlıkla ilgili sorular için ilk dijital iletişim noktası olarak hizmet etmesi amaçlanan bir hizmet olan “ChatGPT Health”i tanıttı. Bu tür bir kullanım için önemli olan, yapay zekanın bir sorunun ciddiyetini ve aciliyetini doğru bir şekilde değerlendirmesidir. Önerilerin ölçeği “evde iyileşme”den “önümüzdeki birkaç hafta içinde doktora görünmeye” ve hemen acil servise gitmeye kadar uzanıyor.

Reklamdan sonra devamını okuyun

Nature Medicine dergisinde yayınlanan bir çalışmada araştırmacılar artık bu yapay zeka tabanlı triyajın pratikte ne kadar güvenilir ve emniyetli bir şekilde çalıştığını sistematik olarak incelediler ve endişe verici eksiklikleri keşfettiler.

Tıbbi vaka çalışmalarını kullanarak sistematik inceleme

Yapay zekanın doğruluğunu gerçekçi ve kontrollü bir şekilde kontrol etmek için doktorlar 21 uzmanlık alanından 60 ayrıntılı klinik vaka çalışması tasarladı. Bu vakalar metodik olarak çeşitlendirilmişti ve metinde araştırmacılar, hayali hastaların cinsiyeti ve ten rengi gibi özelliklerini değiştirdiler, ulaşım seçeneklerinin olmaması gibi simüle edilmiş engelleri ya da bir akrabanın önemsizleştirici bir beyanı gibi psikolojik faktörleri birleştirdi.

Toplamda bu taleplerden 960 tanesi ChatGPT Health'e yapıldı. Daha sonra yapay zekanın triyaj önerileri, tıbbi uzmanlardan oluşan bir ekibin (yerleşik klinik yönergelere dayanarak) bağımsız değerlendirmesiyle karşılaştırıldı.

Gerçek acil durumlarda ve zararsız durumlarda sınırlamalar

Reklamdan sonra devamını okuyun

Değerlendirme karışık bir tablo ortaya koydu. Orta şiddette günlük tıbbi problemler için yapay zekanın tavsiyeleri genellikle doktorlarınkilerle aynı fikirdeydi. Ancak şiddet seviyesinin sınırında, yani hastalığın tamamen zararsız olduğu veya hayatın akut tehlike altında olduğu durumlarda performans önemli ölçüde düşer.

Yetersiz triyaj (kaçırılan acil durumlar): Yapay zeka, gerçek tıbbi acil durumların yüzde 51,6'sında durumu çok zararsız olarak değerlendirdi. Örneğin, şiddetli diyabet bozukluğu (ketoasidoz) veya akut astım krizi geçiren hastalara, acil servise hemen gitmelerini tavsiye etmek yerine sistem, onlara önümüzdeki 24 ila 48 saat içinde bir doktora görünmelerini tavsiye etti. Yapay zeka, metindeki bazı kritik semptomları tanıdı, ancak çoğu zaman bunları yanlış bir şekilde ağırlıklandırdı (örneğin, hastanın nefes darlığına rağmen hala tam cümlelerle konuştuğu iddiasıyla).

Aşırı triyaj (küçük şikayetler için aşırı dikkat)

Bunun tersine, ChatGPT Health, zararsız şikayetlerle uğraşırken genellikle çok dikkatli davranıyordu. Sistem, kılavuzlara göre evde kolaylıkla gözlemlenebilen vakaların neredeyse yüzde 65'ini tedavi gerektiren vakalar olarak sınıflandırıyor ve doktora gidilmesini öneriyor. Araştırmacılara göre bu durum, sağlık sistemindeki kaynakların gereksiz yere zorlanması riskini de beraberinde getiriyor.

Her iki hata da (yetersiz triyaj ve aşırı triyaj) elbette sorunludur, ancak yetersiz triyaj, hastaların gerekli tıbbi yardımı çok geç alması durumunda özellikle tehlikeli olabilir. Özellikle acil veya zararsız olmayan rutin vakalarda ChatGPT Health iyi performans gösterdi ve vakaların yüzde 93'ünde doktor tavsiyesine uydu.

Dış bilgilerin yapay zeka kararına etkisi

Çalışma ayrıca psikolojik etkilerin yapay zeka temelli ilk değerlendirmeyi ne ölçüde etkilediğini de inceledi. ChatGPT Health'in sözde “sabitleme önyargısına” duyarlı olduğu ortaya çıktı. Sınırda bir tıbbi vakada, arkadaşların semptomları endişe verici bulmadığı söylendiğinde yapay zeka genellikle bundan etkileniyordu. Sistemin daha sonra daha az acil bir değerlendirme yapma olasılığı önemli ölçüde arttı (olasılık oranı 11,7).

Ancak oluşturulan vakalardaki hastaların ten rengi veya cinsiyeti gibi demografik faktörlerin triyaj önerileri üzerinde istatistiksel olarak anlamlı bir etkisi yoktu.

Psikolojik krizler için güvenilmez güvenlik mekanizmaları

Çalışmanın bir diğer odak noktası yapay zekanın psikolojik acil durumlarla nasıl başa çıktığıydı. Kullanıcıları korumak için ChatGPT Health, “Yardım mevcut” mesajını içeren bir uyarı başlığı görüntüleyen ve intihar düşünceleri ortaya çıktığında kriz yardım hatlarına referans gösteren bir mekanizmaya sahiptir.

Çalışma burada çeşitli eksiklikleri ortaya çıkardı. Bu koruyucu mekanizma, intihar düşüncelerine ilişkin belirsiz, oldukça pasif ifadelerle yapılan muayenede güvenilir bir şekilde çalışır. Bununla birlikte, eğer hayali bir hasta somut bir intihar planını ifade etmişse (örneğin belirli hapları alma niyeti) ve aynı zamanda dikkat çekici olmayan tıbbi laboratuvar değerleri sunmuşsa, uyarı pankartı genellikle eksikti. Bu durumlarda sistem ağırlıklı olarak fiziksel parametrelere odaklandı; “Laboratuvar değerleri normal ve bu düşüncelerin herhangi bir tıbbi nedenini göstermiyor” ve sıklıkla akut psikolojik acil durumu fark edemiyorlardı.

Sağlık yapay zekasının düzenlenmesinin önemi

Araştırmanın yazarları, yapay zekanın sağlık pazarında gelecekteki kullanımına yönelik öneriler geliştirmek için sonuçlarını kullanıyor. OpenAI gibi sağlayıcılar, sistemlerine tıbbi teşhisin yerini almadıklarını belirten yasal bildirimler sağlar. Ancak yapay zeka onlara ciddi bir sorun olmadığı konusunda güvence verirse pek çok kişinin doktora gitmeyi ertelemesi veya ziyaretten kaçınması pek olası değil.

Bilim insanları, tıbbi değerlendirmeler için ilk temas noktası olarak kullanılan sistemlerin daha sıkı testlere tabi tutulması gerektiği sonucuna vardı. Hasta korumasını güvenilir bir şekilde sağlamak için sağlık sektöründeki hasta odaklı yapay zeka araçlarının, yaygın olarak piyasaya sürülmeden önce geleneksel tıbbi cihazlarla benzer harici güvenlik ve onay testlerinden geçmesi gerektiğini öne sürüyorlar.

(mack)