Radyologlar ve yapay zeka, manipüle edilmiş röntgen görüntülerini çoğu zaman tanıyamaz

ChatGPT gibi yapay zeka modelleri sayesinde ilk defa, sıradan kişilerin yalnızca basit metin komutlarını kullanarak anatomik olarak makul, yapay zeka tarafından oluşturulan X-ışını görüntüleri oluşturması mümkün oldu. Araştırmacılara göre, nadir hastalıkların simüle edilmesine yönelik tıp eğitiminde faydalı olabilecek şeyler, sigorta dolandırıcılığı, hukuki anlaşmazlıklar veya araştırma verilerinin hedefli manipülasyonu gibi çok büyük suiistimal risklerini beraberinde getiriyor.

Reklamdan sonra devamını okuyun

New York'taki Mount Sinai Hastanesi'ndeki bilim insanları, altı ülkeden 17 deneyimli radyoloğun ve çeşitli mevcut yapay zeka modellerinin, X-ışını görüntülerinin “derin sahtelerini” tespit etmede ne kadar iyi olduğunu inceledi. Sonuçlar endişe verici bir sorunu vurguluyor.

İnsanlar ve makineler için test içeren deney düzeneği

Araştırmacılar çalışmaları için iki veri seti kullandılar. İlki göğüs, omurga, kollar ve bacaklar gibi vücudun farklı bölgelerini kapsayan 154 röntgen görüntüsünden oluşuyordu. Ancak görüntülerin yarısı gerçek X-ışınları değil, GPT-4o tarafından oluşturulan yapay zeka görüntüleriydi. İkinci veri seti, tıbbi görüntüler oluşturmaya yönelik özel bir yapay zeka modelinden alınan belirli göğüs görüntülerini içeriyordu.

Çalışma üç aşamada gerçekleşti:

Kör aşama: Radyologlar teknik kaliteyi değerlendirip teşhis koymalıdır. AI görüntülerinin dahil edildiği konusunda bilgilendirilmediler.
Tanımlama aşaması: Doktorlar deepfake'ler hakkında bilgilendirildikten sonra hangi görüntülerin gerçek, hangilerinin yapay zeka tarafından oluşturulduğuna karar vermeleri gerekiyordu.
AI karşılaştırması: Önde gelen dört yapay zeka modeli (GPT-4o, GPT-5, Gemini 2.5 Pro ve Llama 4 Maverick) de hangi görüntülerin gerçek, hangilerinin yapay zeka tarafından oluşturulduğunu belirleyip belirleyemeyeceklerini görmek için test edildi.

Reklamdan sonra devamını okuyun

Yapay zeka tarafından oluşturulan X-ışını görüntülerini tanıma zorluğu

Yapay zeka tarafından oluşturulan X-ışını görüntülerinin tanınmasındaki doğruluk şaşırtıcı derecede düşüktü ve doktorların mesleki deneyimine bağlı değildi.

Kör aşamada, radyologların yalnızca yüzde 41'i (17 kişiden 7'si) kendiliğinden yapay zeka tarafından oluşturulan görüntülerin veri setinde olabileceğine dair şüphelerini dile getirdi. Geri kalan uzmanlar, deepfake'lerin gerçek klinik vakalar olduğuna inanıyordu. Ancak tanımlama aşamasında bile (radyologlardan yapay zeka sahtekarlıklarını aramaları açıkça istendikten sonra), ortalama doğruluk oranı yalnızca yüzde 75 civarındaydı. Bu, her dört görüntüden birinin yanlış değerlendirildiği anlamına gelir.

İlginç bir şekilde, 40 yıla kadar hizmet veren deneyimli radyologlar bile asistan doktorlardan önemli ölçüde daha iyi performans gösteremedi. Deepfake'leri tespit etme yeteneği, geleneksel klinik deneyimlerle kazanılmayan tamamen yeni bir beceri gibi görünüyor.

Önde gelen yapay zeka modelleri de başarısız oluyor

Yapay zeka modellerinin kendileri de yapay zeka tarafından oluşturulan X-ışını görüntülerini gerçek görüntülerden ayırma konusunda benzer zorluklarla karşılaştı. Test edilen modellerin hiçbiri sentetik görüntüleri güvenilir bir şekilde tanıyamadı.

Bununla birlikte, OpenAI modelleri en azından yüzde 83 ila 85 civarında bir doğruluk elde ederken, Google'ın Gemini 2.5 Pro ve Meta'nın Llama 4 Maverick'i önemli ölçüde daha kötüydü ve yüzde 56 ila 59 arasında değerlere ulaşıyordu (ki bu saf tahminden pek de iyi değil). Sentetik görüntüleri oluşturmak için kullanılan GPT-4o bile bunları gerçek görüntülerden güvenilir bir şekilde ayırt edemedi.

Yapay zeka üretimine referanslar

Araştırmaya göre, deepfake'lerin yüksek kalitesine rağmen yapay zeka oluşumunu gösteren bazı özellikler mevcut. Kemik yapıları sıklıkla aşırı derecede pürüzsüz görünür ve gerçek biyolojik dokuda bulunan ince, düzensiz dokulara sahip değildir. X-ışını görüntüsünün ne kadar “gürültülü” olduğu konusunda başka bir teknik not da bulunabilir. Gerçek görüntülerdeki olağan görüntü gürültüsü, radyasyonun fiziksel özelliklerinden dolayı düzensiz olsa da, AI gren deseni genellikle görüntünün tamamına doğal olmayan bir şekilde eşit şekilde dağılmış gibi görünür. Ayrıca yapay zeka modelleri bazen anatomik detaylardan dolayı başarısız olabiliyor. Parmaklardaki tırnak yataklarının gölgeleri veya akciğerlerdeki ince damar yolları gibi ince ayrıntılar genellikle yapay zeka tarafından atlanır veya yanlış sunulur; bu da manipülasyonun bir göstergesi olabilir.

Yazarlar, aldatıcı derecede gerçek tıbbi görüntüler oluşturmanın önündeki teknik engellerin büyük ölçüde azaldığı konusunda uyarıyor. Onlar yazarken, bugün basit bir metin istemi, uzmanları bile kandırabilecek kırık bir kemiği veya tümörü icat etmek için yeterli oluyor.

Çalışmanın yazarları, dijital radyolojiye güvenin sağlanması için çok aşamalı bir güvenlik stratejisi önermektedir. Bir yandan, yapay zeka tarafından oluşturulan görüntülerdeki incelikli yapaylıklar ve tutarsızlıklar hakkındaki farkındalıklarını artırmak için radyologlara özel eğitim verilmelidir. Öte yandan uzmanlar, tıbbi görüntülerin gerçekliğini garanti eden dijital imzalar, görünmez filigranlar veya blok zincir tabanlı menşe kanıtını içeren sağlam teknik koruyucu önlemlerin uygulanmasının hayati önem taşıdığını düşünüyor. Bu yaklaşımlar, günlük klinik uygulamalarda derin sahtekarlıkları bağımsız olarak tespit edip güvenilir bir şekilde derinlemesine piksel analizi kullanarak işaretleyebilen bağımsız, otomatik dedektörlerin geliştirilmesiyle desteklenmelidir.

(mack)