Tıbbi verilerin güvenli kullanımı: AnoMed ikinci tura giriyor

Berlin'deki bir etkinlikte “AnoMed” projesinin başkanı Prof. Esfandiar Mohammadi, “Klasik anonimleştirme prosedürleri işe yaramadı” diyor. Proje, hastaların mahremiyetini tehlikeye atmadan sağlık verilerinin araştırma ve yapay zeka geliştirme için kullanılmasını amaçlıyor. Katılan ekipler, Federal Araştırma, Teknoloji ve Uzay Bakanlığı (BMFTR) tarafından finanse edilen “AnoMed 2” projesinin devamı için yapılan başlangıç toplantısında bunun nasıl başarılabileceğini gösterdi.

Reklamdan sonra devamını okuyun

Muhammedi'ye göre bu sadece teknik bir soru değil, aynı zamanda sosyal bir soru. Çevrimiçi olarak Haberler'ye “Gizlilik yalnızca kişinin kendisini etkilemez, aynı zamanda liberal bir demokrasi meselesidir” dedi. “Hepimiz şeffaf insanlar olursak ve bazı şirketler veya hükümetler her insanın mükemmel bir kişilik profiline sahip olursa, o zaman seçmen kitlelerini hedefli bir şekilde manipüle edebilirler.” Tam da bu nedenle araştırmaların şimdi devreye girmesi ve hastaların mahremiyetini etkilemeden veya tehlikeye atmadan özellikle hassas verileri kullanmaya yönelik prosedürler geliştirmesi gerekiyor.

Dışarıdan eleştirel bakış: Uygulamada anonimleştirme

Charité Berlin'den Prof. Dr. Fabian Prasser'in konuşması açıkça. Prasser, sağlık verilerini tıbbi araştırmalar için daha erişilebilir hale getirmek amacıyla on yılı aşkın bir süredir araştırma yapıyor ve çarpıcı bir ara sonuca varıyor: Onlarca yıl süren araştırmalara, kapsamlı literatüre ve çok sayıda konferansa rağmen, mahremiyeti artıran teknolojiler (PET'ler) günlük yaşamda kendisine pek yer bulamadı. Prasser, “Çok fazla fikir var, ancak gerçekte neyin kullanıldığına baktığınızda bunların tüm bilimsel yaklaşımların çok küçük bir kısmı olduğunu görüyorsunuz” dedi.

Sebep olarak araştırma kalitesinin eksikliğini değil, yapısal engelleri gösteriyor: yüksek altyapı maliyetleri, hastaneler gibi veri üreten kurumlarda uzmanlık eksikliği, yasal belirsizlik ve birçok prosedürün sınırlı esnekliği. Veri sağlayan kurumların doğrudan elde edeceği fayda çoğu zaman harcanan çabadan daha ağır basmıyor.

Reklamdan sonra devamını okuyun

Buna ek olarak, AnoMed konsorsiyumunu ilgilendiren temel bir metodolojik sorun var: Anonimleştirme her zaman bilgi içeriği pahasına veri koruma pahasına gerçekleşir. Prasser bunu, ekibinin hasta kayıt verilerini anonim olarak yayınladığı korona krizinden belirli bir örnekle gösterdi. Anonimleştirilmiş verilerden hesaplanan vaka ölüm oranının gerçek oranlardan yüzde 10'a kadar saptığı ve bunun birçok klinik sorun için kabul edilemez olduğu gösterildi. Tıbbi araştırma sonuçlarının tekrarlanabilirliğine ilişkin bir başka çalışma, test edilen anonimleştirme yöntemlerinden hiçbirinin orijinal çalışmanın tüm sonuçlarını tam olarak kopyalayamayacağını doğruladı.

Anonimleştirme şu ana kadar fizibilite testleri, keşif analizleri, hipotez oluşturma, yazılım testi ve yapay zeka modellerinin eğitimine destek olarak iyi çalıştı ancak açık kanıt gereklilikleri olan birincil klinik çalışmalar için orijinal verilerin yerini almaya uygun değil. Prasser, çözümü, farklı erişim düzeylerini birleştiren kademeli veri kullanımında görüyor; bu, birleşik değerlendirmelerin, farklı mahremiyetin ve takma ad vermenin iç içe geçtiği Tıp Bilişimi Girişimi örneğini kullanarak ana hatlarını çizdiği bir yaklaşım.

Gelecekte Prasser, Avrupa Sağlık Veri Alanı'na (EHDS) ve araştırmacıların verileri almadığı ancak veri altyapısına korumalı erişime sahip olduğu güvenli işleme ortamlarına güveniyor. “Bunun artık EHDS'de bu kadar önemli bir rol oynaması gerçeği, aynı zamanda diğer prosedürlerin uygulamada karşılaştığı engeller hakkında da bir şeyler söylüyor.”

Yeni bir yapay zeka veri merkezi için 29 milyon euro

AnoMed'in hedefi aynı zamanda bir altyapı meselesidir. Projenin bir parçası olarak Lübeck Üniversitesi, gelecekte önemli ölçüde daha fazla bilgi işlem gücüyle araştırma çalışmaları sağlayacak yeni bir AI veri merkezinin açılışını yaptı. Federal Araştırma Bakanlığı geliştirmeyi 29 milyon avroyla finanse ediyor. En son su soğutmalı NVIDIA sunucularını temel alan bir GPU kümesi, yaklaşık 400 metrekarelik bir alanda inşa ediliyor ve 3.000 petaflop'un üzerinde beklenen bilgi işlem gücü, çok büyük yapay zeka modellerini yüksek güvenlik koşulları altında eğitmeye yetiyor.

Dijital egemenlik

Bir kamu tesisi olarak veri merkezi, hastaneler gibi iş ortaklarının, ticari bulut hizmetlerine bağlı olmaksızın, araştırmaya yönelik hassas verileri yerel olarak işlemesine olanak sağlamayı amaçlıyor. Mohammadi Haberler online'a şunları söyledi: “Dijital egemenlik ruhuyla, ajan sistemlerini çalıştıracak ve makine öğrenimi araştırmalarını yürütecek kadar büyük bir veri merkezi inşa ediyoruz.” “Bunu araştırmalarımıza ve hastaneler gibi araştırma ortaklarımıza yerel hizmetler sunmak için kullanacağız. Büyük bulut sağlayıcılarının aksine yükümlülüklerimiz açık: Biz bir kamu kurumuyuz ve kamu araştırmalarını ilerletme misyonumuz var.”

Birinci ve ikinci aşamadaki araştırma projeleriyle birlikte BMFTR, AnoMed araştırma merkezini yaklaşık 46 milyon avroyla destekliyor.

Çok sayıda proje

İkinci finansman aşamasında ise kriptografik temellerden spesifik tıbbi uygulamalara kadar çok sayıda proje yürütülecek. Diğer şeylerin yanı sıra, AnoMed 1'de geliştirilen, gizliliği koruyan ve birleştirilmiş bir şekilde çalışan bir hiperparametre araması olan “DP-Hype” algoritması sunuldu. Özellik, temeldeki şifreleme protokolünde yatmaktadır: istemciler bunu tüm hesaplamaları yerel olarak gerçekleştirmek ve ardından yalnızca istatistikleri toplamak için kullanabilir. AnoMed 2'de, yöntemin kullanımını kolaylaştırmak için DP-Hype, birleşik öğrenme “Çiçek” için açık kaynak çerçevesine entegre edilmelidir.

Modelleri eğitmek isteyen herkesin sadece parametrelerini kontrol altında tutması yetmez, aynı zamanda verinin kendisini de koruması gerekir. Bunu başarmak için AnoMed iki yaklaşım izliyor: Bir yandan, makine öğreniminin doğrudan şifrelenmiş veriler üzerinde mümkün olması gerekiyor. Tamamen homomorfik şifreleme en iyi çözüm olarak kabul ediliyor, ancak günlük kullanım için hala hesaplama açısından çok yoğun, bu nedenle proje alternatif şifreleme yaklaşımlarını araştırıyor. Öte yandan, hassas materyalin orijinal haliyle aktarılması gerekmemelidir: sentetik veriler, bireyler hakkında çıkarımlarda bulunulmasına izin vermeden, hassas orijinal verilerin özelliklerini yansıtmalıdır. Aynı zamanda, güvenlik açıklarını diğerlerinden önce bulmak için bu sentez süreçlerine yönelik hedefli saldırılar geliştirilmektedir.

İnsan gruplarını tanımlayın

Yine Lübeck Üniversitesi'nde araştırmacı olan Jorge Andresen'in çalışması bu tehlikenin ne kadar gerçek olduğunu gösteriyor. Dört milyon girişli simüle edilmiş bir sağlık veri seti kullanarak, bireysel veri setlerinin toplu istatistiklerden yeniden oluşturulabileceğini ve sözde anonim bir genel nüfustan belirli insan gruplarının tanımlanabileceğini göstermeyi başardı. Bu aynı zamanda Sağlık Araştırma Veri Merkezi'nde (FDZ) son derece hassas faturalandırma verilerini saklayan ve gelecekte güvenli veri aktarımının daha sağlam yollarını test etmek isteyen Federal İlaç ve Tıbbi Cihaz Enstitüsü ile yapılan işbirliğiyle de bağlantılıdır.

Bu nedenle MammothDP projesi, diferansiyel gizliliği, sabit zamanlı uygulamaları, güvenilir yürütme ortamlarını ve rol tabanlı erişim kontrollerini bütünsel bir koruma sisteminde birleştirir. Prof. Thomas Eisenbarth liderliğindeki grup aynı zamanda yapay zeka sistemlerine, örneğin Rowhammer veya Voltaj Glitching güvenlik açığı veya mikro mimari yan kanallar yoluyla yanlış enjeksiyon yoluyla nasıl saldırılabileceğini araştırıyor.

Güvenlik sadece algoritmayla değil çiple başlar. Alman Yapay Zeka Araştırma Merkezi ise sınıflandırıcıların daha güvenilir şekilde çalışabilmesi için girdi verilerini hazırlamak üzerinde çalışıyor. Tıbbi uygulama tarafında, örneğin atriyal fibrilasyon açısından sentetik EKG verileri için üretken modellere odaklanılmaktadır.

Görsellerin anonimleştirilmesi

Lübeck Üniversitesi Nöro- ve Biyoinformatik Enstitüsü'nden Prof. Thomas Martinetz'in liderliğindeki proje aynı zamanda gerçek anonimleştirmenin, daha doğrusu mahremiyetin korunmasının ne kadar karmaşık olabileceğini de gösterdi. Ekip, yüz görüntülerini, değişiklik görülmeden cinsiyet hakkında çıkarımlarda bulunulmasına izin vermeyecek şekilde düzenleme üzerinde çalışıyor. Martinetz, “Tek tek pikselleri değiştirmek kolaydır. Buradaki zorluk, verilerin araştırma için kullanılabilir kalmasını sağlamak üzere diğer her şeyi mümkün olduğunca korurken hassas bilgileri bütünsel olarak kaldırmaktır” diyor.

Tüm teknik projelere yasal ve mevzuat analizlerinin yanı sıra anonimleştirilmiş sağlık istatistiklerinin kullanıcı kabulüne yönelik çalışmalar da eşlik etmektedir. Çünkü yeni prosedürlerin sonuçta kabul edilip edilmeyeceği, işe yarayıp yaramadığı kadar önemlidir.

Bilim iletişimi için masa oyunları

AnoMed ortamından gelen bir başka girişim, veri koruma ve mahremiyetin uzman konferanslarıyla sınırlı olması gereken konular olmadığını gösteriyor. Uluslararası tanınmış gizlilik araştırmacısı Dr. Sebastian Meiser, anomed.de/anomed-brettspiel adresinden çevrimiçi olarak da oynanabilen “Yapay Zekada İz Arama – Sinir Ağlarında Gizlilik Saldırıları” adlı öğrenme masa oyununu geliştirdi. Şimdi, diferansiyel mahremiyetin matematiksel kavramının arkasında ne yattığını soran ikinci bir oyun geliyor. Rastgele yanıt tekniğine dayanan oyunda, katılan her kişi iş, hobi ya da horlayıp horlamadığı gibi hayali özelliklerin yer aldığı bir karakter kartı çekiyor.

Gizlilik Poker Kartları. Epsilon gerçeğin olasılığının ne olduğunu anlatıyor.

Bir soruyu yanıtlaması gereken kişi öncelikle mahremiyetten ne kadar vazgeçmek istediğine karar verir ve desteden belli bir epsilon değerine sahip bir kart çeker. Epsilon ne kadar küçük olursa cevaptan o kadar az sonuç çıkarılabilir. Epsilon ne kadar büyük olursa, o kadar fazlasını ortaya çıkarırsınız. Sonunda tüm oyuncular topladıkları yanıtlara göre masa komşularının anonimliğini kaldırmaya çalıştı.

(mack)