Patronunuzu çöpe attığınız bir Reddit alt, gizli X, finsta veya Glassdoor hesabınız var mı? Yapay zeka, maskenizi ortaya çıkarmayı çok daha kolaylaştırmış olabilir. Bu, henüz anonimlik için bir cenaze töreni düzenlemenin tam zamanı olmasa bile, çevrimiçi ortamda gizli kalmanın bazı rahatsız edici sonuçlarına işaret eden, yakın zamanda yayınlanan bir çalışmanın sonucudur.
Hakem incelemesinden geçmemiş olan bulgu, ETH Zürih, Antropik ve Makine Öğrenimi Hizalama ve Teori Akademisyenleri programındaki araştırmacılardan geliyor. Büyük dil modellerinin anonimleştirilmiş materyali ne kadar etkili bir şekilde yeniden tanımlayabildiğini test etmek için, web'de arama yapabilen ve bilgilerle tıpkı bir insan araştırmacı gibi etkileşim kurabilen, belirtilmemiş modeller kullanan otomatik bir yapay zeka aracıları sistemi kurdular. Sistem, hesapların anonimleştirilmesi ve kişisel ayrıntılar için metinlerin büyük ölçekte taranması konusunda geleneksel hesaplama tekniklerinden “önemli ölçüde daha iyi performans gösteriyor”.
Sistem, gönderileri veya diğer metinleri bir dizi ipucu olarak ele alarak çalışır. Metni, birinin kimliğine işaret edebilecek kalıplar (yazma tuhaflıkları, başıboş biyografik ayrıntılar, paylaşım sıklığı ve zamanlaması) açısından analiz ediyor. Daha sonra, aynı özellik karışımını bulmak için diğer hesapları (potansiyel olarak milyonlarca hesap) tarar. Olası eşleşmeler işaretlenir, daha ayrıntılı olarak karşılaştırılır ve olası kimliklerin kısa listesine dönüştürülür.
Ekip, şüphelenmeyen kullanıcıları hedeflemek yerine, Hacker News ve LinkedIn'den gelen içerik, Anthropic'in bilim adamlarıyla yapay zekayı nasıl kullandıklarına ilişkin röportajlarının transkriptleri ve test için kasıtlı olarak iki anonim yarıya bölünmüş Reddit hesapları da dahil olmak üzere halka açık gönderilerden oluşturulan veri kümelerini kullanarak sistemi değerlendirdi. Makale, her ortamda LLM tabanlı yaklaşımın eşleşen hesapların yüzde 68'ini yüzde 90 hassasiyetle doğru şekilde tanımladığını bildiriyor. Buna karşılık, büyük veri kümelerindeki dağınık veri noktalarını birbirine bağlamak gibi LLM dışı karşılaştırılabilir yöntemler neredeyse hiçbirini tanımlayamadı.
Sonuçlar her veri kümesinde aynı değildi ve tahmin edilebileceği gibi, model üzerinde çalışacak daha fazla yapılandırılmış bilgi olduğunda daha iyi performans gösterdi. Reddit kullanıcılarının ana r/movies alt dizisindeki ve daha küçük film topluluklarındaki filmler hakkında paylaşımlarını inceleyen bir deneyde sistem, yalnızca bir filmden bahseden hesapları yaklaşık yüzde 3 oranında yüzde 90 hassasiyetle bağlamayı başardı. Kullanıcılar 10 veya daha fazla filmden bahsettiğinde başarı oranı neredeyse yarı yarıya arttı.
Bu arada, Anthropic'in bilim adamlarıyla yaptığı anketi kullanan bir deney, 125 katılımcıdan dokuzunun kimliğini tespit etti; hatırlama oranı kabaca yüzde 7'ydi. Bu testte sistem, cevaplarındaki ipuçlarına dayanarak her bir katılımcının profilini oluşturdu ve ardından olası eşleşmeler için web'de halka açık bilgileri araştırdı. Örnek bir eşleşmede araştırmacılar, “danışman”a yapılan göndermelerin nasıl bir doktora öğrencisini akla getirebileceğini ve İngiliz İngilizcesi kullanımının Birleşik Krallık bağlantısına işaret edebileceğini vurguluyor. Sistem, fizik bilimlerindeki geçmiş ve biyoloji araştırmalarındaki güncel çalışmalarla birleştiğinde, alanı belirli bir adaya göre daraltmayı başardı.
Yine de araştırmacılar, herhangi bir katılımcıyı yapılandırılmamış metinden tespit etme yeteneğinin dikkate değer olduğunu, bir insan araştırmacının saatlerce yapması gereken şeyin dakikalar içinde kopyalandığını savunuyorlar. Üstelik anlattılar eşik Yapay zeka sistemleri daha yetenekli hale geldikçe ve daha büyük veri havuzlarına erişim kazandıkça performansın da artması muhtemeldir. Daha genel anlamda, takma adla paylaşımda bulunmanın geçmişte veya gelecekte çevrimiçi kimlikleri koruyacağını varsaymanın artık güvenli olmayabileceği konusunda uyarıyorlar.
“LLM'nin prensipte bulduğu her şey, bir insan araştırmacı tarafından bulunabilir.”
ETH Zürih'te araştırmacı ve çalışmanın yazarlarından biri olan Daniel Paleka, “İnternetteki bilgi sonsuza kadar oradadır” dedi. Araştırmacılar, bu ısrarın gazeteciler, muhalifler ve takma ad kullanan aktivistler için somut, gerçek dünya risklerine dönüşebileceği ve aynı zamanda “hiper hedefli reklamcılık” ve “son derece kişiselleştirilmiş” dolandırıcılıklara da yol açabileceği konusunda uyarıyor.
Hesapların anonimleştirilmesinin riskleri ne yeni ne de yapay zekaya özgü. Paleka, “LLM'nin prensipte bulduğu her şey, bir insan araştırmacı tarafından bulunabilir” dedi. eşik.
Paleka, yeni olanın uçtan uca otomasyon olduğunu savunuyor. Bir zamanlar küçük bilgi parçacıkları bulmak için gönderileri sabırla incelemeye istekli, çalışkan bir araştırmacıyı gerektiren çalışmalar artık çok daha kolay ve çok daha fazla sayıda hedef üzerinden gerçekleştirilebiliyor.
Aynı zamanda ucuz. Araştırmacılar, deneylerinin maliyetinin 2.000 dolardan az olduğunu, bunun da AI aracısını çalıştırdıkları her profil için 1 ila 4 dolar arasında bir maliyet olduğunu söyledi. Yazarlardan Simon Lermen, “Ekonomi artık tamamen farklı” dedi. eşikgirişin önündeki daha düşük engelin, kimin çevrimiçi anonimliği aşmaya çalışma yeteneğine ve teşvikine sahip olduğunu genişletebileceği konusunda uyarıda bulunuyor. Kendisi, tarihsel olarak “radarın altından geçen” grupların bunu yapmaya devam etmekte zorlanabileceğini söyledi.
İnsanlar “bu önemli araştırmayı yanlış anlayabilir ve mahremiyetin öldüğü sonucuna varabilir.” Değil.
Bulguları abartmamak önemlidir. Oxford İnternet Enstitüsü'nden doçent Luc Rocher, “Bu algoritmalar gelişirken, insanların yapabileceklerinden çok uzaktalar” dedi. eşik. Çalışma gerçek dünyayla düzgün bir şekilde eşleşmiyor; deneyler, test amacıyla dikkatlice seçilmiş ve anonimleştirilmiş veri kümeleri kullanılarak laboratuvar koşullarında yapıldı. İnsanların “bu önemli araştırmayı yanlış anlayıp mahremiyetin öldüğü sonucuna varmalarından” endişe duyduklarını söylediler. Öyle değil, diye savundular.
Rocher, anonim kullanıcıların maskesini düşürmek için tasarlanan tekniklerde yıllardır artan ilerlemelere rağmen, “Bitcoin'in mucidi Satoshi Nakamoto'nun kimliği on yıldan fazla bir süre sonra hala bir sır olarak kalıyor” dedi. İhbarcıların gazetecilerle ifşa edilmeden iletişim kurmaya devam edebildiklerini ve Signal gibi araçların “şimdiye kadar kolektif gizliliğimizi korumada başarılı olduğunu” eklediler.
Makalede araştırmacılar, etik kaygılar nedeniyle sistemlerini gerçek takma ad kullanan kullanıcılar üzerinde test etmekten kaçındıklarını söyledi. Benzer nedenlerden dolayı yaklaşımlarının tüm teknik ayrıntılarını yayınlamadılar ve istendiğinde bir gösteri sunmayı reddettiler. Ekip ayrıca sistemi çalışmanın sınırları dışında test edip etmediklerini de söylemedi; yine etik kaygıları öne sürerek sistemin gerçek dünyadaki hesaplara karşı ne kadar güvenilir bir performans sergileyeceği sorusunu açık bıraktı.
Zaten anonimliğe derinden bağlı kişiler için pratik etki sınırlı olabilir. Hesapları ayrı tutmak, kişisel ayrıntıları sınırlamak, kendi saat diliminizde yalnızca uyanık olduğunuz saatlerde paylaşım yapmak gibi tanımlanabilir kalıplardan kaçınmak gibi temel önlemler hala kritik öneme sahiptir.
Paleka ve Lermen, takma adlara daha kayıtsızca yaklaşanlar için, kullanıcılara halka açık forumlarda, hatta anonim gibi görünen hesaplarda nelerin paylaşıldığı konusunda dikkatli düşünmelerini ve halihazırda var olan şeylerin birçok kişinin sandığından daha kolay bir şekilde bir araya getirilebileceğini akılda tutmalarını tavsiye etti.
Araştırmacılar, sorumluluğun tamamen kullanıcılara ait olmaması gerektiğini savunuyor. Lermen, yapay zeka laboratuvarlarının araçlarının nasıl kullanıldığını izlemesi ve insanların anonimliğini kaldırmak için kullanılmalarını engelleyecek önlemler oluşturması gerektiğini söyledi. Kendisi, sosyal medya platformlarının bu tür çabaları mümkün kılan kazıma ve toplu veri çıkarma işlemlerini kısıtlayabileceğini de sözlerine ekledi.
Başka bir deyişle Satoshi muhtemelen yapay zeka hafiyelerine karşı güvendedir. Reddit'teki tek kullanımlık AITA yayınınız mı? Bu başka bir konu olabilir.

Bir yanıt yazın