Bilim bir çalışmanın ne zaman başarısız olacağını tahmin edebilir mi?

Bilim insanları her yıl 10 milyondan fazla çalışma ve başka yayınlar yayınlıyor. Bu bulgulardan bazıları insanlığın bilgi zenginliğini genişletecek. Ama bazıları yanılacak.

Bir çalışmayı değerlendirmek için bilim insanları aynı sonuca ulaşıp ulaşmadıklarını görmek için onu tekrarlayabilirler. Ancak yedi yıl önce yüzlerce bilim insanından oluşan bir ekip, yeni bilimsel literatürü değerlendirmenin daha hızlı bir yolunu bulmak için yola çıktı. Çalışmaların incelemelere dayanıp dayanamayacağını tahmin etmek için yapay zeka sistemleri kurdular.

Savunma İleri Araştırma Projeleri Ajansı (DARPA) tarafından finanse edilen projeye Açık Araştırma ve Kanıta Güvenin Sistemleştirilmesi – kısaca SCORE adı verildi. Fikir, ajansın program yöneticisi olan Adam Russell'dan geldi. Bilim için bir tür kredi notu oluşturmayı hayal etti.

Şu anda Güney Kaliforniya Üniversitesi'nde çalışan Dr. Russell, “İnsanlar 'Hey, bu muhtemelen sağlam olacak, bunun etrafında politika oluşturabiliriz' diyebilir” dedi. “'Ama bu? Hayır, bu havaalanında bir kitap olabilir.'”

SCORE ekibi yüzlerce çalışmayı inceledi ve araştırmayı neyin başarılı kıldığını daha iyi anlamak için çoğunu yeniden yürüttü. Şimdi bu çabalarla ilgili bir dizi makale yayınlıyor.

Araştırmacılar, bilimsel bir kredi puanının şimdilik bir hayal olarak kaldığını söylüyor. Yapay zeka güvenilir tahminler yapamaz.

Açık Bilim Merkezi'nin genel müdürü ve projenin lideri Brian Nosek, “Henüz o noktaya gelmedik” dedi. “Bir tür sinyal alıyor ancak kendi başına kullanılabilmesi için çok daha hassas olması gerekiyor.”

Ancak dışarıdan uzmanlar, SCORE ekibinin bu süreçte bilimsel süreci oldukça derinlemesine araştırdığını ve onu geliştirmeye yardımcı olabilecek ipuçları keşfettiğini söylüyor.

Bu çabaya dahil olmayan Oxford Üniversitesi'nden psikolog Dorothy Bishop, “Daha önce bu ölçekte bir şeyin olduğunu sanmıyorum” dedi.

Kendiniz görün

Araştırmanın tekrarlanması nesiller boyu bilimin temel dayanağı olmuştur. 1953'te Caltech'ten jeokimyacı Clair Patterson, Dünya'nın 4,5 milyar yaşında, yani önceki tahminlerden 1,2 milyar yıl daha yaşlı olduğunu belirlemek için yeni bir teknik kullandığında bilim adamları şaşırdılar.

Dr. Patterson daha sonra “Dünyadaki en iyi ve en parlak eleştirmenlerden bazılarının gösterimi mahvetmeye çalışmasını sağladım” dedi. “Yanıldığımı kanıtlamak için elinden geleni yaptın.” Ne kadar uğraşırlarsa uğraşsınlar numarası sabit kaldı.

Ancak bazen kopyalar eşleşmez. 1976'da arkeologlar Şili'nin Monte Verde kentinde eski bir av kampı keşfettiler ve bunun yaklaşık 14.500 yaşında olduğunu belirlediler; bu, Amerika'da daha önce keşfedilen insan kanıtlarından çok daha eskiydi.

Bağımsız bir bilim insanı ekibinin çalışmayı tekrarlaması için neredeyse 50 yıl geçti. Geçen ay çok farklı bir sonuca vardılar: İnsanlar 4.200 ila 8.200 yıl önce Monte Verde'de yaşıyordu.

Orijinal çalışmanın yazarları yeni bulguya karşı çıkıyor; Çatışmayı çözmek için muhtemelen daha fazla araştırma yapılması gerekiyor. Bilim bu şekilde kendini düzeltir.

En azından bu şekilde çalışması gerekiyor. Ancak önceki araştırmaları tekrarlamak, araştırmacıların kendi çalışmalarına harcamayı tercih edebilecekleri zaman ve parayı gerektirir. Ve dergi editörleri sıklıkla kopyalanma konusunda esniyorlar.

New Mexico'daki Santa Fe Enstitüsü'nde yapay zeka araştırmacısı olan Melanie Mitchell, yakın zamanda bir yapay zeka çalışmasını tekrarladı ve orijinal sonuçlarla aynı fikirde olamadı. Bir dergi, makalesini yenilik içermediği gerekçesiyle reddetti.

Geçen ay Yale'de konuşan bir dinleyici kitlesine Dr. Mitchell, “Bu tür bir kültürden gerçekten nefret ediyorum” dedi.

“Kötü bir problemi” çözün.

15 yılı aşkın süredir bazı bilim insanları kültürü değiştirmeye çalışıyor. Sorunun boyutunu belgeleyerek başladılar. 2010'ların başında Dr. Nosek ve meslektaşları 100 psikolojik makaleyi incelediler ve vakaların yalnızca yüzde 39'unda orijinal sonuçlarla aynı fikirdeydiler.

Başka bir projede Dr. Nosek, hayvanlar ve insan hücreleri üzerinde 50 deneyi tekrarlamak için kanser biyologlarıyla birlikte çalıştı. Sonuçların yarısından azı onların incelemesine dayanabildi.

Dr. DARPA'dan Russell, bilim adamlarının bir çalışmanın güvenilirliğini tahmin etmek için yapay zekayı kullanıp kullanamayacaklarını merak etti. Ancak öncelikle bilim adamlarının kopyalama için çok daha fazla veri toplaması gerekecek. “Bunun kötü bir sorun olduğunu biliyordum” dedi.

SCORE projesi 2019 yılında başladı ve 865 araştırmacıya ulaştı. Kriminoloji, ekonomi, psikoloji ve sosyoloji gibi sosyal bilimlerin alanlarından 2009 ile 2018 yılları arasında yayınlanan 3.900 makaleyi analiz ettiler.

Bir araştırma hattında SCORE ekibi çalışmaların 164'ünü tekrarladı. Ekip üyeleri bazı deneyleri yeniden gerçekleştirdi ve orijinal testleri yeniden yürütmek için gönüllüleri işe aldı. Hükümet istatistiklerine dayalı çalışmalar için SCORE ekibi üyeleri kendi verilerini elde etti ve analiz etti.

Tekrarlanan çalışmaların yalnızca yaklaşık yarısı orijinalleriyle aynı sonuçları verdi.

Araştırmaya dahil olmayan Whitman Koleji'nden biyolog Tim Parker, düşük oranın daha önceki daha küçük çalışmalarla tutarlı olduğunu söyledi.

“Bunların çok ikna edici sonuçlar olduğunu düşünüyorum” dedi. “Ve daha önceki ampirik kanıtlarla ikna olmamış insanların bundan daha fazla ikna olacağını umuyorum.”

Dr. Parker ve diğer araştırmacılar, bilim adamlarının aynı verileri incelemek için nasıl farklı yöntemler kullandıklarına dair endişelerini dile getirdiler. Tüm yöntemlerin meşru olsa bile çelişkili sonuçlara yol açabileceğini savunuyorlar.

SCORE ekibi, bilim insanları farklı yöntemler kullandığında araştırma sonuçlarının ne kadar sağlam olduğunu ölçtü. Üyeler 100 makale seçti ve her birine en az beş uzman ekibi atadı. Her ekip orijinal verileri analiz etmek için kendi yöntemlerini kullandı.

Dr. Nosec, “Bu kararlar genellikle çok önemlidir” dedi. SCORE denemelerinin yalnızca yüzde 57'sinde beş takımın tamamı orijinal çalışmayla yaklaşık olarak aynı sonucu elde etti. Vakaların yalnızca üçte birinde tam olarak aynı sonuca ulaşıldı.

SCORE ekibi ayrıca sorunlu verilerin ve analiz için kullanılan bilgisayar programlarındaki sorunların çoğaltma hatalarına nasıl yol açabileceğini de inceledi.

Araştırmacılar, orijinal yazarların kullandığı kodun aynısını kullanarak 143 makaledeki verileri analiz etti. SCORE sonuçlarının yaklaşık yüzde 9'u orijinal sonuçlardan tamamen farklıydı; diğer yüzde 14'ü ise yalnızca yaklaşık olarak aynıydı.

Ottawa Üniversitesi'nden ekonomist Abel Brodeur, kendi bilimsel test projesi olan Çoğaltma Enstitüsü'nde de benzer sorunlarla karşılaştığını söyledi. Bu hatalar, bilim adamlarının verilerini formatlarken veya programlarını yazarken hata yapması durumunda ortaya çıkabilir. “Bazen kodlama hataları çılgıncadır” dedi.

Bilim adamları genellikle verilerini ve kodlarını paylaşmadıkları için sorun aslında SCORE çalışmasının önerdiğinden daha kötü olabilir. SCORE ekibi verileri analiz etmek için kendi kodunu yazmak zorunda kaldığında, yarıdan daha az bir sürede tam olarak aynı sonuçları yeniden üretti.

Dr. Russell, başarılı bir şekilde çoğaltılabilen veya üretilemeyen bir makalenin işaretlerini tanımak için SCORES sonuçları kullanılarak yapay zeka sistemlerinin eğitilebileceğini umuyordu. Ancak kopyalanmanın gizemi hala çok derin görünüyor; SCORE ekibi, AI'nın tahminlerinin tamamen rastgele olmadığını ancak mükemmel olmaktan uzak olduğunu buldu.

Açık Bilim Merkezi'nde kıdemli araştırma bilimcisi ve yeni çalışmaların yazarı Andrew Tyner, “Hâlâ o kadar etkileyici değil” dedi. “Ama biraz olabilir.”

Ancak bu, uzmanların kendi içgüdülerine güvenebilecekleri anlamına gelmiyor. SCORE Projesi, çalışmanın başarılı bir şekilde tekrarlanıp tekrarlanamayacağını tahmin etmek için yüzlerce uzmanı işe aldı. 132 tekrarı inceleyen SCORE ekibi, uzmanların tahminlerin yaklaşık dörtte üçünde doğru tahminde bulunduğunu buldu.

Dr. Nosek'e göre SCORE'un temel değeri, bilimsel sürecin ne kadar karmaşık olduğunu göstermek ve onu iyileştirmenin yollarını önermekti.

Örneğin, bilim insanları bir deney planını önceden duyurabilir ve bu da onların hipotezlerini nihai olarak elde edecekleri verilere uyarlamalarını engeller.

Dr. Brodeur, dergilerin yazarların orijinal verileri ve kodları paylaşmalarını talep ederek yardımcı olabileceğini söyledi. “İnsanlar pisliklerini temizlediler” dedi.

Ulusal Sağlık Enstitüleri müdürü Dr. Jay Bhattacharya, bir röportajda ajansın çoğalmayı iyileştirmenin yolları üzerinde çalıştığını söyledi.

“Bilim, kopyalamaya dayanarak neyin doğru olduğunu belirler” dedi. “Şu anda pek iyi çalışmadığını hissediyorum.”

Bu yıldan itibaren ajans, veri ve kod paylaşımına yönelik yeni araçlar sağlamayı planlıyor. Aynı zamanda çeşitli alanlardaki anahtar fikirleri belirler ve bunların çoğaltılması için hibeler verir. Ajans, Dr. Bhattacharya'nın “yayınlayabileceğiniz ve çoğaltma çabalarınızın karşılığını alabileceğiniz bir yer” olarak tanımladığı bir dergi geliştiriyor.

Pittsburgh Üniversitesi Tıp Fakültesi'nden biyokimyacı ve Ulusal Genel Tıp Bilimleri Enstitüsü'nün eski müdürü ve Dr. Bhattacharya'yı eleştiren Jeremy Berg, planlarını “acı verici derecede saf” olarak nitelendirdi.

Dr. Berg, merkezi veri platformları ve temel fikirlerin kopyalanması gibi projelerin ancak hükümetin pahalı, uzun vadeli taahhütlerde bulunması durumunda işe yarayacağı konusunda uyardı. Sadece çoğaltma çalışmalarını yayınlamak için daha fazla fırsat sunmak, üniversitelerin işe alma ve görev süresi kararlarında onlara değer vermesi anlamına gelmez.

“Kimsenin bu konudaki şifreyi kırdığını düşünmüyorum” dedi.

Dr. Nosek, araştırmacıların çalışmalarına ne kadar özen gösterirse göstersin, bazen yine de hatalı olduklarının ortaya çıkabileceği konusunda uyardı.

Dr. Nosec, “Bilginin sınırında bu zordur ve hangi sorular üzerinde çalıştığınızın bir önemi yoktur” dedi. “Çok sayıda yanlış başlangıç ve mantıklı olmayan pek çok şey var.”

Bilim bir çalışmanın ne zaman başarısız olacağını tahmin edebilir mi?

Kendiniz görün

“Kötü bir problemi” çözün.

Yorumlar

Bir yanıt yazın Yanıtı iptal et