Sağlık sorunları söz konusu olduğunda insan etkileşimi sohbet robotlarının performansını kötüleştiriyor – Haberler

Berlin – Hastaların büyük dil modelleri (LLM) ile etkileşimi, hastalıkların değerlendirilmesinin güvenilirliğindeki merkezi zayıf nokta gibi görünmektedir. Bu, uzman dergide yayınlanan bir çalışmanın sonucudur. Doğa Bilimi yayınlandı (DOI: 10.1038/s41591-025-04074-y).

Büyük Britanya'dan 1.298 yetişkin denek üzerinde yapılan kontrollü bir çalışmada yazarlar, kamuya açık yüksek lisans eğitimlerinin insanların altta yatan hastalıkları tespit etmelerine ve bir eylem planı seçmelerine yardımcı olup olamayacağını test ettiler.

Her deneğe potansiyel sağlık sorunlarını tanımlamak ve on farklı tıbbi senaryodan biri için önerilen eylem planını önermekle görev verildi. Üç doktordan oluşan bir grup senaryoları geliştirdi ve her senaryo için doğru eylemler üzerinde oy birliğiyle mutabakata vardı. Senaryolar daha sonra ayırıcı tanıları yapmak üzere dört doktordan oluşan ayrı bir gruba sunuldu.

Denekler daha sonra bir LLM'den (GPT-4o, Llama 3, Command R+ kullanıldı) veya kontrol grubunda kendi seçtikleri bir kaynaktan destek alacak şekilde rastgele seçildi. Kontrol grubuna, klasik İnternet araştırması gibi normalde evde kullanacakları yöntemleri kullanmaları talimatı verildi.

Her grupta ulusal yetişkin nüfusa karşılık gelen bir kompozisyon sağlamak için sosyal özelliklere göre tabakalandırma yapıldı.

Yüksek Lisans'lar tek başına çalıştığında senaryoları doğru tamamlayarak vakaların yüzde 94,9'unda hastalıkları, ortalama yüzde 56,3'ünde ise prosedürü doğru tespit etti. Bununla birlikte, LLM'ler test denekleri tarafından kullanıldığında, vakaların yüzde 34,5'inden daha azında ilgili hastalıkları ve yüzde 44,2'sinden daha azında doğru prosedürü tanımladılar.

Her iki durumda da sonuçlar, doğru şüpheli tanıyı bulma olasılığı bir buçuk kat daha fazla olan kontrol grubundan daha kötüydü. Diğerlerinin yanı sıra Oxford ve Bangor üniversitelerinden ve İngiliz Ulusal Sağlık Servisi'nden (NHS) gelen yazarlar, “Kullanıcı etkileşimlerini yüksek lisans eğitimlerinin tıbbi tavsiye için kullanılmasında bir zorluk olarak tanımlıyoruz” sonucuna vardı.

Sonuçları açıklamak için, çalışmanın yazarları deneklerin Yüksek Lisans'la olan etkileşimlerinin transkriptlerini incelediler. Her iki konunun da eksik bilgi sağladığı ve LLM'lerin kullanıcı isteklerini yanlış yorumladığı durumları gözlemlediler. Test denekleri ayrıca tavsiyelere her zaman tutarlı bir şekilde uymadı.

Bu, bunun insanlar ve LLM arasındaki etkileşimdeki hatalardan kaynaklanabileceğini göstermektedir. Darmstadt Teknik Üniversitesi Her Yerde Bilgi İşleme Profesörü Iryna Gurevych, sonuçları Bilim Medya Merkezi'ne (SMC) açıklarken şöyle konuştu: “Sonuçlar büyük ölçüde etkileşim hatalarıyla açıklanabilir, insan yetersizliğiyle değil: kullanıcılar sağlanacak bilgiyi seçmede, arama sorgularını formüle etmede ve LLM sonuçlarını değerlendirmede ve uygulamada zorluklarla karşılaşıyor.”

Araştırma yazarlarının vurguladığı gibi, kullanıcıların tıp uzmanı olduğu daha önceki çalışmalarda da benzer modeller gözlemlenmişti. Gurevych, “Bu, sorunun kullanıcıların uzmanlığının ötesine geçtiğini gösteriyor” diyor.

Geleneksel İnternet tabanlı sağlık aramalarında olduğu gibi, sezgisel becerilerden ziyade etkili sorgulamalar ve yorumlar öğrenilir. Bu nedenle, hem kullanıcı yetkinliğinin eğitim yoluyla geliştirilmesi gerekiyor hem de LLM etkileşimlerinin, tüm beceri seviyelerindeki kullanıcıları daha iyi desteklemek için yeniden tasarlanması gerekiyor.

Çalışma ayrıca, genellikle güvenliği ve güvenilirliği ölçmek için kullanılan MedQA gibi standart ölçütlere dayanan değerlendirmelerin, insan-LLM etkileşimindeki hataları tahmin edemediğini de buldu. Bu bulgu, Harvard ve Stanford Üniversitelerindeki araştırmacıların şimdiye kadar yalnızca ön baskı olarak ortaya çıkan bir çalışmasının sonuçlarıyla örtüşüyor.

Mevcut çalışmanın yazarları, bu kriterlerin tipik olarak tıbbi lisans sınavlarındaki sorulara dayanarak tıbbi bilgiyi değerlendireceğini yazıyor. Çalışmadaki senaryolara karşılık gelen konularda kıyaslama soruları derlemişler ve LLM'nin bu sorulardaki performansını, her model ve senaryo için karşılık gelen etkileşimli testlerdeki performansla karşılaştırmışlardır.

30 vakadan 26'sında yapılandırılmış soru-cevap görevlerindeki performans, etkileşimli testlerden daha yüksekti ancak bunlarla büyük ölçüde ilgisi yoktu.

Münih Ludwig Maximilian Üniversitesi (LMU) Sağlık İletişimi Kürsüsü araştırma görevlisi Anne Reinhardt, SMC'ye “Çalışmanın yenilikçi bir yönü var” diye vurguladı. Önceki çalışmalar öncelikle yapay zekanın (AI) standart tıbbi vaka hikayelerine ne kadar iyi tepki verdiğini veya sınav formatlarında nasıl performans gösterdiğini inceledi.

Oradaki sonuçlar genellikle çok olumlu olacaktır. Reinhardt, “Ancak bu kıyaslamalar günlük yaşamın çok önemli bir bölümünü göz ardı ediyor: semptomları tanımlamak, sorular sormak, yanıtları sınıflandırmak ve bunlardan somut kararlar çıkarmak zorunda olan sıradan insanlarla etkileşimi” diyor.

Ancak Ute Schmid, yaklaşıma yönelik eleştirilerini dile getiriyor: Bamberg Otto Friedrich Üniversitesi'nde Bilişsel Sistemler Başkanı ve Bamberg Yapay Zeka Merkezi'nin (BaCAI) Genel Müdürü. “Dil modellerinin performansının tek başına kullanıcılarınkinden önemli ölçüde daha yüksek olduğu yönündeki açıklamayı biraz yanıltıcı buluyorum” diyor.

Bu durumda, sorular muhtemelen mesleki deneyime ve Yüksek Lisans'ta deneyime sahip kişiler tarafından formüle edilmiştir. “Bu, LLM'ye de bir talepte bulunulduğu anlamına geliyor, ancak bu talep yüksek kaliteli bir yanıt oluşturmaya uygun.”

Schmid, tıbbi sorularda uzmanlaşmış sohbet robotlarının, insanların bir doktor muayenehanesini mi yoksa acil servise mi gitmenin tavsiye edilir olduğunu daha iyi değerlendirebilmeleri için yararlı olabileceğini vurguluyor Schmid. Ancak bu tür tekliflerin yüksek kalitede yanıtlar sağlaması ve anlamlı bir şekilde sosyo-teknik açıdan entegre olması gerekir.

Örneğin, kalitesi test edilmiş sohbet robotları, yasal sağlık sigortası şirketleri aracılığıyla sunulabilir ve pratisyen hekim muayenehaneleri tarafından ilk erişim olarak önerilebilir. “Ancak insanlar bu teklifleri kullanmaya zorlanmamalı” diye uyarıyor. “Chatbot'ları kullanmak istemeyen veya kullanamayan kişiler için doğrudan iletişim seçeneği hâlâ mevcut olmalıdır.”

ılık

Sağlık sorunları söz konusu olduğunda insan etkileşimi sohbet robotlarının performansını kötüleştiriyor – Haberler – Deutsches Ärzteblatt

Yorumlar

Bir yanıt yazın Yanıtı iptal et