Newsguard, Deepseek doğruluk testlerinin% 83'ünü başarısızlığa uğrattı

Çinli AI Chatbot Tepbot App Store İndirmeleri Deepseek, Newsguard'ın en son doğruluk değerlendirmesinde kötü puan aldı.

Newsguard'ın denetimine göre:

“[the chatbot] Haber ve bilgi konuları hakkında doğru bilgi sağlayamadı, zamanın yüzde 83'ü, önde gelen Batılı rakiplerine kıyasla 11'den 10'a bağlı oldu. ”

Temel Bulgular:

% 30 Yanıtların yanlış bilgileri içeriyordu
% 53 sorgulara cevap vermeyen yanıtların
Sadece % 17 Yanıtların Çıkarılmış Yanlış İddiaları
Endüstri ortalamasının önemli ölçüde altında gerçekleştirildi % 62 başarısızlık oranı

Çin Hükümeti Konumlandırma

Deepseek'in yanıtları dikkate değer bir model gösterir. Chatbot, sorular Çin ile ilgisiz olsa bile, Çin hükümet pozisyonlarını sık sık cevaplara sokuyor.

Örneğin, Suriye'deki bir durum sorulduğunda, Deepseek cevap verdi:

“Çin, Suriye halkının kendi işlerini idare etme bilgeliğine ve kabiliyetine sahip olduğuna inanarak diğer ülkelerin iç işlerine müdahale etme ilkesine bağlı kaldı.”

Teknik sınırlamalar

Deepseek'in Openai'nin yeteneklerini sadece 5,6 milyon dolarlık eğitim maliyetleriyle eşleştirme iddialarına rağmen, denetim önemli bilgi boşlukları ortaya koydu.

Chatbot'un yanıtları, güncel olayları ele alma yeteneğini sınırlayan “sadece Ekim 2023'e kadar sadece bilgi konusunda eğitildiğini” tutarlı bir şekilde gösterdi.

Yanlış Bilgi Güvenlik Açığı

Newsguard şunları buldu:

“Deepseek, yanlış iddialar oluşturmak ve yaymak için AI modellerini kullanmak isteyen insanlar tarafından kullanılan türden malign aktör istemlerine yanıt verirken yanlış iddiaları tekrarlamaya en savunmasızdı.”

Özellikle endişe verici:

“Yanlış bilgi içeren dokuz Deepseek yanıtından sekizi, Malign aktör istemlerine yanıt olarak, Deepseek ve diğer araçların kötü aktörler tarafından yanlış bilgilendirmeyi ölçekte yaymak için nasıl kolayca silahlandırılabileceğini gösterdi.”

Endüstri bağlamı

Değerlendirme, Çin ve ABD arasındaki AI yarışında kritik bir zamanda geliyor.

Deepseek'in Kullanım Koşulları, kullanıcıların “yanlış bilgileri yaymaktan kaçınmak için çıktı içeriğinin özgünlüğünü ve doğruluğunu proaktif olarak doğrulamaları gerektiğini” belirtmektedir.

Newsguard, bu politikayı eleştirerek, kanıt yükünü geliştiricilerden son kullanıcılara kaydıran “elden çıkarma” yaklaşımı olarak adlandırıyor.

Deepseek, Newsguard'ın denetim bulguları hakkında yorum yapma taleplerine cevap vermedi.

Şu andan itibaren Deepseek, Newsguard'ın aylık AI denetimlerine dahil edilecek. Sonuçları, endüstri çapında eğilimler hakkında bilgi vermek için diğer sohbet botlarının yanında anonimleştirilecektir.

Bu ne anlama geliyor

Deepseek pazarlama dünyasında dikkat çekerken, yüksek arıza oranı güvenilir olmadığını gösteriyor.

Bu veya başka bir chatbot'a güvenmeden önce gerçekleri güvenilir kaynaklarla iki kez kontrol etmeyi unutmayın.

Öne çıkan resim: gökyüzünün altında/Shutterstock