Reddit Verileri Olmasaydı Yüksek Lisans'lar 'Var Olmazdı'

Reddit CEO'su Steve Huffman, Reddit'in içeriği olmadan büyük dil modellerinin “bildiğimiz şekliyle var olamayacağını” söyledi. Platformun kullanıcı tarafından oluşturulan verilerini yapay zeka için “modern yağ” olarak adlandırdı.

Huffman bu yorumları Fast Company'nin En Yenilikçi Şirketler Zirvesi'nde yaptığı röportaj sırasında yaptı.

Huffman, Reddit'in Yapay Zeka Açısından Değeri Hakkında Ne Dedi?

Huffman, Reddit'in verilerinin yapay zeka ekosistemindeki konumunu anlattı.

Huffmann şunları söyledi:

“Reddit olmasaydı bildiğimiz şekliyle Yüksek Lisans'lar var olamazdı. Reddit, Yüksek Lisans'lar için en büyük eğitim verisi kaynaklarından biri ve Reddit, her iki eğitim verisinin de ana kaynaklarından biri olmaya devam ediyor ve biz de tüm modeller arasında en çok alıntı yapılan, en çok alıntı yapılan platformuz.”

Alıntı iddiasını yapay zeka alıntı verilerini izleyen bir firma olan Profound'a bağladı.

Huffman, yapay zeka şirketlerinin neden içeriğe bağlı olduğunu açıkladı.

“Gerçek zeka olmadan yapay zeka olmaz. Sonuçta bu modeller oldukça basit. Başka yerlerde tükettiklerini çok büyük bir ölçekte kusuyorlar ve bu tüketimin büyük bir kısmı aslında Reddit'teki insanların sohbetinden ibaret çünkü bu doğal ve temelde akla gelebilecek her konuyu kapsıyor.”

Bazıları İçin Fırsatlar, Bazıları İçin Davalar

Reddit, 2024'te Google ve OpenAI ile veri lisanslama anlaşmaları yapacağını duyurdu. Huffman, bunları Reddit'in orijinal iki yapay zeka veri anlaşması olarak nitelendirdi ve herhangi bir ek anlaşma duyurmadı.

“Google ve OpenAI ile ilk iki anlaşmayı yaptığımızdan bu yana, yani iki yıldan fazla bir süre önce çok şey öğrendik. Onlar çok şey öğrendiler. Tüm dünya çok şey öğrendi. Özellikle Reddit'in verileri ne kadar değerli ve ne kadar faydalı. Bu yüzden burada çok bilinçli ve seçici davrandığımızı düşünüyorum. Ama evet, biz iş için açık ve açığız.”

Reddit, lisans koşullarını kabul etmeyen şirketler için yasal işlem başlattı. Şirket, Reddit içeriğinin izinsiz kullanıldığı ve Reddit koşullarının ihlal edildiği iddiasıyla Anthropic'e Kaliforniya Yüksek Mahkemesi'nde dava açtı. Reddit, New York'un Güney Bölgesi'ndeki Perplexity'ye karşı üç veri kazıma firmasıyla birlikte DMCA'nın hileli atlatma önleme ihlallerini ve ilgili iddiaları iddia ederek federal bir dava açtı.

Huffman iki grup arasına bir çizgi çekti.

“İyi ilişkilerimiz olan Google ve OpenAI gibi şirketlerle aslında bir anlaşma yapabilir ve kullanıcılarımız adına bazı koruma raylarını kullanıma sunabilir ve verilerimize erişim sağlayabiliriz, ancak daha sonra internetin yeni nesli için ürünler üretmek için işbirliği yapabiliriz.”

“Her şirket işbirlikçi bir ortak olmaya istekli değil ve bu nedenle ne yazık ki diğer tarafa, yani davalara gitmek zorundayız” diye ekledi.

Huffman izleyicilere Reddit'in ticari kullanım konusundaki tutumunun basit olduğunu söyledi. “Verilerimizin ticari kullanımı ticari şartlar gerektirir” dedi. Reddit, mevcut lisans anlaşmalarından önce gelen bir hamle olarak 2023'te ticari API erişimi için ücret almaya başladı.

Huffman, Reddit'in hâlâ araştırmacılara ve üniversitelere ücretsiz veri erişimi sağladığını ve ticari olmayan kullanım için esnek kalmaya çalıştığını söyledi.

Reddit'in Açıklığını Ne Değiştirdi?

Huffman'a göre Reddit'in verileri özgürce paylaşma isteği, yapay zeka endüstrisinin açık araştırmadan uzaklaşmasıyla değişti. SEJ'in daha önce bildirdiği gibi Reddit birçok arama motoru tarayıcısının erişimini sınırlandırırken Google bir istisna olarak kaldı.

“Tarihsel olarak Reddit, sanki açık internetten doğmuşuz gibiydi ve Reddit açıktı ve verilerine erişim konusunda oldukça hoşgörülüydü. Ve dürüst olmak gerekirse, yapay zeka şirketleri temelde hala açık ve açık kaynak olsaydı ve açık araştırma yapıyor olsaydı bugün farklı bir konumda olacağımızı düşünüyorum.”

Huffman, sorunun Reddit'in verilerinin nasıl kullanıldığını artık takip edememesi olduğunu söyledi. İzleyicilere, “İnsanlar verilerimizi kullanıyor ve bunların ne için kullanıldığını bilmiyoruz” dedi.

Huffman, ticari şartların ötesinde, Reddit'in verilerinin kullanıcıları tanımlamak, reklamlarla hedeflemek veya platformu değiştirmek veya platformu ortadan kaldırmak için kullanılmasını önlemek istediğini söyledi.

Reddit'in Kendi Yapay Zeka Çabaları

Huffman “paradoks” olarak adlandırdığı durumu kabul etti. Reddit'in içeriği harici yapay zeka sistemlerini destekliyor ancak şirket, platformunda yapay zekayı da kullanıyor.

En görünür ürün, LLM destekli bir arama özelliği olan Reddit Answers'tır. Gönderileri ve yorumları okur, ardından bunları birebir kullanıcı alıntılarından oluşturulan yanıtlar halinde düzenler. Huffman, bunun kesin cevapları olmayan sorular için tasarlandığını belirtti.

“Reddit Answers'ın yaptığı, Reddit'e özgü birkaç şey. Birincisi, temelde sadece gerçek insanlardan birebir alıntılarla yanıt veriyor. Ve sonra yaptığı ikinci şey, birden fazla bakış açısı sunmaya çalışması çünkü Reddit'teyseniz asıl mesele, insani bakış açısını istiyorsunuz.”

Reddit, perde arkasında içerik denetimi ve sınıflandırma için yapay zekayı kullanıyor. Yüksek Lisans'lar, bir yorumun zorbalığa dönüşüp dönüşmediğini değerlendirebilir; bu, Huffman'ın daha önce içerdiği öznellik nedeniyle zor olarak tanımladığı bir şeydir.

Huffman, AI moderasyonunu Reddit'in topluluk moderasyon modelinin yerine geçecek bir araç olarak değil, en kötü içeriğe maruz kalmayı azaltmanın bir yolu olarak sundu.

Huffman, “İnternetteki en kötü iş, internetteki en kötü içeriğe bakıp bunun çevrimiçi olup olmayacağına karar vermekti” dedi. “Bu iş öylece ortadan kayboluyor.”

Yapay Zeka Tarafından Yazılan Gönderilerin Gri Alanı

Huffman ayrıca kullanıcıların yapay zeka araçlarıyla içerik yazıp bunu Reddit'e yapıştırmasının zorluğuna da değindi. Bunun otomatik bot aktivitesinden farklı olduğunu vurguladı.

“Yalnızca Reddit'te değil, tüm internet üzerinde gördüğüm en sinir bozucu şey, birinin gönderisini veya yorumunu ChatGPT ile yazıp ardından Reddit'e yapıştırması. Mesela bu bir bot mu? Kesinlikle bir bot gibi geliyor ama fikrin arkasında bir insan var.”

Huffman meseleyi bir niyet meselesi olarak değerlendirdi. Huffman, “Fikrinin arkasında, içeriğin arkasında, istemin arkasında bir insanın olması bizim için çok önemli” dedi. Ancak kullanıcılar gönderilerini oluşturmak için yapay zekaya güvendiğinde “yazının berbat” olduğunu da belirtti.

Huffman, bu soruna çözüm bulmak için bir politika oluşturmak yerine Reddit'in sorunu topluluğunun ele almasına izin vereceğini belirtti. Kullanıcılar zaten yapay zeka tarafından yazılan içeriğe olumsuz oy veriyor ve bunu yorumlarda dile getiriyor. Huffman, Reddit'in “kullanıcıları daha fazla güçlendireceğini ve alt dizinleri bu tür içeriği tamamen reddetme konusunda daha fazla güçlendireceğini” söyledi.

Daha geniş soruyu matematik dersindeki hesap makineleriyle karşılaştırdı. “Bugünlerde çocuklar yapay zekayla yazmayı yeni öğreniyorlar. Bu konuda ne yapacağız?” dedi. “Herkesle birlikte bizim de öğrenmemiz gerektiğini düşünüyorum.”

Bu Neden Önemli?

Huffman'ın yorumları, Reddit'in kullanıcı tartışmalarının yapay zeka sistemleri için temel bir girdi olduğu yönündeki görüşünü güçlendiriyor.

Huffman'ın tanımladığı AI tarafından yazılan içerik sorunu, daha geniş bir YouTube AI araştırmasının parçası olarak ele alınan bir SEJ'dir. Reddit'in, algılama araçları geliştirmek yerine yapay zeka tarafından oluşturulan gönderileri topluluk oylamasıyla yönetme kararı, otomatik etiketleme uygulayan platformlardan farklı bir yol.

İleriye Bakış

Huffman, Fast Company'ye Reddit'in yeni veri anlaşmaları hakkında “piyasada insanlarla sürekli konuştuğunu” söyledi ancak üçüncü bir anlaşmaya dair ipucu vermedi.

Reddit'in Anthropic ve Perplexity'ye karşı davaları devam ediyor. Antropik dava, Mart ayında federal mahkemenin tutukluluk duruşmasına konu oldu.