Araştırmacılar, Openai eğitimli AI modellerini ödeme wwalled O'Reilly kitaplarında önerir

Openai, birçok taraf tarafından yapay zekayı telif hakkıyla korunan içerik izni üzerine eğitmekle suçlanıyor. Şimdi bir AI bekçi organizasyonu tarafından yapılan yeni bir makale, şirketin daha sofistike AI modellerini eğitmek için lisans vermediği kamuya açık olmayan kitaplara giderek daha fazla güvendiği ciddi bir suçlamayı ortaya koyuyor.

AI modelleri esasen karmaşık tahmin motorlarıdır. Birçok veri üzerinde eğitilmiş – kitaplar, filmler, TV şovları vb. Bir model bir Yunan trajedisi üzerine bir deneme “yazdığında” veya Ghibli tarzı görüntüleri “çizdiğinde”, sadece geniş bilgisinden yaklaşık olarak çekiliyor. Yeni hiçbir şeye gelmiyor.

Openai de dahil olmak üzere bir dizi AI laboratuvarı, gerçek dünya kaynaklarını (esas olarak genel ağ) tüketirken AI'yi eğitmek için AI tarafından üretilen verileri kucaklamaya başlarken, çok azı gerçek dünya verilerini tamamen elde etti. Bunun nedeni, tamamen sentetik veriler üzerinde eğitim, bir modelin performansını kötüleştirmek gibi risklerle birlikte gelir.

2024 yılında medya mogul Tim O'Reilly ve ekonomist Ilan Strauss tarafından kurulan kâr amacı gütmeyen bir kuruluş olan AI Açıklamalar Projesi'nden yeni makale, Openai'nin GPT-4O modelini O'Reilly Media'nın ödeme wwalled kitapları üzerinde eğittiği sonucuna varıyor. (O'Reilly, O'Reilly Media'nın CEO'sudur.)

ChatGPT'de GPT-4O varsayılan modeldir. O'Reilly'nin Openai ile lisans anlaşması yok.

“Openai'nin daha yeni ve yetenekli modeli GPT-4O, Paywalled O'Reilly kitap içeriğinin güçlü bir şekilde tanındığını gösterir… Openai'nin önceki model GPT-3.5 Turbo ile karşılaştırıldığında” diye yazdı gazetenin ortak yazarları. “Buna karşılık, GPT-3.5 Turbo, halka açık O'Reilly kitap örneklerinin daha fazla göreceli olarak tanınmasını göstermektedir.”

Makale, De-Cop adlı, ilk olarak 2024 yılında akademik bir makalede tanıtılan ve dil modellerinin eğitim verilerinde telif hakkıyla korunan içeriği tespit etmek için tasarlanmış bir yöntem kullanılmıştır. “Üyelik çıkarım saldırısı” olarak da bilinen yöntem, bir modelin insan tarafından yazılan metinleri aynı metnin yorumlu, AI tarafından üretilen sürümlerinden güvenilir bir şekilde ayırt edip edemeyeceğini test eder. Mümkünse, modelin eğitim verilerinden metin hakkında önceden bilgi sahibi olabileceğini düşündürmektedir.

Makalenin ortak yazarları-O'Reilly, Strauss ve AI araştırmacısı Sruly Rosenblat-GPT-4O, GPT-3.5 Turbo ve diğer Openai modellerinin eğitim kesme tarihlerinden önce ve sonra yayınlanan O'Reilly medya kitapları hakkındaki bilgilerini araştırdıklarını söylüyor. Bir modelin eğitim veri kümesine belirli bir alıntının dahil olma olasılığını tahmin etmek için 34 O'Reilly kitabından 13.962 paragraf alıntı kullandılar.

Makalenin sonuçlarına göre, GPT-4O, GPT-3.5 Turbo da dahil olmak üzere Openai'nin eski modellerinden çok daha fazla ödenen O'Reilly kitap içeriğini “tanıdı”. Bu, potansiyel karıştırıcı faktörleri hesaba kattıktan sonra bile, yazarlar, daha yeni modellerin metnin insan yazılıp yazılmadığını anlama yeteneğindeki gelişmeler gibi.

“GPT-4O [likely] Eğitim kesim tarihinden önce yayınlanan kamuya açık olmayan birçok O'Reilly kitabını tanıyor ve bu yüzden önceden bilgilendiriyor ”diye yazdı.

Sigara içen bir silah değil, ortak yazarlar not etmeye dikkat ediyorlar. Deneysel yöntemlerinin kusursuz olmadığını ve Openai'nin ödeme duvarı kitap alıntılarını kopyalayıp chatgpt'e yapıştıran kullanıcılardan topladığını kabul ediyorlar.

Suları daha da çamurlandıran ortak yazarlar, Openai'nin GPT-4.5 ve O3-Mini ve O1 gibi “akıl yürütme” modellerini içeren en son model koleksiyonunu değerlendirmediler. Bu modellerin ödeme duvarı O'Reilly kitap verileri konusunda eğitilmemesi veya GPT-4O'dan daha az miktarda eğitilmiş olması mümkündür.

Bununla birlikte, telif hakkıyla korunan veriler kullanarak modeller geliştirme konusunda daha gevşek kısıtlamaları savunan Openai'nin bir süredir daha yüksek kaliteli eğitim verileri aradığı bir sır değil. Şirket, modellerinin çıktılarına ince ayar yapmak için gazetecileri işe alacak kadar ileri gitti. Bu daha geniş bir sektörde bir eğilimdir: bu uzmanların bilgilerini AI sistemlerine etkili bir şekilde beslemesini sağlamak için bilim ve fizik gibi alanlarda uzmanları alan AI şirketleri.

Openai'nin eğitim verilerinin en azından bir kısmını ödediğine dikkat edilmelidir. Şirketin haber yayıncıları, sosyal ağlar, stok medya kütüphaneleri ve diğerleri ile lisans anlaşmaları var. Openai ayrıca, telif hakkı sahiplerinin şirketin eğitim amaçlı kullanmamasını tercih ettikleri içeriği işaretlemelerine izin veren kusurlu olanlar da olsa-devre dışı bırakma mekanizmaları sunar.

Yine de, Openai eğitim veri uygulamaları ve ABD mahkemelerinde telif hakkı yasasının tedavisi konusunda birkaç dava açtığından, O'Reilly makalesi en gurur verici görünüm değildir.

Openai yorum talebine yanıt vermedi.

Araştırmacılar, Openai eğitimli AI modellerini ödeme wwalled O'Reilly kitaplarında önerir

Yorumlar

Bir yanıt yazın Yanıtı iptal et