Yeni bir çalışma, Openai'nin en azından bazı AI modellerini telif hakkıyla korunan içerik konusunda eğittiği iddialarına güveniyor gibi görünüyor.
Openai, şirketleri, modellerini izinsiz geliştirmek için işlerini-kitapları, kod tabanlarını vb.-kullanmakla suçlayan yazarlar, programcılar ve diğer hak sahipleri tarafından getirilen kıyafetlere karışmıştır. Openai uzun zamandır adil bir kullanım savunması iddia etti, ancak bu davalardaki davacılar, verileri eğitmek için ABD telif hakkı yasasında bir oyma çıkmadığını savunuyorlar.
Washington Üniversitesi, Kopenhag Üniversitesi ve Stanford'da araştırmacılar tarafından ortak yazılan çalışma, API'nın arkasındaki modellerin Openai's gibi modeller tarafından “ezberlenmiş” eğitim verilerini tanımlamak için yeni bir yöntem önermektedir.
Modeller tahmin motorlarıdır. Birçok veri üzerinde eğitilmiş, kalıpları öğrenirler – bu şekilde denemeler, fotoğraflar ve daha fazlasını oluşturabilirler. Çıktıların çoğu eğitim verilerinin kelimesi kelimesine kopyaları değildir, ancak modellerin “öğrenme” şekli nedeniyle bazıları kaçınılmaz olarak. Görüntü modellerinin, eğitildikleri filmlerden ekran görüntülerini yeniden canlandırdığı bulunurken, dil modelleri etkin bir şekilde haber makalelerine intihal gözlemlenmiştir.
Çalışmanın yöntemi, ortak yazarların “yüksek sörf” dediği kelimelere dayanmaktadır-yani, daha büyük bir çalışma grubu bağlamında nadir görülen kelimeler. Örneğin, “Jack ve ben radar mırıltıyla mükemmel bir şekilde oturduk” cümlesindeki “radar” kelimesi, “Motor” veya “radyo” gibi kelimelerin “mırıldanmadan” önce görünmesi için istatistiksel olarak daha az olası olduğu için yüksek sörf vergisi olarak kabul edilecektir.
Ortak yazarlar, kurgu kitapları ve New York Times parçalarının parçacıklarından yüksek sörflü kelimeleri kaldırarak ve modellerin hangi kelimelerin maskeli olduğunu “tahmin etmeye” çalışarak ezberleme belirtileri için GPT-4 ve GPT-3.5 dahil olmak üzere çeşitli Openai modellerini araştırdı. Modeller doğru tahmin etmeyi başardıysa, eğitim sırasında snippet'i ezberlemediler, ortak yazarları bitirdi.
Testlerin sonuçlarına göre, GPT-4, bir veri kümesindeki kitaplar da dahil olmak üzere, bookmia adı verilen telif hakkıyla korunan e-kitap örnekleri içeren kitaplar da dahil olmak üzere, popüler kurgu kitaplarının ezberlenmiş kısımlarına sahip olduğunun belirtileri gösterdi. Sonuçlar ayrıca modelin, nispeten daha düşük bir oranda da olsa New York Times makalelerinin kısımlarını ezberlediğini öne sürdü.
Washington Üniversitesi'nde doktora öğrencisi ve çalışmanın ortak yazarı Abhilasha Ravichander, Tmzilla'a bulguların “tartışmalı veri” modellerine ışık tuttuğunu söyledi.
Ravichander, “Güvenilir büyük dil modellerine sahip olmak için bilimsel olarak araştırabileceğimiz ve denetleyebileceğimiz ve inceleyebileceğimiz modellere sahip olmalıyız” dedi. “Çalışmamız büyük dil modellerini incelemek için bir araç sağlamayı amaçlıyor, ancak tüm ekosistemde daha fazla veri şeffaflığı için gerçek bir ihtiyaç var.”
Openai uzun zamandır telif hakkıyla korunan veriler kullanarak modeller geliştirme konusunda daha gevşek kısıtlamaları savunmuştur. Şirketin belirli içerik lisanslama anlaşmaları var ve telif hakkı sahiplerinin şirketin eğitim amaçlı kullanmamasını tercih ettikleri içeriği işaretlemelerine izin veren devre dışı bırakma mekanizmaları sunarken, birkaç hükümeti AI eğitim yaklaşımları etrafında “adil kullanım” kurallarını kodlamak için lobi yapmıştır.
Bir yanıt yazın