AI'nın sohbet botlarının öğrenmek için daha fazla kitaba ihtiyacı var ve birkaç ABD kütüphanesi

İnternette söylenen her şey sadece başlangıcıydı Yapay Zeka Öğretin İnsanlık hakkında. Şimdi teknoloji şirketleri bir En Eski Bilgi Depozitosu: Rafları kitap Kütüphaneler.

Neredeyse Onbeşinci yüzyıl kadar eski bir dönemde bile bir milyon kitap yayınlandı –Ve 254 dilde- bunlar Harvard Üniversitesi Biliyorum ortak Son zamanlarda araştırmacılarla. Yakında, eski gazetelerin hazineleri ve hükümet belgeleri de Boston Halk Kütüphanesi.

Yüzüncü yıl hacimlere erişim için tonozları açın, teknoloji şirketleri için bir veri serveti olabilir. Romancılardan, görsel sanatçılardan ve diğerlerinden taleplerle karşılaşıyorlar Kimin Yaratıcı Çalışmaları rızası olmadan kullandım AI'dan sohbet botlarını eğitmek için.

Kamu malı

“Bu ihtiyatlı bir karar Kamu malı bilgileriyle başlayınçünkü bu şu anda hala telif hakkınız olan içerikten daha az tartışmalıdır ”dedi.

Davis, kütüphanelerin de koruduğunu belirtti “Çok sayıda ilginç kültürel, tarihi ve dilsel veri”AI Chatbots'un çoğunlukla öğrendiği çevrimiçi yorumların son on yıllarında yok. Bilgi tükenme korkusu, AI geliştiricilerinin sohbet botlarının kendileri tarafından oluşturulan ve daha düşük kalitede “sentetik” verilere başvurmalarına da yol açtı.

“Microsoft ve Openai“ Sınırsız Hediyeler ” – ChatGPT Üreticisi – Harvard merkezindeki Harvard Merkezi'nin desteğiyle Dünyanın dört bir yanındaki kütüphaneler ve müzelerle çalışıyor Tarihsel koleksiyonlarını AI için nasıl hazır hale getirecekleri hakkında, katıldıkları topluluklara da fayda sağlayacak şekilde.

“Şu anda AI'nın elinde olan gücün bir kısmını bu kurumlara geri aktarmaya çalışıyoruz.” Dedi. Harvard Hukuk Fakültesi Kütüphane İnovasyon Laboratuvarı. “Kütüphaneciler her zaman veri ve bilgi yöneticileri olmuştur.”

Harvard'ın Veri Seti, Kurumsal Kitaplar 1.0, yeni yayınlandı, 394 milyondan fazla taranan kağıt içeriyor. En eski eserlerden biri on beşinci yüzyıldan kalma: Koreli bir ressamın çiçek ve ağaçların yetiştirilmesi üzerine yazılan yansımalar. En büyük eser yoğunluğu, on dokuzuncu yüzyıldan, edebiyat, felsefe, hukuk ve tarım gibi konulardır, hepsi kuşaklar tarafından titizlikle korunur ve organize edilir.

Hassasiyeti iyileştirmek

Deneyen AI geliştiricileri için çok faydalı olma sözü Sistemlerinizin hassasiyetini ve güvenilirliğini artırın.

Diyerek şöyle devam etti: “Yapay zekada eğitimde kullanılan verilerin çoğu orijinal kaynaklardan gelmiyor” Veri girişimi genel müdürü Greg Leppert, aynı zamanda siber alan çalışmasına odaklanan bir ajans olan Berkman Klein İnternet ve Harvard Derneği'nde teknoloji başkanı olan Greg Leppert. Bu kitap koleksiyonu, “kurumların aslında bu materyalleri topladığını tarttığı fiziksel kopyaya kadar” kapsıyor.

Chatgpt yapay zeka için ticari bir çılgınlığı tetiklemeden önce, Çoğu IA araştırmacısı, Wikipedia'dan çıkarılan metin biletlerinin kökeni ile pek ilgilenmiyordu. Reddit ve bazen geniş gibi sosyal medya forumlarının Korsan kitap mevduatları. Sadece bilgisayar uzmanlarının jetonlar dediği şeylere ihtiyaçları vardı: her biri bir kelimenin parçasını temsil edebilen veri birimleri.

Chatbots.reuters/verilen Ruvic/Illustrasyon

Harvard'ın yeni eğitim koleksiyonu 242 milyar jeton tahmini var, insanlar için anlaşılması zor bir miktarancak bu sadece en gelişmiş AI sistemlerine tanıtılanların bir damlası olarak kalır. Örneğin, Facebook'un ana şirketi Meta, geniş dil modelinin en son sürümünün metin, görüntü ve videolardan çıkarılan 30 milyardan fazla jetonla eğitildiğini söyledi.

Meta ayrıca komedyen Sarah Silverman ve diğer yazarlar tarafından yayınlanmış eserlerle bir talep ile karşı karşıya Şirketi Korsan Eserlerinin “Hayalet Kütüphaneleri” nden kitaplarını çalmakla suçluyorlar.

Şimdi, bazı çekincelerle, gerçek kütüphaneler koşullarını dayatıyor.

Telif hakkı ihlalleri

Openai, bu Ayrıca telif hakkı ihlalleri için bir dizi talep ile karşı karşıya, Bu yıl, 400 yaşında, Oxford Üniversitesi'ne ait olan ve nadir kitapları dijitalleştiren ve bunları kopyalamak için AI kullanan Bodleian Kütüphanesi de dahil olmak üzere bir grup araştırma kurumuna 50 milyon dolar bağışladı.

Şirket, Amerika Birleşik Devletleri'nin en büyüklerinden biri olan Boston Halk Kütüphanesi ile ilk temasa geçtiğinde Kütüphane, sayısallaştıracak herhangi bir bilginin herkes için kullanılabilir olacağını açıkça belirtti.Dijital ve Çevrimiçi Hizmetler Direktörü Jessica Chapel Shared.

“Openai bu ilgiyi büyük miktarda eğitim verisine sahipti. Büyük miktarda dijital nesneye ilgi duyuyoruz. Bu nedenle, bu bir durum gibi görünüyor. İlgi alanları çakışıyor“Şapel dedi.

Sayısallaştırma pahalıdır. Örneğin, Boston Kütüphanesi için, 19. New England'da, Quebec Kanadalı göçmen toplulukları arasında 19. ve yirminci yüzyılın sonunda yaygın olarak dağıtılan düzinelerce gazeteyi taramak ve organize etmek için titiz bir çalışma olmuştur. Artık bu metin AI'yi eğitmek için kullanıldığına göre, kütüphanecilerin yine de yapmak istediği projeleri finanse etmeye yardımcı oluyor.

Harvard'ın koleksiyonu 2006'dan beri dijitalleşmeye başlamıştı Başka bir teknolojik dev için Google, 20 milyondan fazla kitabın arama kapasitesine sahip bir çevrimiçi kütüphane oluşturmak için tartışmalı projesinde.

Google, yıllarca çevrimiçi kütüphanesi için yazarların taleplerinden kendilerini savunarak geçirdibirçok yeni eser ve telif hakkı içeren. Son olarak, ABD Yüksek Mahkemesi'nin telif hakkı ihlali iddialarını reddeden alt mahkeme başarısızlıklarını onayladığı 2016 yılında çözüldü.

95 yıllık koruma

Şimdi, ilk kez, Google, halka açık alanda olan Google kitaplarından hacimleri çıkarmak için Harvard ile birlikte çalıştı ve bunları AI geliştiricileriyle paylaşmanın yolunu açın. Amerika Birleşik Devletleri'ndeki telif hakkı korumaları genellikle 95 yıl ve ses kayıtları için daha fazla zaman sürer.

Yeni girişim, Google'a kitap projesi için dava açan ve daha yakın zamanda şirketleri mahkemelere yönlendiren aynı grup yazar tarafından alkışlandı.

Yazarlar Derneği genel müdürü Mary Rasenberger, “Bu başlıkların çoğu sadece ana kütüphanelerin raflarında mevcuttur ve bu veri setinin oluşturulması ve kullanılması bu ciltlere ve içerdikleri bilgiye erişimi genişletecektir.” Dedi. Diyerek şöyle devam etti: “Her şeyden önce, eğitim için kapsamlı bir dizi yasal veri oluşturulması, yeni AI modellerinin oluşturulmasını demokratikleştirecek.”

Google tarafından Gemini'nin iki sayfasının gösterildiği fotoğraf, Google Yapay Zeka Chatbot (AI). EFE/Google

Tüm bunların yeni nesil AI araçları için ne kadar yararlı olacağı görülüyorveri setleri ve herkesin indirebileceği açık kaynak AI modellerini barındıran Hugging Face Platformunda paylaşıldığından.

Kitap koleksiyonu, AI'nın karakteristik verilerinin kaynaklarından daha çeşitli dilsel olarak. Avrupa dilleri, özellikle Alman, Fransızca, İtalyanca, İspanyolca ve Latince baskın olmaya devam etmesine rağmen, ciltlerin yarısından azı İngilizce.

Son derece önemli

On dokuzuncu yüzyıl düşüncesinin Imbieda kitaplarından oluşan bir koleksiyon da “son derece önemli” olabilir. Teknoloji endüstrisinin insanları planlayabilecek ve akıl yürütebilecek AI ajanları oluşturma girişimleri, Lappert dikkat çekti.

“Bir üniversitede, akıl yürütmenin ne anlama geldiğine dair birçok pedagojik malzemeniz var.” “Süreçlerin nasıl yürütüleceğine ve analizin nasıl yürütüleceğine dair birçok bilimsel bilginiz var.”

Aynı zamanda, Ayrıca çok eski veri varırkçı ve sömürge anlatılarına karşı itibarsız bilimsel ve tıbbi teorilerden.

Harvard Kütüphanesi İnovasyon Laboratuvarı koordinatörü Kristi Mukk, girişimin veri kullanımı risklerini azaltmaya çalıştığını söyleyen ve böylece kullanıcıların kendi bilgilendirilmiş kararlarını kullanmalarına yardımcı olmaya yardımcı olmaya çalıştığını söyleyen, “Bu kadar kapsamlı bir veri seti ile ilgilendiğinde, zararlı içerik ve dil etrafında bazı karmaşık sorunlar var” dedi.

Associated Press'ten gelen bilgilerle.