Google'dan Gary Illyes, son Arama Central Central Live Deep Dive sırasında Asya'daki Deep Dive, yeni çoklu vektör alımını sabit boyutlu kodlamalar (Muvera) geri alma yöntemi ile kullanıp kullanmadıkları ve ayrıca grafik temel modelleri kullanıp kullanmadıkları konusunda cevapladı.
Muvera
Google kısa süre önce Muvera'yı bir blog yazısında ve bir araştırma makalesinde duyurdu: karmaşık çok vektör aramasını hızlı tek vektör aramasına dönüştürerek geri alınmayı geliştiren bir yöntem. Token gömme setlerini, orijinal benzerliklerine yakından yaklaşan sabit boyutlu vektörlere sıkıştırır. Bu, iyi adayları hızlı bir şekilde bulmak için optimize edilmiş tek vektör arama yöntemlerini kullanmasını sağlar, daha sonra tam çok vektör benzerliği kullanarak onları yeniden sıralayın. Ekose gibi eski sistemlerle karşılaştırıldığında, Muvera daha hızlıdır, daha az aday alır ve yine de hatırlamayı iyileştirir, bu da onu büyük ölçekli geri alma için pratik bir çözüm haline getirir.
Muvera ile ilgili kilit noktalar:
- Muvera, çok vektörlü setlerin tek vektör temsilleri olan sabit boyutsal kodlamalar (FDES) kullanan çok vektör kümelerini sabit vektörlere dönüştürür.
- Bu FDES (sabit boyutsal kodlamalar), orijinal çok vektör karşılaştırmalarını doğru almayı destekleyecek kadar yakından eşleştirir.
- Muvera alımı, alımda kullanılan yerleşik bir arama tekniği olan MIP'leri (maksimum iç ürün araması) kullanır ve ölçekte dağıtılmasını kolaylaştırır.
- REERANKING: En olası eşleşmeleri hızlı bir şekilde daraltmak için Hızlı Tek Vektör Araması (MIPS) kullandıktan sonra, Muvera bunları daha ayrıntılı bir çok vektör karşılaştırma yöntemi olan pah benzerliği kullanarak yeniden canlandırır. Bu son adım, çok vektör alımının tam doğruluğunu geri yükler, böylece hem hız hem de hassasiyet elde edersiniz.
- Muvera, tam olarak ilgili belgelerin daha düşük bir işlem süresine sahip, son teknoloji ürünü alma taban çizgisinden (ekose) daha fazla bulabilir.
Google, Muvera'yı kullandıklarını doğrular
José Manuel Morgal (LinkedIn Profili) sorusunu Google'ın Gary Illyes ile ilişkilendirdi ve cevabı, Muvera'nın ne olduğunu şaka bir şekilde sormaktı ve sonra bunun bir versiyonunu kullandıklarını doğruladı:
Soru ve cevap José tarafından böyle tanımlandı:
“Google Research'te Muvera hakkında bir makale yayınlandı ve ilişkili bir makale var. Şu anda arada üretiliyor mu?
Onun yanıtı bana Muvera'nın ne olduğunu sormaktı ve sonra Muvera'ya benzer bir şey kullandıklarını söyledi ama bunu böyle adlandırmıyorlar. ”
Google, Graph Foundation Models (GFMS) kullanıyor mu?
Google kısa süre önce Graph Foundation modeli adı verilen bir AI atılımı hakkında bir blog duyurusu yayınladı.
Google'ın Grafik Foundation Modeli (GFM), ilişkisel veritabanlarından grafiklere dönüştürerek, satırların düğümler haline geldiği ve tablolar arasındaki bağlantıların kenarlar haline geldiği bir yapay zeka türüdür.
Yalnızca bir veri kümesinde çalışan eski modellerden (makine öğrenme modelleri ve grafik sinir ağları (GNN'ler)) farklı olarak, GFM'ler yeni veriler üzerinde eğitim almadan farklı yapılar ve özelliklere sahip yeni veritabanlarını işleyebilir. GFMS, veri noktalarının tablolar arasında nasıl ilişkili olduğunu öğrenmek için büyük bir AI modeli kullanır. Bu, GFM'lerin düzenli modellerin kaçırdığı kalıpları bulmasına izin verir ve Google'ın ölçekli sistemlerinde spam algılama gibi görevlerde çok daha iyi performans gösterirler. GFM'ler ileriye doğru büyük bir adımdır çünkü karmaşık yapılandırılmış verilere temel model esnekliği getirirler.
Grafik temel modelleri, gelişmeleri artımlı olmadığı için dikkate değer bir başarıyı temsil eder. Ortalama bir hassasiyette 3x ila 40x performans kazançları ile büyüklük sırası iyileştirmesidir.
José daha sonra Illyes'e Google'ın Graph Foundation modellerini kullanıp kullanmadığını ve Gary'nin José'nin neden bahsettiğini bilmeden tekrar şaka yoluyla düşündüğünü sordu.
Soru ve cevabı ilişkilendirdi:
“Google Research'te Grafik Foundation modelleri hakkında bir makale yayınlandı, bu sefer onunla ilişkili kağıt yok. Şu anda arada üretiliyor mu?
Cevabı öncekiyle aynıydı, bana veri için hangi grafik temel modellerinin olduğunu sordu ve bunun üretimde olmadığını düşündü. İlişkili kağıt olmadığı için bilmiyordu, öte yandan bana Google Research blogunda neyin yayınlandığını kontrol etmediğini söyledi. ”
Gary, Graph Foundation modelinin şu anda aramada kullanılmadığına dair görüşünü dile getirdi. Bu noktada, sahip olduğumuz en iyi bilgi bu.
Ayrıca bakınız: Google'ın yeni Grafik Foundation Modeli, hassasiyeti 40 kata kadar artırıyor
GFM ölçeklendirilmiş dağıtım için hazır mı?
Resmi Grafik Foundation Model duyurusu, yalnızca akademik ölçütler veya simülasyonlar değil, gerçek dahili sistemlerin ve verilerin kullanıldığını güçlü bir şekilde öneren bir dahili görev, spam tespitinde test edildiğini söylüyor.
Google'ın duyurusu şu:
“Google ölçeğinde çalışmak, JAX ortamımızın ve ölçeklenebilir TPU altyapısının özellikle parladığı milyarlarca düğüm ve kenar grafiklerinin işlenmesi anlamına gelir. Bu tür veri hacimleri, genelci modelleri eğitmek için uygundur, bu nedenle GFM'mizi, reklamlarda spam tespiti gibi birkaç iç sınıflandırma görevini araştırdık, bu da büyük ve bağlı tablolar arasında yer almayı içermeyen, relational tablolar arasında yer almaz. Farklı tablolar ve bu nedenle doğru tahminler için yararlı olabilecek bağlamı özlüyor. ”
Paket
Google'dan Gary Illyes, Google'da bir tür Muvera'nın kullanıldığını doğruladı. GFM ile ilgili cevabı bir görüş olarak ifade edilmiş gibi görünüyordu, bu yüzden Gary'nin üretimde olmadığını düşündüğünü söylediği için biraz daha az açık.
Shutterstock/KrakenImages.com tarafından Öne Çıkan Resim
Bir yanıt yazın