Google, Muvera adlı yeni bir çok vektör alım algoritması duyurdu ve bu da geri alma ve sıralamayı hızlandırdı ve doğruluğu artırdı. Algoritma arama, tavsiye sistemleri (YouTube gibi) ve doğal dil işleme (NLP) için kullanılabilir.
Duyuru, araştırmada kullanıldığını açıkça söylememiş olsa da, araştırma makalesi, Muvera'nın web ölçeğinde, özellikle mevcut altyapı (MIP'ler aracılığıyla) ile uyumlu hale getirerek ve gecikme ve bellek ayak izini azaltarak Web ölçeğinde etkili çok vektör alımını sağladığını açıkça ortaya koymaktadır.
Aramaya vektör gömme
Vektör gömme, kelimeler, konular ve ifadeler arasındaki ilişkilerin çok boyutlu bir temsilidir. Makinelerin aynı bağlamda görünen kelimeler veya aynı şeyler anlamına gelen ifadeler gibi kalıplar aracılığıyla benzerliği anlamasını sağlar. İlgili kelimeler ve ifadeler, birbirine daha yakın olan alanları işgal eder.
- “Kral Lear” kelimeleri “Shakespeare Trajedisi” ifadesine yakın olacak.
- “Bir Yaz Gecesi Rüyası” kelimeleri “Shakespeare komedisine” yakın bir alan işgal edecek.
- Hem “King Lear” hem de “Bir Yaz Gecesi Rüyası” Shakespeare'e yakın bir alanda yer alacak.
Kelimeler, ifadeler ve kavramlar arasındaki mesafeler (teknik olarak matematiksel bir benzerlik ölçüsü) her birinin diğerine ne kadar yakından ilişkili olduğunu tanımlar. Bu desenler, bir makinenin aralarında benzerlikler çıkarmasını sağlar.
Muvera, çoklu vektörel gömleklerin doğal problemini çözer
Muvera araştırma makalesi, nöral girişlerin on yıldır bilgi alımının bir özelliği olduğunu belirtir ve 2020'den itibaren Colbert çok vektör model araştırma makalesini bir atılım olarak belirtiyor, ancak bu, idealden daha az hale getiren bir darboğazdan muzdarip olduğunu söylüyor.
“Son zamanlarda, dönüm noktası Colbert kağıdı ile başlayarak, veri noktası başına bir dizi gömme üreten çok vektör modelleri, IR görevleri için belirgin şekilde üstün performans elde etti. Ne yazık ki, bu modelleri IR için kullanmak, çok vektör alımının ve puanlamanın artan karmaşıklığı nedeniyle hesaplama açısından pahalıdır.”
Google'ın Muvera duyurusu bu dezavantajları yansıtıyor:
“… Son ilerlemeler, özellikle Colbert gibi çok vektör modellerinin tanıtılması, IR görevlerinde önemli ölçüde gelişmiş performans göstermiştir. Bu çok vantiyeli yaklaşım doğruluğu artırır ve daha alakalı belgelerin alınmasını sağlarken, özellikle önemli hesaplamalı zorluklar getirir. Özellikle, artan sayıda gömme ve çoklu benzerlik puanlamasının karmaşıklığını daha pahalıya sokar.
Google'ın RankEmbed teknolojisinin halefi olabilir mi?
Amerika Birleşik Devletleri Adalet Bakanlığı (DOJ) antitröst davası, arama motoru sonuçları sayfalarını (SERP) oluşturmak için kullanılan sinyallerden birinin RankEmbed olarak adlandırıldığını ortaya koyan tanıklık ile sonuçlandı:
“RankEmbed, hem sorguyu hem de belgeyi gömme alanına yerleştiren çift bir kodlayıcı modelidir. Gömme alanı, diğer sinyallere ek olarak sorgu ve belgenin semantik özelliklerini dikkate alır. Geri alma ve sıralama, bir nokta ürünüdür (gömme alanındaki mesafe ölçüsü) (son derece hızlı; son derece hızlı; ortak sorgularda yüksek kalite, ancak kuyruk sorgusu için kötü performans gösterebilir…”
Muvera, kendileri çift modeli modellerin (RankEmbed gibi) ötesinde bir adım olan, kuyruk sorgusu performansının daha fazla anlamsal derinliğini ve işlenmesinin bir adımdır.
Atılım, gömme alanını bölümlere ayıran ve tek, sabit uzunlukta bir vektör oluşturmak için her bölüme düşen vektörleri birleştiren ve birden fazla vektör karşılaştırmasından daha hızlı arama yapan Sabit Boyutlu Kodlama (FDE) adı verilen bir tekniktir. Bu, çok vektörlü modellerin ölçekte verimli bir şekilde kullanılmasını sağlar, daha zengin anlamsal temsilden gelen doğruluktan ödün vermeden geri alma hızını iyileştirir.
Duyuruya göre:
“Tek vektörel gömleklerden farklı olarak, çok vektörlü modeller her veri noktasını bir dizi gömme ile temsil eder ve veri noktaları arasında daha zengin ilişkileri yakalayabilen daha karmaşık benzerlik fonksiyonlarından yararlanır.
Bu çok vektör yaklaşımı doğruluğu artırır ve daha alakalı belgelerin alınmasını sağlarken, önemli hesaplama zorlukları ortaya çıkarır. Özellikle, artan gömme sayısı ve çok vektör benzerlik puanlamasının karmaşıklığı, geri almayı önemli ölçüde daha pahalı hale getirir.
'Muvera: Sabit Boyutsal Kodlamalar yoluyla çok vektör alımında', tek ve çok vektör alımları arasındaki verimlilik boşluğunu kapatmak için tasarlanmış yeni bir çok vektör geri alma algoritması sunuyoruz.
… Bu yeni yaklaşım, daha sonra tam çok vektör benzerliği ile yeniden sıralanabilen, böylece doğruluktan ödün vermeden verimli çok vektör alımını sağlayabilen bir dizi aday setini almak için yüksek optimize edilmiş MIPS algoritmalarından yararlanmamızı sağlar. ”
Çok vektörlü modeller, çift kodlayıcı modellerden daha doğru cevaplar sağlayabilir, ancak bu doğruluk yoğun hesaplama talepleri pahasına gelir. Muvera, çok vektör modellerinin karmaşıklık sorunlarını çözer, böylece yüksek bilgi işlem talepleri olmadan çok vektör yaklaşımlarının daha fazla doğruluğunu elde etmenin bir yolunu oluşturur.
Bu SEO için ne anlama geliyor?
Muvera, modern arama sıralamasının, SEO araçlarının ve SEO'ların genellikle odaklandığı eski moda anahtar kelime sinyallerinden ziyade benzerlik kararlarına nasıl bağlı olduğunu göstermektedir. SEO'lar ve yayıncılar, dikkatlerini kesin ifade eşleştirmesinden sorgunun genel bağlamı ve amacıyla hizalamaya kaydırmak isteyebilirler. Örneğin, birisi “kadife ceketler erkek ortamı” aradığında, Muvera benzeri alımı kullanan bir sistemin, sadece “kadife ceketler” den bahseden ve sorguyu eşleştirmek için “ortam” kelimesini ekleyen sayfaları değil, bu ürünleri sunan sayfaları sıralama olasılığı daha yüksektir.
Google'ın duyurusunu okuyun:
Muvera: Çok Vektör Getirmeni Tek Vektör Arama kadar hızlı yapmak
Shutterstock/Bluestork tarafından Öne Çıkan Resim
Bir yanıt yazın