Google'dan Gary Illyes, Googlebot'un tarama sistemlerinin nasıl çalıştığını açıklayan bir blog yazısı yayınladı. Gönderi bayt sınırlarını, kısmi getirme davranışını ve Google'ın tarama altyapısının nasıl organize edildiğini kapsar.
Gönderi, Illyes ve Martin Splitt'in aynı konuları tartıştığı Search Off the Record podcast'inin 105. bölümüne atıfta bulunuyor. Illyes, tarama mimarisi ve bayt düzeyindeki davranış hakkında daha fazla ayrıntı ekler.
Ne var ne yok
Googlebot, Paylaşılan Bir Platformun Müşterilerinden Biridir
Illyes, Googlebot'u “merkezi bir tarama platformuna benzeyen bir şeyin yalnızca kullanıcısı” olarak tanımlıyor.
Google Alışveriş, AdSense ve diğer ürünlerin tümü, tarama isteklerini aynı sistem üzerinden farklı tarayıcı adları altında gönderir. Her istemci, kullanıcı aracısı dizesi, robots.txt belirteçleri ve bayt sınırları dahil olmak üzere kendi yapılandırmasını belirler.
Googlebot sunucu günlüklerinde göründüğünde, bu Google Arama'dır. Diğer istemciler, Google'ın tarayıcı dokümantasyon sitesinde listelediği kendi tarayıcı adlarıyla görünür.
2 MB Limiti Uygulamada Nasıl Çalışır?
Googlebot, PDF'ler hariç herhangi bir URL için 2 MB'a kadar veri getirir. PDF'ler 64 MB sınırına sahiptir. Bir sınır belirlemeyen tarayıcıların varsayılan boyutu 15 MB'tır.
Illyes, bayt düzeyinde neler olduğuna ilişkin birkaç ayrıntı ekler.
HTTP istek başlıklarının 2 MB sınırına dahil olduğunu söylüyor. Bir sayfa 2 MB'ı aştığında Googlebot onu reddetmez. Tarayıcı kesme noktasında durur ve kesilen içeriği Google'ın indeksleme sistemlerine ve Web İşleme Hizmeti'ne (WRS) gönderir.
Bu sistemler, kısaltılmış dosyayı tamamlanmış gibi ele alır. 2 MB'ı aşan hiçbir şey asla getirilmez, oluşturulmaz veya dizine eklenmez.
HTML'de referans verilen CSS ve JavaScript dosyaları gibi her harici kaynak, kendi ayrı bayt sayacıyla getirilir. Bu dosyalar ana sayfanın 2 MB'lık boyutuna dahil edilmez. Medya dosyaları, yazı tipleri ve Google'ın “birkaç egzotik dosya” olarak adlandırdığı dosyalar WRS tarafından getirilmez.
Getirmeden Sonra Oluşturma
WRS, bir sayfanın içeriğini ve yapısını anlamak için JavaScript'i işler ve istemci tarafı kodunu çalıştırır. JavaScript, CSS ve XHR isteklerini alır ancak resim veya video istemez.
Illyes ayrıca WRS'nin durum bilgisi olmadan çalıştığını ve istekler arasında yerel depolama ve oturum verilerini temizlediğini belirtiyor. Google'ın JavaScript sorun giderme belgeleri, JavaScript'e bağımlı sitelere ilişkin sonuçları kapsar.
Limitin Altında Kalmak İçin En İyi Uygulamalar
Google, ağır CSS ve JavaScript'in kendi bayt sınırlarına sahip olması nedeniyle harici dosyalara taşınmasını önerir. Meta etiketleri, başlık etiketleri, bağlantı öğeleri, kanonikler ve yapılandırılmış veriler HTML'de daha üstte görünmelidir. Büyük sayfalarda, belgenin alt kısmına yerleştirilen içeriğin sınırın altına düşme riski vardır.
Illyes, satır içi base64 görsellerini, büyük satır içi CSS veya JavaScript bloklarını ve büyük boyutlu menüleri, sayfaları 2 MB'ı aşan durumlara örnek olarak işaretler.
2 MB sınırı “kesin olarak belirlenmemiştir ve web geliştikçe ve HTML sayfalarının boyutları büyüdükçe zamanla değişebilir.”
Bu Neden Önemli?
2 MB sınırı ve 64 MB PDF sınırı ilk olarak Şubat ayında Googlebot'a özel rakamlar olarak belgelendi. HTTP Arşivi verileri çoğu sayfanın eşiğin oldukça altında kaldığını gösterdi. Bu blog yazısı bu sayıların arkasındaki teknik bağlamı ekliyor.
Platform açıklaması, farklı Google tarayıcılarının sunucu günlüklerinde neden farklı davrandığını ve 15 MB varsayılanının Googlebot'un 2 MB sınırından neden farklı olduğunu açıklar. Bunlar farklı istemciler için ayrı ayarlardır.
Sınıra yakın sayfalar için HTTP başlık ayrıntıları önemlidir. Google, başlıkların HTML verilerinin yanı sıra 2 MB sınırının bir kısmını tükettiğini belirtiyor. Çoğu site etkilenmez ancak büyük başlıkları ve şişirilmiş işaretlemesi olan sayfalar sınıra daha erken ulaşabilir.
İleriye Bakış
Google artık iki aylık bir süre içinde dokümantasyon güncellemelerinde, bir podcast bölümünde ve özel bir blog yayınında Googlebot'un tarama sınırlarını kapattı. Illyes'in limitin zamanla değişebileceğine dair notu, bu rakamların kalıcı olmadığını gösteriyor.
Standart HTML sayfalarına sahip siteler için 2 MB sınırı endişe verici değildir. Yoğun satır içi içeriğe, yerleşik verilere veya büyük boyutlu gezinmeye sahip sayfalar, kritik içeriklerinin yanıtın ilk 2 MB'ında olduğunu doğrulamalıdır.
Öne Çıkan Görsel: Sergei Elagin/Shutterstock

Bir yanıt yazın