Google, Desteklenmeyen Robots.txt Kuralları Listesini Genişletebilir

Google, HTTP Arşivi aracılığıyla toplanan gerçek dünyadaki robots.txt verilerinin analizine dayanarak, belgelerindeki desteklenmeyen robots.txt kurallarının listesini genişletebilir.

Gary Illyes ve Martin Splitt, Search Off the Record'un son bölümünde projeyi anlattılar. Çalışma, bir topluluk üyesinin Google'ın robots.txt deposuna, desteklenmeyen listeye iki yeni etiket eklenmesini öneren bir çekme isteği göndermesiyle başladı.

Illyes, ekibin kapsamı neden PR'daki iki etiketin ötesine genişlettiğini açıkladı:

“Her şeyi keyfi bir şekilde yapmaya değil, veri toplamaya çalıştık.”

Ekip yalnızca önerilen iki etiketi eklemek yerine en çok kullanılan, desteklenmeyen ilk 10 veya 15 kurala bakmaya karar verdi. Illyes, hedefin, doğada en yaygın desteklenmeyen etiketleri belgelemek için “iyi bir başlangıç ​​noktası, iyi bir temel” olduğunu söyledi.

Araştırma Nasıl İşledi?

Ekip, web sitelerinin robots.txt dosyalarında hangi kuralları kullandığını incelemek için HTTP Arşivi'ni kullandı. HTTP Arşivi, WebPageTest'i kullanarak milyonlarca URL'de aylık tarama gerçekleştirir ve sonuçları Google BigQuery'de saklar.

İlk deneme duvara çarptı. Ekip, varsayılan tarama sırasında “aslında hiç kimsenin robots.txt dosyalarını istemediğini hızlı bir şekilde fark etti”; bu, HTTP Arşivi veri kümelerinin genellikle robots.txt içeriğini içermediği anlamına geliyor.

Barry Pollard ve HTTP Arşivi topluluğuna danıştıktan sonra ekip, robots.txt kurallarını satır satır ayıklayan özel bir JavaScript ayrıştırıcısı yazdı. Özel metrik, Şubat ayındaki taramadan önce birleştirildi ve elde edilen veriler artık BigQuery'dekicustom_metrics veri kümesinde mevcut.

Veriler Neyi Gösteriyor?

Ayrıştırıcı, alan-iki nokta-değer düzeniyle eşleşen her satırı çıkardı. Illyes ortaya çıkan dağılımı şöyle anlattı:

“İzin verme, izin vermeme ve kullanıcı aracısından sonra düşüş son derece ciddi.”

Bu üç alanın ötesinde, kural kullanımı, daha az yaygın olan yönergelerin yanı sıra düz metin yerine HTML döndüren bozuk dosyalardan gelen gereksiz verilerden oluşan uzun bir kuyruğa girer.

Google şu anda robots.txt dosyasında dört alanı desteklemektedir. Bu alanlar kullanıcı aracısı, izin ver, izin verme ve site haritasıdır. Belgeler, hangi desteklenmeyen alanların doğada en yaygın olduğunu listelemeden diğer alanların “desteklenmediğini” söylüyor.

Google, desteklenmeyen alanların göz ardı edildiğini açıkladı. Mevcut proje, Google'ın belgelemeyi planladığı belirli kuralları tanımlayarak bu çalışmayı genişletiyor.

Desteklenen dört alanın ötesinde en çok kullanılan 10 ila 15 kuralın Google'ın desteklenmeyen kurallar listesine eklenmesi bekleniyor. Illyes, dahil edilecek belirli kuralları belirtmedi.

Yazım Hatası Toleransı Genişleyebilir

Illyes, analizin aynı zamanda izin vermeme kuralının yaygın yazım hatalarını da ortaya çıkardığını söyledi:

“Muhtemelen kabul ettiğimiz yazım hatalarını genişleteceğim.”

İfadesi, ayrıştırıcının bazı yazım hatalarını zaten kabul ettiğini ima ediyor. Illyes bir zaman çizelgesi taahhüt etmedi veya belirli yazım hatalarını isimlendirmedi.

Bu Neden Önemli?

Search Console halihazırda bazı tanınmayan robots.txt etiketlerini ortaya çıkarıyor. Google'ın daha fazla desteklenmeyen yönergeyi belgelemesi, genel belgelerin, insanların Search Console'da halihazırda gördüğü tanınmayan etiketleri daha yakından yansıtmasını sağlayabilir.

İleriye Bakış

Planlanan güncelleme, Google'ın herkese açık dokümantasyonunu ve izin verilmeyen yazım hatalarının nasıl ele alınacağını etkileyecektir. Kullanıcı aracısı, izin verme, izin vermeme ve site haritası dışındaki kurallara sahip bir robots.txt dosyası bulunduran herkes, Google için hiçbir zaman işe yaramayan yönergeleri denetlemelidir.

HTTP Arşivi verileri, dağıtımı doğrudan incelemek isteyen herkes için BigQuery'de herkese açık olarak sorgulanabilir.


Öne Çıkan Resim: Ekran görüntüsü: YouTube.com/GoogleSearchCentral, Nisan 2026.


Yayımlandı

kategorisi

yazarı:

Etiketler:

Yorumlar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir