Cloudflare kesintisi çevrimiçi ortamda büyük kesintilere neden oluyor

Tanıdık bir hikaye haline geliyor: En büyük internet altyapısı sağlayıcılarından biri olan Cloudflare'deki teknik bir sorun, 18 Kasım'da bir dizi web sitesini ve hizmeti birkaç saatliğine çevrimdışı duruma getirerek müşteri erişimini ve satıcılara yapılan ödemeleri kesintiye uğrattı.

X (eski adıyla Twitter), ChatGPT, Claude, Perplexity, Spotify ve ödeme devi Square, serpintiye karışanlar arasındaydı.

Sorunlar, Cloudflare'in aralıklı hizmet ağı kesintilerine neden olan bir “dahili hizmet bozulması” yaşadığını bildirdiği 11:48 GMT'den hemen önce başladı. Kullanıcılar hata sayfaları, takılan oturum açma bilgileri, bozuk API'ler ve bağlantıların engellendiğini iddia eden siteler gördü. Şirketin bir noktada hizmetlerin iyileşmeye başladığını bildirdiği, ancak yaklaşık 15 dakika sonra “bu konuyu daha ayrıntılı araştırmaya” geri döndüğü için, kurtarma süreciyle ilgili bazı çelişkili sinyaller vardı.

13:04 GMT'de Cloudflare, çözümlerden birinin Londra'da WARP erişimini tamamen devre dışı bırakmayı, kullanıcıları geçici olarak WARP performansını artıran ve internet bağlantılarını güvenli hale getirmeye ve hızlandırmaya yardımcı olan VPN hizmetinden ayırmayı içerdiğini itiraf etti:

“Kurtarma çalışmalarımız sırasında Londra'da WARP erişimini devre dışı bıraktık. Londra'da WARP aracılığıyla internete erişmeye çalışan kullanıcılar başarısız bir bağlantıyla karşılaşacak.”

Cloudflare beş dakika sonra bir düzeltme duyurdu ancak neredeyse 17:00 GMT'ye kadar “aralıklı hata raporları” almaya devam etti.

Erken bir başarısızlık, çevrimiçi ödemelerdeki zayıflıkları ortaya çıkarır

Bozuk sayfalar ve hata mesajları hemen dikkate alınsa da, bu tür kesintilerin asıl sıkıntısı genellikle ödeme akışlarının kesintiye uğramasından kaynaklanmaktadır. Başarısız işlemler, tekrarlanan ödeme girişimleri ve belirsiz onaylar, satıcıların daha sonra çözmesi gereken sorunların birikmesine neden olur.

Eğer Monica Eaton, Chargebacks911 ve Fi911'in Kurucusu ve CEO'suşunları söyledi: “Büyük web siteleri bocaladığında kullanıcılar bunu fark eder. Ödeme işlemcileri bocaladığında, dalgalanma etkileri daha karmaşık hale gelir ve çok daha az görünür olur.”

Müşteriler ödemelerini tamamlayamadığında veya daha kötüsü sistem aksayarak mükerrer ödemelere neden olduğunda, ilk kesintiden sonra da kaos devam ediyor.

“Bunun gibi bir kesinti sırasında gerçekte olanlar karmaşıktır. Müşteriler satın alma işlemlerini yeniden dener, kartlar iki kez vurulur, onay sayfaları sıkışır ve aniden anlaşmazlığa dönüşen bir kafa karışıklığı dalgasıyla karşılaşırsınız. Ortalık yatıştığında, satıcılar ilk etapta asla göndermeyi düşünmedikleri masrafları ödemek zorunda kalır.”

Ve bu kesintinin Kara Cuma öncesindeki alışveriş günlerinde zamanlaması daha da fazla baş ağrısına neden oldu. Charlie Jackson, Gumpo Dijital Pazarlama İcra Direktörüşunu belirtti:

“Bu sadece tipik bir sunucu kesintisi değil, dijital pazarlama dünyasını mümkün olan en kötü zamanda vuran milyonlarca sterlinlik bir algoritma bozulmasıdır. Büyük e-ticaret markalarının iflas etmesi ve müşterilerimizin yaklaşık %80'inin Cloudflare'e bağımlı olması nedeniyle, pahalı PPC ve ücretli sosyal kampanyalarda hemen duraklatma düğmesine basmaktan başka seçeneğimiz yoktu.

Jackson, Google ve Meta gibi reklam platformlarının makine öğrenimini kullanması nedeniyle bunun yalnızca o günün satışlarını etkilemeyeceğini, aynı zamanda perakendecilerin Kara Cuma dönemindeki performansı üzerinde de zincirleme bir etki yaratacağını söyledi. “Yüksek performanslı kampanyaları duraklattığınızda, aslında algoritmaların bütçeleri ve hedef kitleleri etkili bir şekilde optimize etmek için ihtiyaç duyduğu sürekli veri akışını kesintiye uğratıyorsunuz.”

Saatler süren kesinti, kampanyaların kesintiye uğraması ve yılın en büyük alışveriş etkinliği sırasında ivme kaybı nedeniyle perakendecilere milyonlara mal olabilir.

Jackson, “Kara Cuma öncesindeki en kritik 10 günlük ölçeklendirme dönemindeyiz ve bu kesinti, CDN kesintilerinin yaratabileceği etkiyi ve genel faydalar sağlarken siteleri savunmasız bıraktığını ve bu sorunları çözme konusunda Cloudflare'in insafına bıraktığını bir kez daha gösterdi” dedi.

Tekrarlanan bulut kesintileri sistemik zayıflıkları açığa çıkarıyor

Cloudflare'in geçen ay AWS ve Microsoft Azure'da kendi kesinti dalgalarına neden olan büyük kesintilerinin ardından gelen tökezlemeleri, az sayıda küresel altyapı devine bağımlı olduğu konusunda uyarıları daha da artırdı. Eaton'ın belirttiği gibi:

“Cloudflare'ın bugün kararması, her satıcıyı gerçeğe geri döndürmelidir. Daha büyük çevrimiçi işletmeler kurmaya devam ediyoruz, ancak bu büyümenin büyük bir kısmı, her şeyi bir arada tutan birkaç görünmez hizmete bağlı. Bunlardan biri bir an için bile olsa çökerse, İnternet, kabloları gevşek olan bir ev gibi geliyor. Işıklar her yerde titriyor. Ödemeler dahil.”

Mike Hoy, Pulsant'ın CTO'suiş yükünün bu kadar az sağlayıcının elinde yoğunlaştırılmasının sistemik riskler oluşturduğu konusunda uyardı. Onun kaygısı iki yönlü: teknolojik güvenlik açığı ve şirketler arasında pratik kurtarma planlamasının olmaması. “Cesaret verici bir şekilde, birçok kuruluş halihazırda tek bir genel bulut sağlayıcısına bağımlılıktan uzaklaşıyor. Pulsant'ın son araştırmaları, Barclays'e göre işletmelerin %87'sinin iş yüklerinin bir kısmını veya tamamını önümüzdeki iki yıl içinde ülkesine geri göndermeyi planladığını gösteriyor; bu oran 2021'de %43'tü.”

Ancak düzenleyici kısıtlamalar, veri aktarım maliyetleri ve platform bağımlılığının tümü geçişi yavaşlattığından bu geçiş kolay değil. Hoy, bu kesintilerin mevcut modelin güvenlik açıklarını ve neden daha rekabetçi ve dağıtılmış bir bulut ekosistemine ihtiyaç duyulduğunu ortaya çıkardığını söyledi.

“Gerçek esneklik, ortak yerleşimi, özel altyapıyı ve genel bulutu kapsayan iş yüklerini gerektirir. Ortak yerleşim siteleri, birincil tesisler arızalandığında kritik destek sağlar. Bölgesel çeşitliliği, güçlü fiziksel güvenliği ve özel sistemler ile bulut platformları arasında köprü kurmak için gereken bağlantıyı sağlarlar.”

Ancak bu yalnızca kurtarma stratejileri tutarlı ve koordineli kaldığında işe yarar. Hoy, aksi takdirde en yavaş yedekleme sisteminin darboğaz haline geleceğini ekledi. İşletmeler önümüzdeki yıl ve sonrasını planlarken, dijital mimarilerine iyileşmeyi dahil etmeleri gerekiyor.

Eaton, şirketlerin altyapı arızalarını başlarını belaya sokan nadir sürprizler olarak görmemeleri gerektiğini vurguladı. Bunun yerine bunları yapı ve hazırlık gerektiren operasyonel gerçeklikler olarak görmelidirler.

“Bu tür aksaklıkları tek seferlik garip olaylar yerine normal iş operasyonlarının bir parçası olarak ele alın.

Pratik adımlar, küçük hataların büyük finansal temizliğe dönüşmesini önleyebilir: “Başarısız olan ve yinelenen işlemleri takip edin. Neyin yanlış gittiğini tahmin etmeye başlamadan önce müşterilerle konuşun. Bugün olanların bir kaydını hızla oluşturun, böylece ters ibrazlar geldiğinde haftalar içinde parçaları bir araya getirmek zorunda kalmazsınız.”

Özellikle finansal hizmetler sektörü tekrarlanan aksaklıklardan muzdariptir. Son AWS kesintisinin birçok büyük İngiliz bankasını aksatmasının ardından Mali Davranış Otoritesi, İngiltere'nin yabancı teknoloji sağlayıcıları üzerindeki denetimini 'güçlendirmesi' gerektiği konusunda uyardı.

“FCA'nın son uyarısı, Birleşik Krallık finans sisteminin artık bağımlı olduğu temel dijital hizmetleri sağlamak için az sayıda yabancı şirkete ne kadar bağımlı olduğunun altını çiziyor.” Skillcast'in CEO'su Vivek Doddsöz konusu.

“Bu tür kesintiler yalnızca teknik arızaları değil, aynı zamanda hiper bağlantılı bir ekonomide operasyonel esneklik ve iş sürekliliğiyle ilgili daha geniş zorlukları da ortaya çıkarıyor.”

Dodd, birçok finansal kurumun dijital dönüşümde ilerleme kaydettiğini ancak acil durum stratejilerinin çoğunlukla hala dış ortakların güvenilirliğine dayandığını belirtti. Ancak “en gelişmiş küresel teknoloji şirketleri bile kesintilere veya siber saldırılara karşı bağışık değildir ve bunun müşteriler ve pazarlar açısından önemli sonuçları olabilir.”

Dodd, iş sürekliliği ve kurtarma planlarının kritik bağımlılıkları haritalandırması ve tek başarısızlık noktalarını belirlemesi gerektiğini söyledi. Çoklu bulut veya hibrit barındırma stratejileri ve proaktif iletişimler gibi katmanlı acil durum önlemlerini içermelidirler.

Dodd, “Sonuçta dayanıklılık yalnızca sistemleri korumakla ilgili değil; giderek dijitalleşen bir dünyada müşteri güvenini sürdürmek ve kurumsal itibarı korumakla da ilgili” dedi.

Temel endişe, tek bir sağlayıcının kötü gününden daha büyük. AWS, Azure ve şimdi de Cloudflare arasında kesintiler daha sık hale geliyor ve sonuçları giderek daha fazla kritik hizmeti etkiliyor.

Eaton, amacın sağlam durmak ve şirketlerin fiilen etkileyebileceği süreç kısımlarını geliştirmek olduğunu söyledi.

“Bunların hiçbiri panikle ilgili değil. Bu, kontrol edebileceğiniz risklere sahip olmakla ilgili. Cloudflare bugün bir kesinti yaşadı. Yarın başka bir sağlayıcıda kesinti olacak. Bu, şirketlerin bu anlardan ders alıp almadığı veya şansın boşlukları kapatacağını ummaya devam edip etmediğiyle ilgili.”

Şirketlerin, İnternet'in omurgasının çoğu müşterinin düşündüğünden daha az sayıda sütuna dayandığı ve bu sütunların daha sık sallandığı gerçeğinin farkına varması gerekiyor.


Yayımlandı

kategorisi

yazarı:

Etiketler:

Yorumlar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir