CNCF, yeni Kubernetes programıyla yapay zeka altyapısını standartlaştırıyor

kapanış bildirimi

Bu makale İngilizce olarak da mevcuttur. Teknik yardımla tercüme edildi ve yayınlanmadan önce editoryal olarak gözden geçirildi.

Pek çok şirket için asıl soru artık yapay zekayı kullanıp kullanmadıkları değil, bunun yerine onu sorumlu ve sürdürülebilir bir şekilde nasıl entegre edecekleri. Şu ana kadar parçalanmış ve standartlaştırılmamış izole çözümler ve çoğunlukla pahalı, özel yapay zeka yığınları, kullanıma sunulmasını hâlâ yavaşlatıyor. Özellikle veri egemenliğine, uyumluluğa ve uzun vadeli finansal istikrara güvenen kuruluşlar için koordinasyonsuz yapay zeka altyapısı, hem hibrit bulutta hem de şirket içi ortamlarda önemli bir risk oluşturur.

Duyurudan sonra devamını okuyun

KubeCon + CloudNativeCon Kuzey Amerika 2025'te resmi olarak yayınlanan “Kubernetes AI Uyumluluğu” programının 1.0 sürümüyle Cloud Native Computing Foundation (CNCF) artık parçalanmış AI ortamına düzen getirmek istiyor. Program sertifikasyonun ötesine geçiyor: Yapay zeka altyapıları için ortak bir teknik standart oluşturmayı amaçlayan, küresel olarak desteklenen bir açık kaynak girişimi olarak tasarlandı. CNCF'de aktif olarak Teknik Danışma Grubu (TAG) Operasyonel Dayanıklılık ve Kubernetes için Özel İlgi Grubu (SIG) Katılımcı Deneyimi eş başkanı olarak görev yapan Mario Fahlandt, “Özellikle Avrupalı ​​şirketler için yapay zekanın güvenli ve ölçeklenebilir kullanımına yönelik bir çerçeve sağlıyor” diye açıklıyor. “Girişim, iş yükünün taşınabilirliğini, teknik tutarlılığı ve dijital egemenliği sağlayan açık ve geleceğe yönelik bir yol haritası ortaya koyuyor.”

Yapay zeka pazarı çok sayıda sertifikayla karakterize edilse de karar vericilerin teknik ve organizasyonel standartlar arasında net bir ayrım yapması gerekiyor. Bazı satıcılar ISO 42001 gibi yönetim ve yönetişim çerçevelerine odaklanır. Bu uluslararası standart, yapay zeka yönetim sistemi (AIMS) oluşturmaya yönelik gereksinimleri belirtir. Şirketleri riskleri, etik sorunları, veri korumayı ve mevzuat gerekliliklerini yönetme konusunda destekler. Ayrıca dahili süreçlerin yapay zekanın sorumlu bir şekilde geliştirilmesini ve konuşlandırılmasını sağlayıp sağlamadığını da değerlendirir.

Yeni CNCF programı “Kubernetes AI Uyumluluğu”, yönetişim standartlarından önemli ölçüde farklıdır. Öncelikle teknik bir uygulama standardı olarak hizmet eder ve bir Kubernetes kümesinin AI ve ML iş yüklerini güvenilir ve verimli bir şekilde çalıştırmak için hangi özelliklere, API'lere ve yapılandırmalara ihtiyaç duyduğunu belirtir. CNCF uyumluluğu bu nedenle teknik taşınabilirliği sağlamayı amaçlar ve bu aynı zamanda bireysel üreticilere bağımlılığın azaltılmasına da yardımcı olur. Gelecekte şirketlerin yapay zeka uygulamalarını herhangi bir uyumlu platformda çalıştırabilmelerini sağlar: genel bulutta, kendi veri merkezlerinde veya uç konumlarda. Bu taşınabilirlik, dijital ve dolayısıyla veriye dayalı egemenliğin temelini oluşturur.

Standardın geliştirilmesi, Özel İlgi Grupları Mimarisi ve Testi tarafından desteklenen Kubernetes projesi kapsamında yeni oluşturulan bir çalışma grubu tarafından yürütülüyor. Grup, 2025 baharındaki KubeCon Avrupa'dan başlayarak, başlangıçta yapay zeka iş yüklerinin özel gereksinimlerini dikkate alan merkezi teknik sütunları tanımladı. Fahlandt, “Buna dayanarak, her platformun Kubernetes AI ile uyumlu kabul edilmesi için karşılaması gereken bağlayıcı bir gereksinimler kataloğu oluşturuldu” diye açıklıyor.

Duyurudan sonra devamını okuyun

Yapay zeka eğitim işleri kapsamlı donanım kaynakları gerektirir ve genellikle pahalı ve çoğunlukla yetersiz GPU'lar gerektirir. Standart olmayan ortamlarda bu durum iki temel sorunla sonuçlanır:

  • Kaynak Parçalanması: Değerli GPU belleği kullanılmaz hale gelir.
  • Topoloji körlüğü: Planlama, çoklu GPU iş yükleri için optimize edilmemiştir.

Her iki durum da aşırı tedariğe ve artan maliyetlere katkıda bulunur.

Bu nedenle CNCF uyumlu bir platformun dinamik kaynak tahsisi (DRA) için Kubernetes API'sini desteklemesi gerekir. Kubernetes 1.34 sürümünden itibaren DRA'nın kararlı olduğu kabul edilmektedir ve karmaşık donanım kaynaklarını esnek bir şekilde talep etmenize ve paylaşmanıza olanak tanır. Depolamaya yönelik PersistentVolumeClaim modeline benzer şekilde kullanıcılar, tanımlanmış cihaz sınıflarından kaynakları özel olarak talep edebilir. Kubernetes, tüm iş yüklerinin zamanlamasını ve yerleştirilmesini otomatik olarak yönetir.

Yapay zeka çıkarım iş yükleri (yapay zeka modellerini çalıştıran), tipik durum bilgisi olmayan web uygulamalarından çok farklıdır. Genellikle daha uzun süre dayanırlar, çok fazla kaynak kullanırlar ve durumları kurtarırlar. Standart yük dengeleyiciler yük dağıtımına uygun değildir. Bu nedenle CNCF uyumluluk programı, Kubernetes Gateway API'si ve onun model tabanlı yönlendirme uzantıları için destek gerektirir.

Resmi bir Kubernetes projesi olan Gateway API Inference Extension, standart ağ geçitlerini özel çıkarım ağ geçitlerine genişletiyor. Bu, yapay zeka iş yükleri için yönlendirmeyi ve yük dengelemeyi özel olarak optimize etmenize olanak tanır. Desteklenen özellikler arasında, OpenAI protokol başlıklarıyla ilgili olan ağırlıklı trafik bölme ve başlık tabanlı yönlendirme yer alır.

Dağıtılmış yapay zeka eğitim işleri, aynı anda başlatılması gereken birden fazla bileşenden oluşur. Zamanlayıcı bölmeleri ayrı ayrı zamanlarsa kilitlenmeler meydana gelebilir: bazı bölmeler kaynakları bulamadığı, ancak diğerleri zaten kaynakları engellediği için iş durur. Bir Kubernetes platformu, Kueue veya Volcano gibi en az bir ya hep ya hiç planlama çözümünü desteklemelidir. Dağıtılmış yapay zeka iş yükleri yalnızca ilgili tüm bölmeler aynı anda yerleştirilebildiğinde başlar.

Bir küme otomatik ölçekleyicisi etkin olduğunda, düğüm gruplarının ölçeğini gerektiği gibi belirli hızlandırıcı türleriyle otomatik olarak artırmalı veya küçültmelidir. Benzer şekilde, HorizontalPodAutoscaler'ın hızlandırıcı bölmelerini uygun şekilde ölçeklendirmesi ve aynı zamanda AI ve ML iş yükleriyle ilgili özel ölçümleri de hesaba katması gerekir.

Modern yapay zeka iş yükleri ve özel donanımlar izlemede yeni boşluklar yaratıyor. Hızlandırıcı ölçümlerini yakalamak için hala birleşik bir standart yok; bu da birçok ekibin altyapı sorunlarını hızlı bir şekilde analiz etmek için doğru araçlara sahip olmadığı anlamına geliyor.

İleriye dönük olarak, her CNCF uyumlu platformun, standartlaştırılmış bir uç nokta aracılığıyla bellek kullanımı veya kullanımı gibi desteklenen tüm hızlandırıcı türleri için performans ölçümlerini kullanılabilir hale getiren bir uygulamayı yükleyebilmesi gerekecektir. Ek olarak, iş yükleri bunları standart biçimde (örneğin, Prometheus teşhir biçimi) sağladığında metrikleri otomatik olarak toplayan ve işleyen bir izleme sistemine ihtiyacınız vardır.

GPU'lar gibi hızlandırıcılar paylaşılan kaynaklardır. Çekirdek ve API düzeyinde sıkı bir izolasyon olmadığında, konteyner iş yükleri birbirlerinin verilerine veya süreçlerine erişebilir ve bu da çok kiracılı ortamlarda güvenlik riskleri oluşturabilir. Bu nedenle CNCF uyumlu bir platformun, hızlandırıcılara erişimi açıkça ayırması ve bunları Dinamik Kaynak Tahsisi (DRA) veya cihaz eklentileri gibi çerçeveler aracılığıyla kontrol etmesi gerekir. İş yüklerini izole etmenin ve yetkisiz erişimi veya müdahaleyi önlemenin tek yolu budur.

Ray veya Kubeflow gibi yapay zeka çerçeveleri, Kubernetes üzerinde operatör olarak çalışan dağıtılmış sistemlerdir. Bir platformun, dengesiz web kancalarının, özel kaynak tanımı (CRD) yönetiminin veya güvenilmez bir API sunucu yapısının operatörlerin başarısız olmasına ve tüm AI platformunun çökmesine neden olmasını önlemek için istikrarlı bir temele ihtiyacı vardır.

CNCF uyumlu bir ortamın en az bir karmaşık yapay zeka operatörünü (Ray veya Kubeflow gibi) kurup çalıştırabilmesi gerekir. Operatör bölmelerinin, web kancalarının ve özel kaynak mutabakatının istikrarlı ve eksiksiz bir şekilde çalıştığını göstermelidir.

CNCF Kubernetes Yapay Zeka Uyumluluğu programı, WG Yapay Zeka Uyumluluğu çalışma grubu tarafından tanımlanan temelleri temel alarak yapay zeka altyapıları için istikrarlı, açık ve geleceğe yönelik bir standart oluşturur. Açık yukarı akışlı API tabanlı platformlar, Avrupalı ​​şirketlere özellikle yapay zeka stratejilerini genel buluttan şirket içi güvenli veri merkezine kadar taşınabilir ve güvenli bir şekilde dağıtma fırsatı sunuyor. Fahlandt, “Birçok sağlayıcı platformu Kubernetes 1.33 ve 1.34 sürümleri için zaten “Kubernetes AI Uyumlu” durumda” diyor. Buna Gardener, Giant Swarm, Kubermatic ve SUSE gibi Avrupalı ​​sağlayıcıların platformları da dahildir.

Topluluk sürecinde başka gereksinimler sürekli olarak geliştirilmekte ve tartışılmaktadır. CNCF, ilgili tüm tarafları açık standarda aktif olarak katılmaya davet ediyor. Program hakkında daha fazla bilgiyi CNCF blogundaki resmi duyuruda bulabilirsiniz.


(harita)


Yayımlandı

kategorisi

yazarı:

Etiketler:

Yorumlar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir