Veri Gölleri, Depolar ve Lakehouses'u Keşfetmek – veritabanimimari.com

Sürekli gelişen veri yönetimi dünyasında, “Veri Gölü”, “Veri Ambarı” ve “Veri Lakehouse” terimleri sıklıkla tartışılmaktadır. Bu çözümlerin her biri benzersiz faydalar sunar ve bir kuruluş içinde farklı amaçlara hizmet eder. Bu makale bu terimleri tanımlamayı, farklılıklarını vurgulamayı, geçmişlerini araştırmayı ve okuyucuların hangi çözümün ihtiyaçları için en uygun olabileceğini anlamalarına yardımcı olacak örnekler sağlamayı amaçlamaktadır.

Ayrıca, bu veri yönetimi çözümlerinin son eğilimler ve pratik uygulamalarla birlikte bilgi grafikleriyle çalışmaya nasıl uygulanabileceğini araştıracağız.

Veri Gölü

Veri Gölü, tüm yapılandırılmış ve yapılandırılmamış verilerinizi herhangi bir ölçekte depolamanıza olanak tanıyan merkezi bir depodur. Verilerinizi ilk olarak yapılandırmadan ve gösterge tablolarından ve görselleştirmelerden büyük veri işleme, gerçek zamanlı analitik ve makine öğrenmesine kadar farklı analitik türleri çalıştırmak zorunda kalmadan verilerinizi saklayabilirsiniz. Bir veri gölü kavramı, kuruluşlar büyük miktarlarda yapılandırılmamış verilerin ele alınmasında geleneksel veri ambarı sınırlamalarıyla mücadele etmeye başladıkça 2010'ların başında ortaya çıktı. “Veri Gölü” terimi James Dixon, daha sonra “şişelenmiş bir su (veri mart) veya temizlenmiş bir su rezervuarı (veri ambarı) yerine“ doğal bir durumda büyük bir su kütlesi ”olarak nitelendiren Pentaho CTO tarafından popüler hale getirildi. Hadoop gibi büyük veri teknolojilerinin yükselişi, veri göllerinin benimsenmesini daha da ileriye taşıdı ve çok miktarda ham veri depolamak için ölçeklenebilir ve uygun maliyetli bir çözüm sağladı.

Özellikler
  • Depolamak: Ham, işlenmemiş veriler yerel formatında.
  • Şema: Okunan şema, yani veriler okunduğunda şema uygulanır.
  • Esneklik: Oldukça esnek, çok çeşitli veri türlerini ve biçimlerini destekler.
  • Maliyet: Daha ucuz depolama çözümleri kullandığı için genellikle depolama için daha düşük maliyet.
Zorluklar
  • Veri gölleri, veri veya tedarik meta verilerini anlamak için sorguya bağlıdır. Okumada bir şema yaklaşımı kullandıkları için, querier “gizli” şemayı anlamalıdır.
  • Uygun meta veri veya anlayış olmadan, veri gölleri anlamlı verilerin alınmasının zorlaştığı “veri kanalizasyonları” olabilir. Veri modellemesi her zaman yapılmalıdır – daha önce, sırasında veya sorgulamadan sonra. Veri gölleri için, bu modelleme sorgu zamanında yapılır, bu da veri almayı karmaşıklaştırabilir.
Şekil 1: Çeşitli Veri Gölü Kullanım Örnekleri (Kaynak: Amazon)

Veri Ambarı

Veri ambarı, çoklu kaynaklardan büyük miktarlarda yapılandırılmış veri depolamak için merkezi bir depodur. İşlem işleme yerine sorgu ve analiz için tasarlanmıştır. Veriler, raporlama ve veri analizi gibi iş zekası faaliyetlerini desteklemek için temizlenir, dönüştürülür ve kataloglanır. Bill Inmon ve Ralph Kimball gibi öncülerin gelişimine önemli katkıda bulunduğu bir veri ambarı kavramı 1980'lerin sonlarına ve 1990'ların başlarına dayanmaktadır. InMon genellikle “veri ambarı babası” olarak adlandırılır ve bunu “konu odaklı, entegre, zamansal, değişken ve karar verme süreçlerini desteklemek için kalıcı olmayan veri toplama” olarak tanımlanır (Kurumsal Finans Enstitüsü). İş zekasının yükselişi ve raporlama ve analiz için konsolide, yüksek kaliteli verilere duyulan ihtiyaç, veri ambarlarının benimsenmesini sağladı.

Özellikler
  • Depolamak: Yapılandırılmış ve işlenmiş veriler.
  • Şema: Şema, yani şema veriler yazılmadan önce tanımlanır.
  • Performans: Okuma-ağır işlemler ve karmaşık sorgular için optimize edilmiş.
  • Maliyet: Daha güçlü bilgi işlem kaynakları ve depolama ihtiyacı nedeniyle genellikle daha yüksek maliyet.
Zorluklar
  • Geliştirme Süresi: Veritabanının tasarlanması ve dönüşüm oluşturmak/test etmek zaman alıcı olabilir.
  • Teknolojiye özgü uygulamalar: Geleneksel veri ambarları çoğunlukla, genellikle belirli raporlama ihtiyaçları için oluşturulan 3. normal form (3NF) çekirdeğinden ve veri martlarından oluşan ilişkisel veritabanlarıyla geliştirilmiştir.
  • OLTP Performans Etkisi: Doğrudan OLTP sistemlerine karşı sorgulamanın işlem sistemleri için performans sonuçları vardı.
Şekil 2: Veri Ambarı Mimarisi (Kaynak: Wiley)

Veri Lakehouse

Veri Lakehouse, veri göllerinin ve veri ambalajlarının yeteneklerini birleştiren ortaya çıkan bir veri yönetimi mimarisidir. Veri depolarının veri yönetimi ve yönetişim özelliklerini ve veri göllerinin düşük maliyetli depolanması ve esnekliği sağlamayı amaçlamaktadır. Bir veri gölü kavramı, kuruluşlar hem veri göllerinin hem de veri ambarlarının sınırlamalarını ele almaya çalışırken 2010'ların sonunda ortaya çıktı. Veri gölleri, esnek ve uygun maliyetli olsa da, genellikle güvenilir analizler için gerekli veri yönetimi ve yönetişim özelliklerinden yoksundu. Veri depoları ise yapılandırılmış veriler için optimize edildi, ancak modern verilerin hacmi ve çeşitliliği ile mücadele etti. “Veri Lakehouse” terimi, hem veri göllerinin hem de veri ambarlarının en iyi özelliklerini birleştiren mimarileri tanıtan Databricks gibi şirketler tarafından popüler hale getirildi (Databricks belgeleri).

Özellikler
  • Depolamak: Hem yapılandırılmış hem de yapılandırılmamış verileri saklayabilir.
  • Şema: Hem okunan şema hem de yazılı şema destekler.
  • Esneklik ve Performans: Bir veri ambarının performansı ve yönetim özellikleri ile bir veri gölünün esnekliğini sunar.
  • Maliyet: Her iki dünyanın en iyisini birleştirerek uygun maliyetli bir çözüm sağlamayı amaçlamaktadır.
Zorluklar
  • Karmaşıklık: Lakehouses, sorgu performansını korurken yapılandırılmamış verilerin eşzamanlı olarak depolanmasını dengelemelidir.
  • Entegrasyon: Aynı verilerin her iki formatta (yapılandırılmış ve ham) olup olmadığı ve sorgunun formatta sorgulanıp sorgulanamayacağına dair sorular ortaya çıkar.
  • Gelişen Teknoloji: Daha yeni bir mimari olarak, kuruluşlar evlat edinme ve uygulamada zorluklarla karşılaşabilir.
Şekil 3: Unity kataloğu ve delta tablolarını kullanan Lakehouse Mimarisi (Kaynak: Amazon)

Farklılıklar

Bu veri yönetimi çözümleri arasındaki birincil farklılıklar veri yapılarında, şema yaklaşımında, kullanım durumlarında ve maliyetlerinde bulunmaktadır.

  • Veri Gölleri:Ham verileri yerel biçiminde saklayın ve okunan bir şema yaklaşımı kullanın, bu da onları büyük veri analizi, makine öğrenimi ve veri araştırmaları için ideal hale getirin. Genellikle depolama için daha uygun maliyetlidirler.
  • Veri Doluşları:İşlenmiş ve yapılandırılmış verileri, daha yüksek bir maliyetle de olsa iş zekası, raporlama ve yapılandırılmış veri analizi için optimize ederek, yazılı bir şema yaklaşımı kullanarak saklayın.
  • Veri Lakehouses:Analytics ve sorgulama için gelişmiş performansla birlikte, geleneksel veri göllerinden daha iyi veri yönetimi ve yönetişim özellikleri sağlayarak bu iki çözüm arasındaki boşluğu kapatın. Hem yapılandırılmış hem de yapılandırılmamış verileri destekler ve veri ambarlarının performans avantajları ile uygun maliyetli bir çözüm sunarlar.
Özellik karşılaştırması
Özellik Veri Gölü Veri Ambarı Veri Lakehouse
Veri yapısı Çiğ, işlenmemiş Yapılandırılmış, işlenmiş Hem yapılandırılmış hem de yapılandırılmamış
Şema Okunan şema Yazılı şema Hem okunan şema hem de yazılı şema
Kullanım Koşulları Büyük Veri Analizi, ML, Veri Keşfi İş zekası, raporlama, yapılandırılmış veri analizi Hem veri göllerinin hem de veri ambarlarının kullanım durumlarını birleştirir
Maliyet Genellikle daha düşük Genellikle daha yüksek Uygun maliyetli, her ikisinin de faydalarını birleştirir
Esneklik Son derece esnek Daha az esnek Esnek
Performans Değişken, işleme araçlarına bağlıdır Karmaşık sorgular için optimize edilmiş Yüksek performans
Veri Yönetimi Sınırlı yönetişim Güçlü Yönetişim Güçlü Yönetişim
Bilgi grafikleri ile uygulamalar

Bilgi grafikleri, gerçek dünya varlıklarından oluşan bir ağ-nesneler, olaylar, durumlar veya kavramlar-temsil eder ve aralarındaki ilişkiyi gösterir. Bilgi grafiklerini veri gölleri, depolar ve göl tabanları ile entegre etmek, veri yönetimini ve analiz yeteneklerini önemli ölçüde artırabilir.

  • Veri Gölleri ve Bilgi Grafikleri:Veri gölleri, bilgi grafiklerini oluşturmak ve zenginleştirmek için kullanılabilecek çok miktarda ham, yapılandırılmamış veri depolayabilir. Veri göllerinin esnekliğinden yararlanarak, kuruluşlar daha derin bilgiler sağlayan ve gelişmiş analizi destekleyen kapsamlı bilgi grafikleri oluşturmak için metin, görüntüler ve sensör verileri de dahil olmak üzere çeşitli veri kaynaklarını yutabilir.
  • Veri ambarları ve bilgi grafikleri:Yapılandırılmış verileri ve optimize edilmiş sorgu performansı ile veri ambarları, bilgi grafiklerinin omurgasını oluşturan yapılandırılmış verileri depolamak ve yönetmek için kullanılabilir. Bu yapılandırılmış veriler, ilişkileri çıkarmak ve iş zekasını ve karar verme süreçlerini destekleyen bilgi grafikleri oluşturmak için sorgulanabilir ve analiz edilebilir.
  • Veri göl ve bilgi grafikleri:Veri gölleri, yapılandırılmamış verileri ve yapılandırılmış verileri yönetmek için performansı depolama esnekliği sağlayarak her iki dünyanın en iyisini sunar. Bu onları bilgi grafiklerini entegre etmek için ideal bir platform haline getirir. Kuruluşlar, verimli sorgu performansı ve veri yönetimi sağlarken bilgi grafikleri oluşturmak için gereken çeşitli verileri depolamak ve işlemek için veri göl tabaklarını kullanabilir.

Çözüm

Veri gölleri, veri ambarları ve veri göl tabakları arasındaki farkları anlamak, etkili bir veri yönetimi stratejisi uygulamak isteyen kuruluşlar için çok önemlidir. Her çözeltinin benzersiz güçlü yönleri vardır ve farklı kullanım durumları için uygundur. Kuruluşunuzun özel ihtiyaçlarını ve veri gereksinimlerini değerlendirerek, iş hedeflerinizle en iyi uyumlu çözümü seçebilirsiniz.


Yazar biyografisi

Kyle CostelloMiter Corporation'da bilgi sistemleri mühendisidir. Savunma Bakanlığı'na, özellikle hava kuvvetleriyle ilgili projelerde yardımcı olma konusunda bilgiye sahiptir. Worcester Politeknik Enstitüsü'nden (WPI) veri bilimi lisans derecesi var ve Georgia Tech'teki Analytics'te yüksek lisans yapıyor.

'Yazarın Miter Corporation ile ilişkisi yalnızca kimlik amaçlı olarak sağlanır ve Yazar tarafından ifade edilen pozisyonlar, görüşler veya bakış açıları ile eşzamanlı olarak veya desteklemeyi veya desteklemeyi ima etmeyi amaçlamamaktadır.'


Yayımlandı

kategorisi

yazarı:

Etiketler:

Yorumlar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir