Yapılandırılmamış veri alımına sistematik bir yaklaşım – veritabanimimari.com

Enterprise AI için gitme zamanı. 1.000 BT ve işletme yöneticilerinden oluşan bir Pagerduty küresel anketi, Ajan AI kullanan şirketlerin% 62'sinin ortalama% 171'lik bir getiri beklediğini buldu. Ancak YG'ye ulaşmak kolay bir iş değildir. Son anketler, “stratejileri doğru almak” ve “veri 'AI'ye hazır hale getirme'” ile şimdiye kadarki çabalar konusunda karışık sonuçlar göstermektedir.

AI için yüksek yatırım getirisi sağlamak için verilerin hazırlanması, özellikle tüm verilerin en az% 80'ini oluşturan ve işletmeler arasında belgeler, PDF'ler, görüntüler, videolar, e -postalar, sohbetler, makine verileri ve daha fazlası şeklinde yayılmayan yapılandırılmamış verilerle akutdur. Çoğu sınıflandırma veya iyileştirme olmadan yıllardır birikiyor. Bu veri toptan satışını AI sistemlerine beslemek yalnızca daha yüksek işleme maliyetlerini, boşa harcanan kaynakları ve daha düşük doğruluğu garanti eder.

Çözüm, yapılandırılmamış veri alımına sistematik bir yaklaşım oluşturmakta yatmaktadır. Onsuz, AI önemsiz tüketmeye ve güvenilmez sonuçlar üretmeye devam edecek – YG iş yöneticilerinin beklediğini sağlayamayacak.

Kötü veri alımının gizli maliyeti

AI, bilgiyi her işlediğinde hesaplama ve depolama gücünü tüketir. Yutulan verilerin çoğunluğu ilgisiz, çoğaltılmış veya modası geçmişse, sistem işleme kapasitesinin aynı oranını boşa harcar. Bu verimsizlik, sistemin bulutta veya bir veri merkezinde çalışması durumunda doğrudan daha yüksek maliyetlere dönüşür.

Daha da kötüsü, kötü veriler doğruluğu azaltır. Düşük kaliteli veriler sadece gürültü eklemekle kalmaz, aynı zamanda AI sistemlerinde güveni aşındırabilecek yanlış çıkışlara da yol açar. Sonuç çift ceza: boşa harcanan para ve kötü performans. Bu nedenle işletmeler, özellikle yapılandırılmamış veriler için veri alımını kendi başına bir disiplin olarak ele almalıdır.

Birçok akım yutma yöntemi künt aletlerdir. Bir veri kaynağına bağlanırlar ve her şeyi çekerler veya tüm verilere eşit davranan kopya ve senkronize boru hatlarına güvenirler. Bu yöntemler uygun olabilir, ancak yararlı bilgileri alakasız karmaşadan ayıracak zeka yoktur. Bu tür yaklaşımlar, bakımı pahalı ve ince ayar yapılması imkansız olan şişkin AI boru hatları yaratır.

Yapılandırılmamış verilerin yutulmasına yönelik sistematik yaklaşım

AI'dan gerçek yatırım getirisi kilidini açmak için, işletmeler yapılandırılmamış verileri hazırlamak ve yutmak için kasıtlı ve yapılandırılmış bir yöntemi benimsemelidir. Bu, yüksek kaliteli yapılandırılmamış veriler vermek için alakasız, modası geçmiş, yinelenen ve yetkili olmayan verileri ayıklayan beş temel adım içerir:

1. Sınıflandırma: Yapılandırılmamış verilerin neler olduğunu ve nerede bulunduğunu anlayın. Bu, sadece silolar içinde değil, tüm veri arazisi boyunca meta verileri tarayan araçları gerektirir. Sınıflandırma, yinelenen verileri, hassas verileri veya arşivlenebilen veya silinebilen nadiren erişilen verileri tanımlamak için görünürlük ve segmentasyon getirir. Milyonlarca milyarlarca dosya ve petabayt veriye sahip olduğunuzda verileri otomatik olarak sınıflandırmanın ve meta veri dizinlerini oluşturma yollarını arayın.

2. Kürasyon: Veriler sınıflandırıldıktan sonra, bir sonraki adım onu ​​küratörlüğüne sokmaktır. Tüm veriler eşit değildir. Bazı bilgiler modası geçmiş, alakasız veya çelişkili olabilir. Verilerin küratörlüğü, yutulmadan önce kalite ve alaka düzeyi için kasıtlı olarak filtreleme anlamına gelir. Bu, yalnızca kullanışlı içeriğin AI sistemlerine beslenmesini, hesaplama döngülerini kaydetmesini ve doğruluğu geliştirmesini sağlar. Bu aynı zamanda Rag ve LLM çözümlerinin, ilgili veriler için belirteçler üzerindeki bağlam pencerelerini kullanabilmesini ve alakasız önemsizlerle dağılmamasını sağlar.

3. Etiketleme ve meta veri zenginleştirmesi: Veriler meta verilerle zenginleştirildiğinde sınıflandırma ve kürasyon çok daha güçlü hale gelir. Otomasyon ve içerik tarama araçlarını kullanarak etiketler aracılığıyla bağlam eklemek, yapılandırılmamış verileri aranabilir ve doğrulanabilir hale getirir. Özel meta veriler, ham dosyaları sistematik olarak sağ AI iş akışlarına yönlendirilebilen kullanılabilir varlıklara dönüştürür.

4. Kullanım durumuna göre segmentasyon: Jenerik alım boru hatları genellikle tüm verileri merkezi bir kovaya yerleştirir. Daha iyi bir yaklaşım, verileri belirli AI kullanım durumlarına göre segmentlere ayırmaktır. Örneğin, bir müşteri desteği chatbot, politikalar, sorun giderme kılavuzları ve SSS ile ilgili küratörlü verileri almalıdır, İK asistanı istihdam yönergelerine ve dahili iletişimlere odaklanmalıdır. Varlıkları kullanacak şekilde uyarlama sadece doğruluğu artırmakla kalmaz, aynı zamanda her iş akışını izlemeyi ve hassaslaştırmayı kolaylaştırır.

5. Sürekli izleme ve iyileştirme: Veriler asla statik değildir. Her gün yeni belgeler, iletişim ve multimedya dosyaları oluşturulur. Sistematik bir yaklaşım, yutulan verilerin güncel ve alakalı kalmasını sağlamak için sürekli izleme gerektirir. Sürekli iyileştirme, modası geçmiş veya alakasız bilgilerin AI sistemlerine geri dönmesini önlemeye yardımcı olur.

BT ve veri ekiplerinin yeni rolü

Bu sistematik yaklaşım BT ve veri ekiplerinin rolünü değiştirir. Geleneksel olarak, depolama ekipleri altyapıya odaklandı: çalışma süresi, kapasite ve performans. Yapay zeka ile sorumlulukları artık veri yönetimine uzanıyor. Yapılandırılmamış dosyaları sınıflandırmak, hassas bilgileri tanımlamak ve departmanlara küratörlü veri hizmetleri sağlamak için departmanlar ve veri mühendisliği ve departman analizleri ve araştırma ekipleri ile çalışmalıdırlar.

Sistematik alım artımlı bir değişim değildir. Bu, işletmenin değerinin yeniden tanımlanmasıdır. Yapay zeka için yapılandırılmamış verileri iyileştirerek, BT ekipleri doğrudan yatırım getirisini, doğruluğu ve güveni iyileştirir.

Sistematik alımın bir diğer önemli yönü, en başından itibaren veri farkında olan AI iş akışları tasarlamaktır. İşletmeler jenerik AI sistemlerini varsayım yapmak yerine, farklı kullanım durumları için özel ajanlar oluşturmalıdır. Her ajan, amacıyla uyumlu özenle küratörlü verilerle eşleştirilmelidir.

Bu ayrıntılı tasarım, her iş akışının etkinliğini ölçmeyi, veri girişlerini geliştirmeyi ve YG'yi göstermeyi kolaylaştırır. Her ajanın açıkça tanımlanmış bir rolü ve veri kümesi olduğunda, işletmeler neyin işe yaradığını, neyin ve nedenini belirleyebilir.

Yapılandırılmamış veri kaosundan veri disiplinine kadar

Yapılmamış veri almaya devam eden işletmeler, kendilerini maliyetle boğulurken bulacak ve yanlış sonuçlarla hayal kırıklığına uğrayacaklardır. AI, eğitilmiş ve önemsiz olarak beslenirse değer veremez. Kaostan disipline geçiş, sınıflandırma, küratörlük, etiketleme, segmentasyon ve sürekli izlemeye öncelik veren yapılandırılmamış veri alımına sistematik bir yaklaşım gerektirir.

Geri kazanç açıktır: daha düşük maliyetler, daha yüksek doğruluk ve vaatlerini yerine getiren AI sistemleri. Sıçrama yapan kurumsal BT kuruluşları, AI önemsiz beslemeyi bırakacak ve gerçek veri değerinin kilidini açmaya başlayacaktır.


Yayımlandı

kategorisi

yazarı:

Etiketler:

Yorumlar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir