Herkes verilerinin AI için hazır olup olmadığını sorarken, biraz farklı bir soru sormak istiyorum: Veri Kalitesi Yönetimi (DQM) programınız AI için hazır mı?
Bence, AI özellikli bilgi ürünleri ve hizmetleri oluşturmaya hazır olduğunuz herhangi bir güvenceye sahip olmadan önce aşağıdaki dört soruya evet cevaplayabilmeniz gerekir:
- Bir DQM programınız var mı?
- DQM programınız Kalite Kontrolü (QC) gereksinimlerini ele alıyor mu?
- Veri doğruluğu ölçümünüz sadece veri doğrulamasını ölçmenin ötesine geçiyor mu?
- DQM programınız semantik veri kalitesi boyutlarının kapsamını içeriyor mu?
Bir DQM programınız var mı?
Ben sadece bunu yapacağım. Zaten resmi bir DQM programınız yoksa, yapmak için ciddi bir yakalamanız var. İyi haber şu ki, sıfırdan başlamak zorunda değilsiniz. Başlayabileceğiniz birçok yerleşik çerçeve var. Örneğin, veri yönetimi bilgi organı (DAMA-DMBOK), MIT Toplam Veri Kalitesi Yönetimi (TDQM), Veri Kalitesi (CDDQ), Altı Sigma Veri Kalitesi (SSDQ), Altı Sigma Veri Kalitesi (DCAM), Veri Kalitesi Değerlendirme Çerçevesi (DQ), ISO 8000 Parçası 61 Standart, Kaliteye (BCE) (BCE) (BCEL) Bankacılık denetimi komitesi), sadece birkaç isim.
Bunlar genel çerçevelerdir ve işletmenize uyarlanmalıdır. Başlamak için muhtemelen biraz yardıma ihtiyacınız olacak.
DQM programınız Kalite Kontrolü (QC) gereksinimlerini ele alıyor mu?
Birkaç yıl önce, bu sütun için “Neler yanlış gidebilir?” Adlı bir makale yazdım. Bu makalede, kaç veri kalitesi yönetimi (DQM) programının veri üreticisi tarafına (giriş) odaklanma eğiliminde bulunurken, genellikle tüketici tarafına çok az dikkat çekiyor veya hiç dikkat çekmiyor. Bu nedenle, giriş verilerini çok iyi temizlerseniz ve test edilmiş ve onaylanmış yazılım yoluyla çalıştırırsanız, teoriye abone olmak, çıktıyı kontrol etmeye gerek yoktur. Ne yanlış gidebilir?
Aynı makalede bahsettiğim gibi, hiçbir üretici bu yöntemi kullanarak ürünler oluşturmaz. Gömlek üreten şirketler bile, ceplerden birinde nazikçe bir muayene kayması bırakan biri tarafından son bir inceleme sürecine sahiptir. Nihai ürünün kalite gereksinimlerini karşıladığını kontrol etme süreci olan Kalite Kontrolü (QC), kalite yönetimi sürecinin önemli bir parçasıdır, Shewhart ve Deming'in planının “kontrolü”, DO, CHECK, ACT. Tıpkı QC'nin imalat için gerekli olduğu gibi, Richard Wang ve diğerleri tarafından “Bir Ürün Olarak Bilgilerinizi Yönet” de erkenden detaylandırıldığı gibi veri kalitesi yönetiminin kuruluş ilkelerinden biridir.
Yine de QC, yıllar boyunca gözden geçirdiğim birçok veri kalitesi yönetimi programının eksik bir bileşenidir. Görünüşe göre temiz ve doğru verilerle başlarsak her şey yoluna girecek. Tüm odak, tüm parçaların (kaynakların) toleransları karşıladığından emin olmak için Kalite Güvencesi (KG) üzerindedir. Öğrencilerime hatırlattığımda, QC ve KG'nin değiştirilebilir terimler değil. QC, nihai ürün oluşturulduktan sonra gerçekleşir ve KG, QC'nin başarısını sağlamak için bina işlemi sırasında gerçekleşir. Her ikisi de önemlidir.
Belli görünse de, kuruluşunuzda veri toplamanın ve bilgi sistemlerine sahip olmanın amacı, değer yaratan bilgi ürünleri ve hizmetleri oluşturmaktır. Yine de, bilgi ürünleri ve hizmetleri için bu QC gereksinimlerini içermeyen birçok DQM programı görüyorum. Bu, geleneksel bilgi ürünleri ve hizmetleri için yeterince kötü olsa da, durum ancak kuruluşlar uygun QC olmadan AI özellikli bilgi ürünleri ve hizmetleri oluşturmaya başladığı için daha kötü olacaktır.
Veri doğruluğu ölçümünüz sadece veri doğrulamasını ölçmenin ötesine geçiyor mu?
Herhangi bir DQM programı olan herkes veri doğruluğunu ölçtüğünü iddia ederken, çok azı yapar. Çoğu durumda, veri doğrulamasını doğruluk için bir proxy olarak değiştirirler. Yakın tarihli bir başka makalede, “Veri Doğrulama – Veri Doğruluk Dürüstlüğü mi yoksa Asistanı mı?” Veri doğruluğunu ölçme problemini tartıştım. Kolay olmasa da, özellikle AI uygulamaları için önemlidir ve genellikle marjinal yatırımla yapılabilecek çok daha fazlası vardır.
Doğrulama önemli bir DQ işlemi olmasına rağmen, size yalnızca değerlerin doğru olamayacağını, doğru olduklarını değil, size doğru değil. Bir değer doğrulama başarısız olursa yanlış, ancak doğrulamayı geçerse, doğru veya yanlış olabilir, yani bilmiyorsunuz, yani veri değerlerinin makul derecede yanlış olabileceği asimetriktir. Doğruluk (doğrulama) sürecinde, her veri değeri doğru veya yanlış olarak değerlendirilir ve yalnızca karşılaştırmak için çevrimiçi bir otoriter kaynağınız olduğunda tam olarak otomatikleştirilebilir.
Çevrimiçi yetkili bir doğrulama kaynağına erişimin ideal durumunun kısaltılmasında, basit doğrulama ve gerçek doğruluk arasındaki boşluğu kapatmaya başlamanın hala yolları vardır. İki önemli eylem 1) geçersiz değerleri düzeltmek ve 2) geçerli değerlerin örneklerini manuel olarak kontrol etmektir. İkinci adım sadece verilerin genel doğruluğunu iyileştirmekle kalmaz, aynı zamanda doğrulama sürecini daha da iyileştiren yeni doğrulama kurallarına da yol açabilir. Bu iki eylemden doğru değerleri kaydedebileceğiniz durumlarda, sonunda kendi yetkili kaynağınızı zamanla oluşturmak mümkün olabilir.
DQM programınız semantik veri kalitesi boyutlarını kapsıyor mu?
Son olarak, yeni bir makaleye “Sözdizimselden Anlamsal veri kürasyonuna geçiş” yazıyorum. Bu makalede, AI-etkin ürünlerin bizi DQM programlarımızda ele alınan veri kalitesi boyutlarının kapsamını nasıl genişletmeye zorladığı konusunu gündeme getiriyorum.
Geleneksel işleme için, bütünlük, zamanlılık, geçerlilik, tutarlı temsil ve elbette, daha önce tartıştığımız gibi, genellikle sadece bir geçerlilik kontrolü değil, doğruluk gibi bir avuç temel boyuta odaklanmaktan memnun olduk.
Ancak dikkate alınması gereken birçok veri kalitesi boyutu var ve yakın zamana kadar dikkate almamız gereken fazla motivasyonumuz yoktu. Örnek olarak, “Doğruluk Ötesinde: Tüketiciler için Hangi Veri Kalitesi Anlamı”, yani inanç, doğruluk, nesnellik, itibar, katma değer, alaka düzeyi ve erişim güvenliğinde açıklandığı gibi Wang-güçlü 16 boyutlu çerçeveden yedi boyut alın. Bunların hepsi AI uygulamaları için önemli hususlardır. AI ürününüz inandırıcı mı? Bir çılgın halüsinasyon müşterilerinizle itibarla yok olacak mı? Cevaplarında önyargılı mı yoksa gerçekten objektif mi? Kaynaklar, eğitim verileri veya alım artırılmış üretim (RAG) verileri görevle ilgili mi ve bunları kullanmak ürüne gerçekten değer katıyor mu? Ürün yanıtlarında gizli verileri sızdırmanız mümkün mü?
Şimdiye kadar bu boyutlara çok fazla dikkat etmese de, tüm bu sorunlar için QA ve QC gereksinimlerini geliştirebilir ve DQM programınızda ölçebilir ve izleyebilirsiniz. Bu gereksinimler hakkında o kadar özel bir şey yoktur, veri kalitesi ekibiniz tarafından ele alınamazlar. Artık bu soruları yanıtlarken DQM programınızı tam bir incelemeye hazırlamak için iyi bir zaman olabilir.
Referanslar
Wang Ry ve diğerleri (1998). “Bilgilerinizi ürün olarak yönetin.” MIT Sloan Yönetim İncelemesi.
Wang, Ry ve Strong, DM (1996). Doğruluğun ötesinde: veri kalitesi veri tüketicileri için ne anlama geliyor. Yönetim Bilgi Sistemleri Dergisi, 12 (4), 5-33. https://doi.org/10.1080/07421222.1996.11518099

Bir yanıt yazın