Şaşırtıcı olmayan bir şekilde, son iki sütunum yapay zeka (AI), özellikle dil modellerinin (LMS) veri küratörlüğü üzerindeki etkisini tartıştı. Ağustos 2024 sütunum, “Sözdizimselden semantik veri kürasyonuna geçiş ve veri kalitesi için ne anlama geldiğini” ve Kasım 2024 sütunum, “Veri doğrulaması, veri doğruluğu perdeli veya asistanı?” LMS ve Veri Kalitesi Yönetimi (DQM) arasındaki temas noktalarının bazılarını ele aldı. Bu sütunda, kuruluşunuzun LMS'nin oluşturduğu zorlukları ve fırsatları karşılamasını daha iyi sağlamak için DQM'de değişiklikleri nasıl uygulayabileceğine dair daha eksiksiz bir yol haritası önermek istiyorum.
Yani, sadece başından beri net olmak gerekirse, AI'ya atıfta bulunduğumda, Chatgpt, İkizler, Lama veya kendi ısmarlama modelleriniz gibi ticari olarak mevcut olsun, LMS'den bahsediyorum. LMS'nin gücü, doğal dil sözdizimini ve anlambilimini nasıl anlayabilecekleridir. Burada, doğal dil girdilerini doğrudan işlemek ve şu anda ayrıştırma ve veri yapılandırma ve standardizasyonuna yönelik zaman ve çabayı önlemek için LMS kullanma fırsatı yatmaktadır.
Basit bir deney olarak, Chatgpt'i aşağıdaki uydurulmuş adresle istedim: “John Gregory, 123 Oak Street, Great Falls, Ohio.” Bana kişinin adını ve soyadını söyleyebildi, Ohio eyaleti için sokak numarası, sokak adı, şehir adı ve doğru posta kodu. Genellikle kural tabanlı bir programla adres kayıtlarından ayrıştırmamız ve standartlaştırmamız gereken her şey. Ve herhangi bir ek eğitim veya istemi olmadan, sohbet GPT bana eksik posta posta kodunu sağlayamayacağını söyledi çünkü Great Falls Ohio'da bir şehir değil! Doğru ayrıştırma ve etiketlemenin üstünde güzel, beklenmedik bir doğrulama.
Ne yazık ki, adı, adresi ve diğer demografik semantiği anlama yeteneği, mevcut büyük ölçekli işlemede iki nedenden dolayı büyük ölçüde gerçekleşmemiş bir fırsattır. Birincisi, doğal dil girişlerini sırayla işleyebilen ve tutarlı sonuçlar döndürebilen semantik işleme dilleri geliştirmedik. Olasılıksal doğaları nedeniyle, LM'ler aynı girdi ve aynı istem için farklı ve bazen yanlış sonuçlar verebilir, bu şekilde halüsinasyonlar denir. Şimdi yapabileceğimiz en iyi şey, bu tür girdileri yapılandırılmış bir formata yapılandırmak için LMS'yi bir ön işleme aracı olarak kullanmak, daha sonra öznitelik-değer çiftleri verilmeyi bekleyen eski uygulamalarımıza girebilecek. Bunun nedeni, kuruluşların standartlaştırılmış, etiketli girdi gerektiren eski yazılım uygulamalarına sahip oldukları büyük yatırımdan kaynaklanmaktadır. Ancak bu anlamsal anlayıştan yararlanmak için daha yeni LM özellikli yazılımın yakında geleceğinden şüphe etmiyorum.
Büyük ölçekli operasyonel işleme için LMS'yi kullanmamamızın ikinci nedeni, deterministik, kural tabanlı uygulamalardan çok daha yavaş olmalarıdır. En yaygın çalışma, doğal dil girişlerini vektörlere gömmektir. Bu sayısal vektörler daha hızlı işlemeye izin verirken, dezavantajı, bu süreçte granüler semantik bilgilerin çoğunun kaybolmasıdır. Bu nedenle, bir isim ve adres gibi iki doğal dil girdisinin anlamsal olarak genel anlamda yakın olduğunu söyleyebiliriz, çünkü vektör yerleşimleri vektör alanında birbirine yakındır, adını ve adres bileşenlerini onlarından çıkaramayız ve manipüle edemeyiz Vektör, istemlerle olabildiğince yolla.
Bununla birlikte, LM'ler henüz şirketin bordrosuna sahip olmasa da, diğer birçok uygulamaya muazzam bir değer katıyorlar. Üretken AI (Genai) ile birleştiğinde, soru cevaplama, doğal diller, sohbet botları, kod oluşturma, rapor özetleme ve belge ve e -posta oluşturma arasında çeviri için kullanılırlar. Bu, sağlık, eğlence, finans ve üretim gibi geniş bir sektör yelpazesinde oluyor.
Ana temaya geri dönersek, iyi haber, temel Deming-Shewhart Plan-Do-Check-Act (PDCA) modelinin ve ürün olarak bilgiyi yönetmeye odaklanması, LMS çağında bile DQM'nin sağlam temelleridir. Bence, değişmesi gereken çerçeve değil, veri kalitesi boyutlarının önceliklendirilmesinde ve bu boyutlarda ifade edilen veri kalitesi gereksinimleri. Doğrulama, bütünlük, tutarlılık, çoğaltma ve zamanındalık gibi geleneksel veri kalitesi boyutları hala önemli olmakla birlikte, LM uygulamalarından elde edilen değer, doğruluk, katma değer, uygunluk, tarafsızlık (önyargı eksikliği gibi daha az yaygın olarak ele alınan diğer boyutlara çok bağlıdır. ), itibar, inanç ve güvenlik.
Bu, yol haritamda bir numaraya yol açar ve DQM programınızın sadece doğrulama değil, gerçekten doğruluğu sürdürmesini sağlar. Her zaman geçersiz verileri düzelterek, geçerli veri değerlerini sistematik olarak örnekleyip kontrol ederek, doğrulama testi portföyünüzü sürekli büyüterek ve pratikte doğrulama veritabanları oluşturarak doğruluk ve doğrulama arasındaki boşluğu kapatmak için acımasızca çalışıyor mu? Önceki makaleme bakın “Veri doğrulaması, veri doğruluğu perdeli veya asistanı?” daha fazla ayrıntı için.
İkincisi, veri kalitesi boyutları ve DQM programınızın kapsamı hakkındaki düşüncelerinizi genişletin. İlgili veriler doğrudan eldeki soruna katkıda bulunur ve LM modellerinin en önemli değişkenlere ve ilişkilere odaklanmasına yardımcı olur. Alakasız veriler modelleri karıştırabilir ve verimsizliklere yol açabilir. Ne olduğunu ve değil, değer katmanın ne olduğunu bilmek ve veri ürününün ve veri hizmet sahiplerinin, müşterinin sesi (VOC) ihtiyaçlarını dinlemeyi gerektirir. Müşteri ihtiyaçlarını anlamak, bilgileri ürün olarak yönetmenin en önemli ilkelerinden biridir.
Nesnellik veya önyargı eksikliği genellikle demografik verilerle ilişkilidir, ancak hemen hemen her tür veri kaynağında ortaya çıkabilir. Önyargıyı tespit etmek ve ölçmek için istatistiksel yöntemler vardır. Bu, veri bilimi veya modelleme ekibinde istatistikçilerle etkileşim kurmak için harika bir fırsattır. İtibar ve inanç daha özneldir, ancak veri tüketicilerinin, veri sağlayıcılarının ve veri görevlilerinin periyodik araştırmaları yoluyla ölçülebilir. Amazon'un itibarı ölçmek için satıcı ve ürün derecelendirmeleri var, neden yapamıyorsunuz?
LM'ler, hassas bilgileri, tescilli algoritmaları veya diğer gizli bilgileri yanıtlarında yanlışlıkla ortaya çıkarabildikleri için yeni güvenlik endişelerini dile getirir. DQM, hem giriş (eğitim) hem de çıktı (yanıtlar) filtreleme süreçlerine dahil olmalıdır. Bu, eğitim sırasında verilerin katı yanıt filtreleme ve anonimleştirilmesine yardımcı olmak için BT güvenlik ekibiyle etkileşim kurma fırsatıdır. LM yanıtlarının düzenli denetimleri tıpkı diğer herhangi bir kalite kontrol (QC) süreci gibidir ve herhangi bir açıklama problemi, diğer DQ sorununun olduğu gibi biletlenmeli ve çözülmelidir.
Üç numara, bazıları daha önce bahsedilmiş olan diğer ekiplerle işbirliği yoluyla DQM ayak izini artırmaktır. Bunlar arasında veri toplama, veri bilimi, risk yönetimi ve güvenlik ve veri ürün yöneticileri bulunmaktadır. Bu ekiplerin üyeleri, mevcut kaynakların nasıl değer kattığını, diğer ilgili kaynakların ürün ve hizmetleri nasıl geliştirdiğini ve kuruluş genelindeki ürünlerin, hizmetlerin ve veri kaynaklarının yeniden kullanımını nasıl tanıtabileceğinizi anlamak için en iyi arkadaşlarınız olabilir. Genel olarak, DQM programları, kuruluşun bulabilir, erişilebilir, birlikte çalışabilir ve yeniden kullanılabilir adil ilkeleri takip etmesine yardımcı olmalıdır.
Dördüncü numara, AI'nın DQM'yi nasıl iyileştirebileceği hakkında daha uzun süre düşünmeye başlamaktır. Satıcılar, veri doğrulama kurallarının oluşturulmasını otomatikleştirmek, veri temizleme ve standardizasyonu otomatikleştirmek ve yapılandırılmamış metni yapılandırmak için yerleşik istatistiksel analitik, veri madenciliği teknikleri ve AI ile DQ araçlarını geliştiriyor. LM'ler daha eksiksiz ve doğru verilerle eğitildiğinden, belirli türde veri kalitesi hatalarını tanıyabilir ve düzeltebilirler.
Beş numara, LMS ve üretken yapay zeka hakkında olabildiğince çok şey öğrenmektir. AI'nın veri bilimi ekibine ait olduğunu düşünme hatasını yapmayın. LM'ler kuruluşun veri işlemesine entegre hale geldikçe, geleneksel veri ürünleri ve hizmetleri ile aynı veri kalite güvencesine ve veri kalitesi kontrol gereksinimlerine tabi olmaları gerekir. LMS sürekli gelişiyor olsa da, temel ilkeler ve kelime bilgisi ile sohbet etmeye çalışın. LM eğitimi, ince ayar, geri alma, geri kazanılmış nesil (RAG), hızlı mühendislik, ajanlar, kodlama, kod çözme, gömme, vektörleştirme ve vektör veritabanları gibi kavramların tümü bilgisayar bilimlerinde bir derece olmadan yüksek düzeyde anlaşılabilir.
Dolayısıyla, bu önerilerin sizi kuruluşunuzdaki LM ürün ve hizmetlerini geliştirmek için uyarlamaya başlayabileceğiniz belirli yolları düşünmenizi sağladığını (PUN amaçlanmamış) yönlendirmiştir. Başkalarının sizi LMS'nin veri veya veri kalitesi ile hiçbir ilgisi olmadığına ikna etmesine izin vermeyin. Katılmaktan korkmayın.

Bir yanıt yazın