Bilimsel veriler genellikle dağınıktır. Kötü dokümantasyon uygulamaları, veri yönetimi politikalarının eksikliği, makine tarafından okunamayan veri kümeleri ve kullanıcı tarafından oluşturulan değişkenler araştırmada tekrarlanabilirlik, şeffaflık ve verimlilik zorlukları yaratır. Veriler düzgün bir şekilde belgelenmediğinde, temel meta verilerden yoksun veya topluluk standartlarını takip etmediğinde, bilgi alışverişi ve paylaşımı zordur ve yavaş ve güvenilmez ilerlemeye yol açar.
Bu çalışmada, veri adilleşmesi ve anlamsal akıl yürütme için MDS-Onto ontolojisini (Şekil 1) geliştirmek için kullanıcı dostu araçlardan oluşan bir topluluk güdümlü girişim olan Materyal Veri Bilimi Ontolojisi (MDS-Onto) çerçevesini tanıtıyoruz.
'Ontolojiler', kelime ve ilişkileri alanlar arasında paylaşan standartlardır, böylece veri alışverişini ve veri kümelerinin birlikte çalışabilirliğini, veri analizi ve veriler üzerinde eğitilen modelleri kolaylaştıran ve geliştiren standartlardır. Bu tanım da bir soru soruyor – eğer veri genellikle alana özgü ise, birlikte çalışabilir terimler nasıl oluştururuz? Yerleşik ontolojiler oluşturulan Uluslararası Standartlar Organizasyonu (ISO) kullanarak, etiketleme tutarlı iken terimler mevcut standartlara hizalanır ve veri bilimi iş akışlarının aerodinamik ve verimli olmasını sağlar.
MDS-Into, endüstri, akademi ve ulusal laboratuvarlarla işbirlikleri ve ortaklıkları ile bir topluluk çabasıdır. Temel Geliştirme Ekibimiz, Case Western Reserve Üniversitesi Malzeme Bilimi ve Mühendisliği Bölümü'ndeki Sdle Araştırma Merkezi'nde yer almaktadır ve alan uzmanları ağımız kurumların genişliğini temsil etmektedir.
MDS-Into, malzeme ve veri bilimi alanları için düşük seviyeli ve modüler bir ontolojidir. Yaklaşımımız modülerleştirmek MDS, hizalama seviyesine ve kullanıcının ontoloji geliştirme deneyimine bağlı olarak zorlayıcı olabilecek terimler hizalama sürecini basitleştirmek için oluşturuldu. Modüler ontolojiler oluşturmak, terimlerimizi daha önce PMDCO gibi diğer orta seviye ontolojileriyle eşlenmiş MDS-Onto kavramlarıyla eşleştirdiğimiz anlamına gelir. Örneğin, enstrüman modeli değişkenini eşlemek istiyorsa, modeli eşleştirebilirler. MDS-Tool (konsept katmanı), bu bir alt sınıf PMD: ProcessingNode PMDCO'dan.
Alan veya uygulama alanı için Araştırma Veri İttifakı (RDA) önerilerini takiben alt alan düzeyindeki değişkenlerin oluşturulmasını öneririz. Etki alanları mevcut bir MDS-onto-konsept kategorisine uymadığında, ek MDS-into kavramları oluşturulabilir ve MDS-Into'ya dahil edilen alan veya alt alan ontolojileri oluşturulabilir. MDS-Onto çekirdek geliştirme ekipleri daha sonra yeni ontolojiyi mevcut birlikte çalışabilir orta/üst düzey ontolojilere eşler.
.png)
MDS-Onto çerçevemizde MDS-Onto ontolojisine ek olarak 3 ana bileşene sahiptir: Fairmaterials, İki dilli (R/Python) bir yazılım Ontoloji oluşturma, görselleştirme ve belgeler için kullanılan paket, .csv şablon. Kullanıcılar doldurur .csv Etki alanı/alt alan terimleri ile dosya ve bunları doğrudan MDS: (veya orta seviye ontolojilere) ile eşleştirin, Fairmaterias'ı çalıştırın ve ontoloji dosyalarını oluşturur (.ttl– .baykuş), görselleştirme için bir görüntü ve bir .html Ontoloji belgelerinin web sayfası. MDS-Onto çerçevesinin ikinci bileşeni FuarlıMDS-Onto kullanan bir python paketi çevirir .csv adilleştirilmiş veriler .jsonld bağlantılı veriler. Sırasında MDS-Onto Findthedocs, Çerçevemizin üçüncü bileşeni, WebVowl Grafiği Araştırma Aracı ve JSON-LD oyun alanını kullanarak Ontoloji Görselleştirme için bir web sitesidir. .jsonld Doğrulama ve dolu MDS-Onto belgeler. MDS-Onto Findthedocs ayrıca kullanıcıların güncel MDS-onto ontoloji dosyalarını indirebileceği yerdir. MDS-Into FindthEdocs'un bir anlık görüntüsü Şekil 2. Şekil 3 FairLinked'in nasıl kullandığını gösterir MDS-Onto Oluşturmak için ontoloji ve ham veriler .jsonld bağlantılı veriler.

Şimdi, belirli alanlarda birleşik bilgi ve sözcük dağarcığını, terimler ve ilişkiler olarak tanımlayan birkaç alan adımız ve alt alan ontolojilerimiz var. Şekil 1. Terminoloji rehberliği için araç olmanın ötesinde bu ontolojileri nasıl kullanabiliriz? Adil veri oluşturma ve otomatik bilimsel analiz iş akışlarına rehberlik etmek için ontolojileri nasıl entegre edebiliriz?
Cevap Fuarlıönceki bölümde kısaca tanıtılan en son paketimiz.Fuarlı ontoloji gelişimi ve adil ilkeler uygulaması arasındaki boşlukları doldurmak için tasarlanmıştır. FairLinked'in temel yaklaşımı, MDS-Onto'dan birlikte çalışabilir terimler ve ilişkilerle ontoloji dosyalarını almak ve ham verilerle doldurulacak şablonlar oluşturmaktır. Bunlar daha sonra JSON-LD dosyaları oluşturmak için ikinci bir etkileşimde serileştirilir. JSON-LD, bağlantılı veriler için bir W3C önerisi olan standart bir veri biçimidir. Ölçülen boyut yaklaşımında RDF veri küpü kelime dağarcığını kullanarak, kullanıcılar tüm veri çerçeveleri için JSON-LD'yi tek bir örnek olarak oluşturmaya veya satır başına bir JSON-LD dosyası oluşturmaya karar verebilirler. Seçim, çalışma nesnesinin ve alan adının nasıl düzenlendiğine ve o alan adı için en mantıklı olana bağlı olacaktır.

FairLinked, küresel olarak benzersiz bir şekilde tanımlanan ayrıştırılabilir dosya adlarına sahip JSON-LD dosyalarını oluşturur. Ayrıntılı Dosya Adları Sözleşmesi ve Siparişi, topluluk tercihine, standartlara ve bu alan adının alaka düzeyine bağlı olacaktır. Tüm meta veriler, .jsonld Dosyalar, teoride, dosya adında meta veri bilgilerine ihtiyacımız yoktur. Bununla birlikte, benzersiz tanımlayıcı gereksinimini bulabilir prensipte karşılamak için, dosya adı karmalar veya evrensel olarak benzersiz tanımlayıcılar (UUID'ler) kullanmalıdır. Bu tür dosya adları benzeyecektir 24d470987fda1278c63c3j78jb30869b8218c64f.jsonld – Bir insan okuyucu tarafından çok kullanıcı dostu veya kolayca yorumlanamaz.
Fuarın “Bulunabilir” ilkesini karşılamanın alternatif bir yolu, araştırmacının açık araştırmacısı ve katkıda bulunan kimlik (ORCID) ile başlayarak ayrıştırılabilir dosya adlarımızı tanımlayarak benimsemeyi seçtiğimiz daha insan dostu ayrıştırılabilir dosya adları tasarlamaktır. Fotovoltaik modüller için, örneğin, çalışma nesnesinin modül kimliği olduğu durumlarda, kabul edilen dosya adı sözleşmesi orcid-sampleId-Timestamp.json.
Tüm veriler ve meta verilerimiz var .jsonld Bir etki alanı boyunca tutarlı olan bağlantılı veri dosyaları, komut dosyaları yazmak ve yeniden kullanılabilecek, çıkarmak, analiz etmek ve modellemek için iş akışları oluşturmak daha kolay, daha hızlı ve daha verimli hale gelir.
Bir yanıt yazın