Opava'daki bölgesel arşiv, kroniklerin dijitalleştirilmesinde yapay zekayı kullanan ilk arşivdir


Opava'daki Bölgesel Arşivlerin BT departmanı başkanı Pavel Doležal, insanların eski metinleri görüntülerken karşılaştığı en yaygın engelleri şöyle anlattı: “Arşiv kayıtlarının dijitalleştirilmesine rağmen, içerikleri sıradan araştırmacılar için bir şekilde belirsizdi. Genellikle el yazısı veya Almanca yazılıyor ve meslekten olmayan kişilerin metni okuyabilecek veya çevirebilecek birine ihtiyacı vardı.”

Mesela Almanca bilmeyenlerin hiç şansı yoktu. Şimdi birdenbire sanki gözlük takmışlar ve kitap okuyorlarmış gibi oluyor.

Pavel DolezalBT çalışanı

Doležal, “Ve özellikle kronikler söz konusu olduğunda, araştırmacılar genellikle köylerinin tarihiyle ilgilenen sıradan insanlardır” diye ekledi. Arşivciler kronikler için yapay zekanın yardımını kullanmaya başladı. Diğer şeylerin yanı sıra belirleyici faktör, yapay zekanın okumakta zorluk çekmediği, sade, yapılandırılmamış metinler olarak yazılmış olmalarıydı.

El yazması arşivlerinin OCR transkripsiyonunun ilkesi, yapay zekanın, taranan sayfalardan tarihi, diğer “akıllı” araçlar kullanılarak daha fazla çalışılabilecek makine tarafından okunabilir metne dönüştürmesidir.

Doležal, “Metni arayabilirsiniz. Metnin makine çevirisini yapın. Kroniğin transkriptinin diğer yapay zeka araçları tarafından işlenmesini sağlayabilir ve şunu sorabilirsiniz: Sel kayıtları var mı? Ne zaman? Bunları benim için listeleyin. Bana yerinden edilme hikayelerini gösterin, yerinden edilenlerin bir listesini oluşturun vb.” Doležal diğer olasılıklara da işaret etti.

Opava'daki bölgesel arşiv

  • öyle üçüncü büyük devlet arşivi cumhuriyette.
  • Tüm bölgeyi kapsıyor eski Kuzey Moravya bölgesi – Krnov, Frýdek-Místek, Karviná, Nové Jičín, Opava, Olomouc, Prostejov, Přerov, Jeseník ve Šumperk'teki arşivleri içerir.
  • Dijital araştırma laboratuarında kullanıma sunuldu 20,5 milyon görsel arşivler.
  • Dijital araştırma ofisi geçen yılın raporunu veriyor 688.426 tıklama. 154.842 farklı araştırmacı vardı.

Ayrıntıları tekrar kontrol etmek daha iyidir; örneğin çeviriler küçük farklılıklar veya yanlışlıklar içerebilir. BT uzmanı, “Ama bu harika bir araç ve yardım, bilgiye çok daha hızlı ulaşıyorsunuz. Akıntıyla başa çıkabiliyorlar, dil engeli kalkıyor. Örneğin Almanca bilmeyen insanların hiç şansı yoktu. Şimdi birdenbire sanki gözlük takmışlar ve okuyorlarmış gibi” diye tanımladı BT uzmanı.

Yapay zeka kroniklerdeki metinlerle tek başına çalışmıyor; her zaman arşivcinin kontrolü altında olan destekli bir transkripsiyondur. Bu sayede sistem öğrenmeye ve gelişmeye devam eder. Doležal, “Hata oranında en büyük ilerlemeyi o kaydetti. Sistemi 2024'ün ortasında tanıttığımızda, ikinci veya üçüncü sınıfta harika bir lise öğrencisiydi. Öğrenerek birinci sınıf bir doktora öğrencisi oldu” diye değerlendirdi Doležal.

Arşivin dijital araştırma odasında zaten bu şekilde işlenmiş bin üç yüz kronik var. Her gün daha fazlası ekleniyor. Doležal, “Yardımlı transkripsiyonun verimliliği azalıyor. Başlangıçta arşivci bir tarih üzerinde bir hafta çalışarak geçirdi, şimdi onu bir saatte işleyebiliyor. Hata oranı düşük ve sistem ona transkripsiyondan emin olmadığı yerleri söylüyor” diye açıkladı Doležal.

Arşivci ve meslektaşı Irena Moravcová, Çekçe basılmış kronikleri yeniden yazmanın da mantıklı olduğunu ekledi. “Onlarla çalışmaya devam edebilir, içlerinde arama yapabilirsiniz. Ayrıca Çek dili yurt dışından gelen insanlar için büyük bir dil engelidir. Arşivler, örneğin Sudetenland'dan yerinden edilmiş ailelerin büyük ilgisini çekiyor ve ayrıca Avustralya'da nispeten büyük bir hayran kitlesine sahibiz.”

Ayrıca, OCR transkripsiyonunun öncelikli olarak dışarıdan araştırmacılara yönelik olmasına rağmen bazen arşivcilerin kendileri tarafından da kullanıldığını açıkladı. “Yazı küçük veya soluk olduğu için bir şeyi okuyamıyorsam, onu yapay zekaya sunacağım. Tam olarak yazıya dökmesi gerekmese bile, en azından bana yol gösterebilir.”

Opava'daki bölgesel arşiv ve şubeleri, ülkede yapay zekayı bu şekilde kullanan ilk arşivdir. OCR araştırmacıları transkripti Opava'daki Zemsky arşivinin dijital araştırma odasında OCR simgesi altında yayınlanan arşivlerin bir parçası olarak bulabilirler.

Gelecekte arşivciler yapay zekaya sınıf raporları, nüfus sayımı kayıtları, kayıtlar veya çeşitli dosya dolapları gibi yapılandırılmış metinleri de işlemeyi öğretmek istiyor. Doležal, “Burada yalnızca düz metin değil, aynı zamanda yapısı da (ad, soyadı, doğum yılı vb.) bir rol oynuyor. Bu, yapay zeka için hâlâ zorlu bir durum” diye tamamladı Doležal.


Yayımlandı

kategorisi

yazarı:

Etiketler:

Yorumlar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir