Publication: Dijital arşiv örüntülerinin hesaplamalı arşiv bilimi ile incelenmesi
Abstract
Arşiv bilimi; büyük veri ve yapay zekâ odaklı oldukça geniş çaplı bir dönüşümün içinde yer almaya başlamıştır. Bu doğrultuda hesaplamalı arşiv bilimi adı verilen yeni bir paradigma ortaya çıkmıştır. Bu alan, bilgisayar bilimi ile arşiv biliminin kolektif bilgisini birleştirerek dijital arşiv materyallerinin analizi, uzun süreli korunması ve erişimi için hesaplamalı yöntemler sunmaktadır. Bu tezde, hesaplamalı arşiv biliminin temel yaklaşımları benimsenerek; yapılandırılmış (TSV) ve yapılandırılmamış (uydu tarafından çekilen yer görüntüleri) dijital arşiv veri setleri üzerinde yapay zekâ tabanlı analizler gerçekleştirilmiş, hesaplamalı süreçlere ait provenans verisi oluşturulmuş ve tüm çıktılar, Archivematica aracılığıyla uzun süreli dijital korumaya alınmıştır. Çalışmanın ilk aşamasında, 1990-2009 yılları arasına ait 3,6 milyon örnek ve 11 öznitelikten oluşan ABD iç hat uçuş verileri analiz edilmiştir. Bu veri setinin seçilmesinin nedeni ise dijital arşiv verisi niteliğinde ve açık veri olmasıdır. Kapsamlı önişleme adımları (eksik değerlerin KNNImputer ile doldurulması, log dönüşümü, IQR yaklaşımı ile aykırı değerlerin giderilmesi, kırpma ve standardizasyon) sonrasında regresyon ve sınıflandırma görevleri gerçekleştirilmiştir. Yolcu sayısına ilişkin en başarılı regresyon modeli, çoklu doğrusal regresyonda %91,97 R² ve yapay sinir ağı ile de %99,90 R² elde etmiştir. Sınıflandırma analizlerinde mesafe kategorilerine göre %99,90 doğrulukla yığınlama modeli, uçuş başına yolcu sayısı sınıflandırmasında ise yapay sinir ağı modeli %99,59 doğrulukla en başarılı sonuçları vermiştir. Derin öğrenme analizleri kapsamında ise, 30 sınıflı AID yer görüntüleri veri seti, temel bir evrişimli sinir ağı (CNN) modeli oluşturularak işlenmiş; çeşitli giriş boyutları, optimizasyon algoritması türleri ve öğrenme oranları bazlı karşılaştırmalar yapılmıştır. Temel CNN modelinde en iyi sonuç, Adamax optimizasyon algoritması ile 250×250 giriş boyutu ve %91,40 doğrulukla elde edilmiştir. Veri artırımı ve hiperparametre optimizasyonu da model başarısına oldukça katkı sağlamıştır. Transfer öğrenmesi kapsamında ise EfficientNet mimarisinin (B0-B3, V2B0-V2B3) 8 farklı varyantı kullanılmış, öncelikle ağırlıksız olarak temel modeller eğitilmiş, ardından RandomSearch Tuner tekniği ile en iyi hiperparametre aramaları yapılmıştır. Optimize edilen modellerde B3, V2B2 ve V2B3 varyantları %97,20 doğruluk ve sırasıyla 0,9713, 0,9716 ve 0,9718 F1 skorları ile en iyi sonucu vermiştir. Tüm hesaplamalı süreçler, PROV uyumlu JSON formatında provenans verisi olarak yapılandırılmış; analizlere dair işlem bilgileri, kullanılan yöntemler, hiperparametreler ve çıktılar zaman damgalı şekilde kayıt altına alınmıştır. Örnek olarak seçilen iki analiz süreci, BagIt kütüphanesi ile paketlenmiş, orijinal ve türev veri setleriyle birlikte Archivematica sistemine yüklenmiş ve burada SIP, AIP ve DIP paketlerine dönüştürülerek uzun süreli koruma sağlanmıştır. Ayrıca genel işlem akışı, PROV-ML düğümleri ile diyagram olarak gösterilmiştir. Tezin alana temel katkısı; hesaplamalı yöntem ve tekniklerle üretilen veri ve bilgilerin, tüm girdi-çıktı boyutlarıyla birlikte uzun süreli korumaya alınabilecek nitelikli dijital arşiv nesnelerine (nitelikli veri havuzu) dönüştürülebileceğidir. Bu katkıya ek olarak yapay zekâ tabanlı süreçlere dair arşivsel provenansın oluşturulması, tüm hesaplamalı süreçlerin izlenebilirliği ve şeffaflığını da sağlamaktadır. Tez, bu yönüyle alanda dijital koruma, süreç belgeleme ve veri temelli karar destek mekanizmalarına katkı sağlamakta ve bu bağlamda kurumlar, araştırmacılar ve kullanıcılar için yeni bir arşivsel değerin üretilebileceğini savunmaktadır.
Archival science has increasingly become part of a broad transformation driven by big data and artificial intelligence. In this context, a new paradigm known as computational archival science has emerged. This field integrates the collective knowledge of computer science and archival science to offer computational methods for the analysis, long-term preservation and access of digital archival materials. In this thesis, core approaches of computational archival science are adopted to conduct artificial intelligence-based analyses on both structured (TSV) and unstructured (satellite-captured aerial imagery) digital archival datasets. Provenance information related to the computational processes is generated, and all outputs are preserved through Archivematica, a digital preservation system. In the first stage of the study, a U.S. domestic flight dataset containing 3,6 million records and 11 features from 1990 to 2009 is analyzed. This dataset was selected due to its nature as a digital archival source and its public availability. After extensive preprocessing steps (missing value imputation with KNNImputer, logarithmic transformation, outlier removal via the IQR method, clipping and standardization) both regression and classification tasks were performed. For predicting the number of passengers, multiple linear regression yielded an R² of 91,97%, while the artificial neural network model achieved 99,90% R². In classification analyses, the stacking model achieved 99,90% accuracy in predicting distance categories, while the artificial neural network model reached 99,59% accuracy in classifying passenger numbers per flight. For deep learning analyses, the 30-class AID (Aerial Image Dataset) was processed using a baseline convolutional neural network (CNN) model. Various input dimensions, optimizasyon algoritması types and learning rates were compared. The best result in the CNN model was obtained using the Adamax optimizasyon algoritması, with an input size of 250×250 and an accuracy of 91,40%. Data augmentation and hyperparameter optimization significantly contributed to model performance. As part of transfer learning, eight variants of the EfficientNet architecture (B0-B3 and V2B0-V2B3) were utilized. Initially, base models were trained without preloaded weights, followed by hyperparameter tuning using the RandomSearch Tuner. In the optimized models, the B3, V2B2, and V2B3 variants achieved the best performance, with an accuracy of 97.20% and F1 scores of 0,9713, 0,9716, and 0,9718, respectively. All computational processes were recorded as provenance data in PROV-compliant JSON format. Information regarding analytical methods, hyperparameters, outputs, and timestamps were systematically recorded. Two example analysis workflows were packaged using the BagIt library, uploaded to the Archivematica system together with both original and derived datasets, and transformed into SIP, AIP, and DIP packages for long-term preservation. In addition, the overall process flow was visualized as a diagram using PROV-ML nodes. The fundamental contribution of this thesis is the demonstration that data and information generated through computational methods and techniques can be transformed -together with all their input-output dimensions- into qualified digital archival objects (qualified data repository) that are suitable for long-term preservation. In addition to this, the creation of archival provenance for AI-based processes ensures the traceability and transparency of all computational workflows. In this respect, the thesis contributes to digital preservation, process documentation, and data-driven decision-making mechanisms in the field, and argues that a new archival value can thereby be produced for institutions, researchers, and users.
Archival science has increasingly become part of a broad transformation driven by big data and artificial intelligence. In this context, a new paradigm known as computational archival science has emerged. This field integrates the collective knowledge of computer science and archival science to offer computational methods for the analysis, long-term preservation and access of digital archival materials. In this thesis, core approaches of computational archival science are adopted to conduct artificial intelligence-based analyses on both structured (TSV) and unstructured (satellite-captured aerial imagery) digital archival datasets. Provenance information related to the computational processes is generated, and all outputs are preserved through Archivematica, a digital preservation system. In the first stage of the study, a U.S. domestic flight dataset containing 3,6 million records and 11 features from 1990 to 2009 is analyzed. This dataset was selected due to its nature as a digital archival source and its public availability. After extensive preprocessing steps (missing value imputation with KNNImputer, logarithmic transformation, outlier removal via the IQR method, clipping and standardization) both regression and classification tasks were performed. For predicting the number of passengers, multiple linear regression yielded an R² of 91,97%, while the artificial neural network model achieved 99,90% R². In classification analyses, the stacking model achieved 99,90% accuracy in predicting distance categories, while the artificial neural network model reached 99,59% accuracy in classifying passenger numbers per flight. For deep learning analyses, the 30-class AID (Aerial Image Dataset) was processed using a baseline convolutional neural network (CNN) model. Various input dimensions, optimizasyon algoritması types and learning rates were compared. The best result in the CNN model was obtained using the Adamax optimizasyon algoritması, with an input size of 250×250 and an accuracy of 91,40%. Data augmentation and hyperparameter optimization significantly contributed to model performance. As part of transfer learning, eight variants of the EfficientNet architecture (B0-B3 and V2B0-V2B3) were utilized. Initially, base models were trained without preloaded weights, followed by hyperparameter tuning using the RandomSearch Tuner. In the optimized models, the B3, V2B2, and V2B3 variants achieved the best performance, with an accuracy of 97.20% and F1 scores of 0,9713, 0,9716, and 0,9718, respectively. All computational processes were recorded as provenance data in PROV-compliant JSON format. Information regarding analytical methods, hyperparameters, outputs, and timestamps were systematically recorded. Two example analysis workflows were packaged using the BagIt library, uploaded to the Archivematica system together with both original and derived datasets, and transformed into SIP, AIP, and DIP packages for long-term preservation. In addition, the overall process flow was visualized as a diagram using PROV-ML nodes. The fundamental contribution of this thesis is the demonstration that data and information generated through computational methods and techniques can be transformed -together with all their input-output dimensions- into qualified digital archival objects (qualified data repository) that are suitable for long-term preservation. In addition to this, the creation of archival provenance for AI-based processes ensures the traceability and transparency of all computational workflows. In this respect, the thesis contributes to digital preservation, process documentation, and data-driven decision-making mechanisms in the field, and argues that a new archival value can thereby be produced for institutions, researchers, and users.
Description
Keywords
Archives, Arşivler, Artificial intelligence, Deep Learning, Derin Öğrenme, Digital age, Digital Provenance, Dijital çağ, Dijital Provenans, Documentation, Dokümantasyon, Electronic document management, Electronic records, Elektronik belge yönetimi, Elektronik belgeler, Hesaplamalı Arşiv Bilimi, Machine Learning, Makine Öğrenmesi, Management, Transfer Learning, Transfer Öğrenmesi Computational Archival Science, Yapay zeka, Yapay Zekâ, Yönetim
