Publication:
Comparison of the effects of data privacy preserving methods on machine learning algorithms in IOT

dc.contributor.advisorKORÇAK, Ömer
dc.contributor.authorSaleh, Taj Eldeen
dc.contributor.departmentMarmara Üniversitesi
dc.contributor.departmentFen Bilimleri Enstitüsü
dc.contributor.departmentMühendislik Anabilim Dalı
dc.date.accessioned2026-01-13T09:54:45Z
dc.date.issued2022
dc.description.abstractVeri gizliliğini korumak, birçok kuruluş ve birey için çok önemli ve artan bir endişe kaynağıdır. Gizlilik konusunu ele almak için, veriye dayalı hizmetler araştırma ve geliştirme üzerinde doğrudan etkileri olan birçok düzenleme uygulanmaktadır. Verilerin anonimleştirilmesi, belirli gizlilik düzenlemelerine uymak için kişisel olarak tanımlanabilir bilgileri kaldırarak bu sorunla başa çıkmanın bir yoludur. Ancak, anonimleştirme süreci tek başına verilere bir miktar gürültü getirir. Bu çalışmada, anonimleştirme algoritmalarının uygulanmasının makine öğrenmesi modellerinin performansı üzerindeki etkilerini anlamayı amaçlıyoruz. K-anonimliği ve l-diversity ve t-closeness gibi farklı varyasyonlarını sağlamanın etkilerini bir dizi sınıflandırıcı ve gerçek hayat veri kümesi üzerinde karşılaştırıyoruz. Karşılaştırmalarımızda, makine öğrenimi için özelleşmiş bir bilgi kaybı metriği kullanıyoruz. Ayrıca, bilgi kaybını en aza indiren ve k-anonimlik özelliğini uygulayan optimal genelleme hiyerarşi ağaçlarını oluşturabilen ve seçebilen otomatik bir genelleme ve bastırma çerçevesi sunuyoruz. Sonuçlarımız, her k-anonimlik varyasyonunun farklı bir gizlilik düzeyi sunduğunu ve anonimleştirme sürecinde farklı kısıtlamalar getirdiğini göstermektedir. Genel olarak, anonimleştirme sürecinde ne kadar fazla kısıtlamamız olursa, verilerde o kadar fazla gürültü alırız. Ayrıca, kullanıcıların ham verilerini toplamadan veya paylaşmadan ML modellerinin merkezi olmayan bir şekilde eğitilmesine izin veren federe öğrenme isimli yeni bir başka yaklaşımı da araştırdık. K-anonimleştirilmiş verileri kullanmaya adapte olabilen, silolar arası federe bir öğrenme çerçevesi tasarladık. Veri anonimleştirme entegrasyonunun daha iyi gizlilik sağlarken minimum bilgi kaybı sağlayabileceğini ve her iki yaklaşımı tek bir çerçevede kullanmanın her iki yaklaşımın avantajlarından yararlanmamızı sağladığını gösteriyoruz
dc.description.abstractMaintaining data privacy is a crucial and rising concern for many organizations and individuals. To address the issue of privacy, many regulations are enforced, which have direct impacts on data-driven services research and development. Data anonymization is one way to deal with this issue, by removing personal identifiable information to abide by certain privacy regulations. However, the anonymization process by itself introduces a level of noise to the data. In this study we aim to understand the effects of applying anonymization algorithms on the performance of the machine learning models. We compare the effects of enforcing k-anonymity and its different variations (known as l-diversity and t-closeness) on a number of classifiers and real-life datasets. In our comparisons, we utilize an information loss metric specialized for machine learning. Furthermore, we introduce an automatic generalization and suppression framework that can build and choose the optimal generalization hierarchy trees that minimize information loss and enforce the k-anonymity property. Our results show that each k-anonymity variation offers a different level of privacy and introduces different constraints on the anonymization process. In general, the more constraints we have on the anonymization process the more noise we get in the data. We also investigated another recent approach, that is federated learning where it allows for training of ML models in a decentralized manner without collecting or sharing users’ raw data. We designed a cross-silo federated learning framework that can adapt to use k-anonymized data. We show that integration of data anonymization can give minimal information loss while providing better privacy, and that utilizing both approaches in one framework does enable us to benefit from both approaches' advantages.
dc.format.extentVIII, 59 s.
dc.identifier.urihttps://katalog.marmara.edu.tr/veriler/yordambt/cokluortam/3C/62e11bd627793.pdf
dc.identifier.urihttps://hdl.handle.net/11424/283007
dc.language.isoeng
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subjectBirleşik Öğrenim Data Privacy
dc.subjectEngineering
dc.subjectFederated Learning
dc.subjectMachine Learning
dc.subjectMakine öğrenme
dc.subjectMühendislik
dc.subjectVeri gizliliğ
dc.titleComparison of the effects of data privacy preserving methods on machine learning algorithms in IOT
dc.typemasterThesis
dspace.entity.typePublication

Files

Collections