Comparison of the effects of data privacy preserving methods on machine learning algorithms in IOT

Saleh, Taj Eldeen

Publication:
Comparison of the effects of data privacy preserving methods on machine learning algorithms in IOT

dc.contributor.advisor	KORÇAK, Ömer
dc.contributor.author	Saleh, Taj Eldeen
dc.contributor.department	Marmara Üniversitesi
dc.contributor.department	Fen Bilimleri Enstitüsü
dc.contributor.department	Mühendislik Anabilim Dalı
dc.date.accessioned	2026-01-13T09:54:45Z
dc.date.issued	2022
dc.description.abstract	Veri gizliliğini korumak, birçok kuruluş ve birey için çok önemli ve artan bir endişe kaynağıdır. Gizlilik konusunu ele almak için, veriye dayalı hizmetler araştırma ve geliştirme üzerinde doğrudan etkileri olan birçok düzenleme uygulanmaktadır. Verilerin anonimleştirilmesi, belirli gizlilik düzenlemelerine uymak için kişisel olarak tanımlanabilir bilgileri kaldırarak bu sorunla başa çıkmanın bir yoludur. Ancak, anonimleştirme süreci tek başına verilere bir miktar gürültü getirir. Bu çalışmada, anonimleştirme algoritmalarının uygulanmasının makine öğrenmesi modellerinin performansı üzerindeki etkilerini anlamayı amaçlıyoruz. K-anonimliği ve l-diversity ve t-closeness gibi farklı varyasyonlarını sağlamanın etkilerini bir dizi sınıflandırıcı ve gerçek hayat veri kümesi üzerinde karşılaştırıyoruz. Karşılaştırmalarımızda, makine öğrenimi için özelleşmiş bir bilgi kaybı metriği kullanıyoruz. Ayrıca, bilgi kaybını en aza indiren ve k-anonimlik özelliğini uygulayan optimal genelleme hiyerarşi ağaçlarını oluşturabilen ve seçebilen otomatik bir genelleme ve bastırma çerçevesi sunuyoruz. Sonuçlarımız, her k-anonimlik varyasyonunun farklı bir gizlilik düzeyi sunduğunu ve anonimleştirme sürecinde farklı kısıtlamalar getirdiğini göstermektedir. Genel olarak, anonimleştirme sürecinde ne kadar fazla kısıtlamamız olursa, verilerde o kadar fazla gürültü alırız. Ayrıca, kullanıcıların ham verilerini toplamadan veya paylaşmadan ML modellerinin merkezi olmayan bir şekilde eğitilmesine izin veren federe öğrenme isimli yeni bir başka yaklaşımı da araştırdık. K-anonimleştirilmiş verileri kullanmaya adapte olabilen, silolar arası federe bir öğrenme çerçevesi tasarladık. Veri anonimleştirme entegrasyonunun daha iyi gizlilik sağlarken minimum bilgi kaybı sağlayabileceğini ve her iki yaklaşımı tek bir çerçevede kullanmanın her iki yaklaşımın avantajlarından yararlanmamızı sağladığını gösteriyoruz
dc.description.abstract	Maintaining data privacy is a crucial and rising concern for many organizations and individuals. To address the issue of privacy, many regulations are enforced, which have direct impacts on data-driven services research and development. Data anonymization is one way to deal with this issue, by removing personal identifiable information to abide by certain privacy regulations. However, the anonymization process by itself introduces a level of noise to the data. In this study we aim to understand the effects of applying anonymization algorithms on the performance of the machine learning models. We compare the effects of enforcing k-anonymity and its different variations (known as l-diversity and t-closeness) on a number of classifiers and real-life datasets. In our comparisons, we utilize an information loss metric specialized for machine learning. Furthermore, we introduce an automatic generalization and suppression framework that can build and choose the optimal generalization hierarchy trees that minimize information loss and enforce the k-anonymity property. Our results show that each k-anonymity variation offers a different level of privacy and introduces different constraints on the anonymization process. In general, the more constraints we have on the anonymization process the more noise we get in the data. We also investigated another recent approach, that is federated learning where it allows for training of ML models in a decentralized manner without collecting or sharing users’ raw data. We designed a cross-silo federated learning framework that can adapt to use k-anonymized data. We show that integration of data anonymization can give minimal information loss while providing better privacy, and that utilizing both approaches in one framework does enable us to benefit from both approaches' advantages.
dc.format.extent	VIII, 59 s.
dc.identifier.uri	https://katalog.marmara.edu.tr/veriler/yordambt/cokluortam/3C/62e11bd627793.pdf
dc.identifier.uri	https://hdl.handle.net/11424/283007
dc.language.iso	eng
dc.rights	info:eu-repo/semantics/openAccess
dc.subject	Birleşik Öğrenim Data Privacy
dc.subject	Engineering
dc.subject	Federated Learning
dc.subject	Machine Learning
dc.subject	Makine öğrenme
dc.subject	Mühendislik
dc.subject	Veri gizliliğ
dc.title	Comparison of the effects of data privacy preserving methods on machine learning algorithms in IOT
dc.type	masterThesis
dspace.entity.type	Publication

Collections

Tezler

Publication: Comparison of the effects of data privacy preserving methods on machine learning algorithms in IOT

Files

Collections

Publication:
Comparison of the effects of data privacy preserving methods on machine learning algorithms in IOT