Publication: Savaş nesnelerinin interneti (IoBT) ortamında makine öğrenmesi tabanlı siber saldırı tespit sistemi
Abstract
Savaş Alanı Nesnelerinin İnterneti (IoBT), savaş alanlarında kullanılan ve birbirleri ile bağlantılı olarak iletişim içerisinde olan akıllı cihazlar, sensörler ve otonom sistemlerden oluşan dinamik bir askeri teknoloji ağıdır. Bu ağ, savaş alanında operasyonel etkinliği artırırken, aynı zamanda siber güvenlik tehditlerine karşı korunma gereksinimini de beraberinde getirmektedir. IoBT'ye olan güven arttıkça, savaş alanı ortamlarının benzersiz zorluklarına göre uyarlanmış güvenilir ve etkili siber saldırı tespit sistemlerine olan ihtiyaç da artmaktadır. Bu tez çalışmasında, IoBT ortamlarında karşılaşılan siber tehditlerin tespiti amacıyla makine öğrenmesi tabanlı saldırı tespit sistemi model yapılandırmaları oluşturulmuş ve performansları karşılaştırmalı olarak incelenmiştir. Çalışma kapsamında, gerçek dünya IoT trafiğini yansıtan ve güncel saldırı türlerini içeren UNB CIC IoT 2023 veri seti kullanılmıştır. Modelleme sürecinde üç farklı veri ölçekleme yöntemi (Standart Ölçekleyici, MinMax Ölçekleyici ve Sağlam Ölçekleyici) uygulanmış; ardından, verinin boyutunu azaltmak ve bilgi yoğunluğunu artırmak amacıyla Temel Bileşenler Analizi (PCA), Doğrusal Ayraç Analizi (LDA), SelectKBest ve Rastgele Orman Özellik Önemi (RFI) gibi dört farklı özellik seçimi tekniği kullanılmıştır. Ek olarak, bazı deneylerde öznitelik seçimi uygulanmadan doğrudan ham verilerle model eğitimi gerçekleştirilmiştir. Model eğitimi ve değerlendirme sürecinde ise toplam on farklı makine öğrenmesi algoritması (Karar Ağacı, Rastgele Orman, Ekstra Ağaçlar, Destek Vektör Makineleri, K En Yakın Komşu, Lojistik Regresyon, Gauss Tabanlı Naive Bayes, AdaBoost, Gradyan Artırma ve Yapay Sinir Ağı) kullanılarak, ölçekleme ve özellik seçimi varyasyonları ile birlikte toplam 150 farklı model yapılandırması elde edilmiştir. Bu modeller, aynı test kümesi üzerinde doğruluk, kesinlik, duyarlılık ve F1-Skoru metrikleriyle değerlendirilmiştir. Özellikle F1-Skoru, dengesiz ve çok sınıflı IoBT veri yapılarında model başarımını ölçmede önemli bir gösterge olarak kullanılmıştır. Sınıflandırma performansları göz önüne alındığında özellikle Karar Ağacı algoritması Standart Ölçekleyici ile birlikte kullanıldığında %99,17 doğruluk ve %99,16 F1-Skoru ile en başarılı sonuçları üretmiştir. Rastgele Orman algoritması, Sağlam Ölçekleyici ve RFI yöntemiyle birlikte %99,08 doğruluk ve %99,02 F1-Skoru ile güçlü bir performans ortaya koymuştur. Ekstra Ağaçlar ise %98,88 doğruluk ve %98,81 F1-Skoru ile yüksek başarı sağlamıştır. Bunun yanında, Gradyan Artırma algoritması %98,83 doğruluk ve %98,75 F1-Skoru üretmiş; ancak 5588 saniyeyi aşan eğitim süresiyle önemli bir hesaplama yükü oluşturmuştur. Diğer yandan, en düşük başarı AdaBoost algoritmasında gözlemlenmiş, yalnızca %62,08 doğruluk ve %57,33 F1-Skoru ile sınırlı kalmıştır. Elde edilen sonuçlar, Karar Ağacı, Rastgele Orman ve Ekstra Ağaçlar gibi ağaç tabanlı yöntemlerin IoBT’nin çok sınıflı ve karmaşık veri yapısında yüksek başarı sağladığını ortaya koymuştur. Aynı zamanda IoBT gibi dinamik ve güvenlik açısından kritik sistemlerde, makine öğrenmesi algoritmalarının başarımının uygulanan ön işleme ve özellik seçimi yöntemlerine bağlı olarak önemli ölçüde değişebileceğini göstermiştir. Bu yönüyle çalışma, IoBT ortamlarında etkili saldırı tespiti için uygun algoritma-ön işleme kombinasyonlarının belirlenmesine katkı sunmaktadır. Bununla birlikte çalışma süresince, literatürde IoBT'ye özgü veri kümelerinin sınırlı olduğu tespit edilmiş ve bu durumun sistematik güvenlik analizlerini zorlaştırdığı değerlendirilmiştir. Gelecekte IoBT’ye özel, kapsamlı ve gerçekçi veri kümelerinin oluşturulmasının, alandaki çalışmalara önemli katkı sağlayacağı vurgulanmıştır.
The Internet of Things (IoBT) is a dynamic military technology network consisting of smart devices, sensors, and autonomous systems used in battlefields and communicating with each other. This network increases operational effectiveness on the battlefield, while also requiring protection against cybersecurity threats. As the reliance on IoBT increases, the need for reliable and effective cyber attack detection systems tailored to the unique challenges of battlefield environments also increases. In this thesis, machine learning-based intrusion detection system model configurations were created to detect cyber threats encountered in IoBT environments and their performances were comparatively examined. Within the scope of the study, the UNB CIC IoT 2023 dataset, which reflects real-world IoT traffic and includes current attack types, was used. Three different data scaling methods (Standard Scaler, MinMax Scaler, and Robust Scaler) were applied in the modeling process; then, four different feature selection techniques such as Principal Component Analysis (PCA), Linear Discriminant Analysis (LDA), SelectKBest and Random Forest Importance (RFI) were used to reduce the dimensionality of the data and increase the information density. In addition, in some experiments, model training was performed directly with raw data without applying feature selection. During the model training and evaluation process, a total of ten different machine learning algorithms (Decision Tree, Random Forest, Extra Trees, Support Vector Machines, K Nearest Neighbors, Logistic Regression, Gaussian Naive Bayes, AdaBoost, Gradient Boosting and Artificial Neural Network) were used to obtain a total of 150 different model configurations, including variations in scaling and feature selection. These models were evaluated on the same test set using accuracy, precision, sensitivity, and F1-Score metrics. F1-Score, in particular, was used as a key indicator of model performance in imbalanced and multi-class IoBT data structures. Considering classification performance, the Decision Tree algorithm, when used in conjunction with the Standard Scaler, produced the most successful results, with 99.17% accuracy and 99.16% F1-Score. The Random Forest algorithm, when combined with the Robust Scaler and the RFI method, demonstrated strong performance, with 99.08% accuracy and 99.02% F1-Score. Extra Trees achieved high success with 98.88% accuracy and 98.81% F1-Score. Furthermore, the Gradient Boosting algorithm produced 98.83% accuracy and 98.75% F1-Score, but with a training time exceeding 5588 seconds, it imposed a significant computational burden. On the other hand, the AdaBoost algorithm performed the least successfully, achieving only 62.08% accuracy and 57.33% F1-Score. The results demonstrated that tree-based methods such as Decision Tree, Random Forest, and Extra Trees achieve high success in the multi-class and complex data structure of IoBT. They also demonstrated that in dynamic and security-critical systems like IoBT, the performance of machine learning algorithms can vary significantly depending on the preprocessing and feature selection methods applied. In this respect, this study contributes to identifying appropriate algorithm-preprocessing combinations for effective intrusion detection in IoBT environments. However, during the study, it was determined that IoBT-specific datasets in the literature were limited, making systematic security analyses difficult. It was emphasized that creating comprehensive, realistic, and future IoBT-specific datasets would significantly contribute to research in the field.
The Internet of Things (IoBT) is a dynamic military technology network consisting of smart devices, sensors, and autonomous systems used in battlefields and communicating with each other. This network increases operational effectiveness on the battlefield, while also requiring protection against cybersecurity threats. As the reliance on IoBT increases, the need for reliable and effective cyber attack detection systems tailored to the unique challenges of battlefield environments also increases. In this thesis, machine learning-based intrusion detection system model configurations were created to detect cyber threats encountered in IoBT environments and their performances were comparatively examined. Within the scope of the study, the UNB CIC IoT 2023 dataset, which reflects real-world IoT traffic and includes current attack types, was used. Three different data scaling methods (Standard Scaler, MinMax Scaler, and Robust Scaler) were applied in the modeling process; then, four different feature selection techniques such as Principal Component Analysis (PCA), Linear Discriminant Analysis (LDA), SelectKBest and Random Forest Importance (RFI) were used to reduce the dimensionality of the data and increase the information density. In addition, in some experiments, model training was performed directly with raw data without applying feature selection. During the model training and evaluation process, a total of ten different machine learning algorithms (Decision Tree, Random Forest, Extra Trees, Support Vector Machines, K Nearest Neighbors, Logistic Regression, Gaussian Naive Bayes, AdaBoost, Gradient Boosting and Artificial Neural Network) were used to obtain a total of 150 different model configurations, including variations in scaling and feature selection. These models were evaluated on the same test set using accuracy, precision, sensitivity, and F1-Score metrics. F1-Score, in particular, was used as a key indicator of model performance in imbalanced and multi-class IoBT data structures. Considering classification performance, the Decision Tree algorithm, when used in conjunction with the Standard Scaler, produced the most successful results, with 99.17% accuracy and 99.16% F1-Score. The Random Forest algorithm, when combined with the Robust Scaler and the RFI method, demonstrated strong performance, with 99.08% accuracy and 99.02% F1-Score. Extra Trees achieved high success with 98.88% accuracy and 98.81% F1-Score. Furthermore, the Gradient Boosting algorithm produced 98.83% accuracy and 98.75% F1-Score, but with a training time exceeding 5588 seconds, it imposed a significant computational burden. On the other hand, the AdaBoost algorithm performed the least successfully, achieving only 62.08% accuracy and 57.33% F1-Score. The results demonstrated that tree-based methods such as Decision Tree, Random Forest, and Extra Trees achieve high success in the multi-class and complex data structure of IoBT. They also demonstrated that in dynamic and security-critical systems like IoBT, the performance of machine learning algorithms can vary significantly depending on the preprocessing and feature selection methods applied. In this respect, this study contributes to identifying appropriate algorithm-preprocessing combinations for effective intrusion detection in IoBT environments. However, during the study, it was determined that IoBT-specific datasets in the literature were limited, making systematic security analyses difficult. It was emphasized that creating comprehensive, realistic, and future IoBT-specific datasets would significantly contribute to research in the field.
Description
Keywords
Artificial Intelligence, Bilişim teknolojisi, Cyber Security, Güvenlik önlemleri, IDS, Information technology, Internet of Battlefield Things (IoBT), Internet of objects, Internet of Things (IoT), Intrusion Detection Systems, Machine Learning, Makine Öğrenmesi, Nesnelerin interneti, Nesnelerin İnterneti, Saldırı Tespit Sistemleri (STS), Savaş Nesnelerinin İnterneti, Security measures, Siber Güvenlik, Yapay Zekâ
