Publication:
Yüksek boyutlu robust regresyonunda makine öğrenmesi algoritmaları : simülasyon ve uygulama

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Research Projects

Organizational Units

Journal Issue

Abstract

Bu tezin amacı aşırı değer ve kaldıraç noktalarına sahip yüksek boyutlu veri yapısının kullanıldığı modelleri farklı robust yöntemlerle tahmin etmek ve performanslarını karşılaştırmaktır. Çalışmada RStudio kullanılarak nesne tabanlı simülasyon yöntemiyle sadece dikey aşırı değerlerin olduğu, sadece kaldıraç noktalarının olduğu, hem dikey aşırı değer hem de kaldıraç noktalarını olduğu ve hiçbirinin olmadığı 4 farklı veri seti oluşturulmuş ve bu veri setlerine LAD-Lasso, Kantil Lasso, Robust LARS, Sparse LTS, Huber Lasso ve MTE Lasso robust tahmin yöntemleri uygulanmıştır. Ayrıca tüm yöntemlerin performanslarının gerçek veri setinde araştırılması amacıyla Genişletilmiş Çevresel Kuznets Eğrisi hipotezi altında 2000, 2010 ve 2018 yılları için OECD ülkelerinde karbondioksit emisyonunu etkileyen faktörlerin yer aldığı yüksek boyutlu veri setleri oluşturulmuştur. Bu veri setlerindeki dikey aşırı değer ve kaldıraç noktalarının varlığı tanımlayıcı testler ile araştırılmıştır ve sonrasında bu veri setleriyle oluşturulan modeller çalışmada kullanılan robust yöntemlerle tahmin edilmiştir. Hem simülasyon hem de gerçek veri setlerinde kullanılan robust tahmin yöntemlerinin performans karşılaştırılması çeşitli metriklere dayanarak yapılmış ve sonuçlar tablolarla sunulmuştur. Sonuç olarak simülasyon çalışmalarında, yüksek boyutlu modellerde aşırı değerlerin olmaması ve dikey aşırı değerlerin olması durumunda Robust LARS, kaldıraç noktalarının olması ve hem dikey aşırı değerlerin hem de kaldıraç noktalarının olması durumunda Sparse LTS yöntemleri daha iyi performans göstermiştir. Uygulamada ise simülasyon çalışmasıyla benzer sonuçlar elde edilmiştir.
The aim of this thesis is to predict models using high dimensional data structure with outliers and leverage points via different robust methods and compare their performance. In the study, using the RStudio program, 4 different data sets with only vertical outliers, only leverage points, both vertical outliers and leverage points and none of them were created with object oriented simulation method and LAD-Lasso, Kantil Lasso, Robust LARS, Sparse LTS, Huber Lasso and MTE Lasso robust estimation methods were applied to these data sets. In addition, in order to investigate the performances of all methods in real data set, high dimensional data sets were created under the Augmented Environmental Kuznets Curve hypothesis for 2000, 2010 and 2018, including the factors affecting carbon dioxide emissions in OECD countries. The existence of outliers and leverage points in these datasets were investigated by diagnostic tests, and then the models created with these datasets were estimated with the robust methods used in the study. Performance comparisons of robust estimation methods used in both simulation and real data sets were made based on various metrics and the results were presented in tables. As a result, in simulation studies, Robust LARS methods overperform in case of no outliers and existing vertical outliers in high dimensional models, and Sparse LTS methods in case of only leverage points and both vertical outliers and leverage points. In application, similar results were obtained with the simulation study.

Description

Citation

Collections

Endorsement

Review

Supplemented By

Referenced By