Publication: Comparison and analysis of logistic regression, neural networks and naïve bayes machine learning algorithms for predicting child labor in Turkey
Abstract
Bu tez çalışması, sosyal bilimlerde büyük bir etki yaratan makine öğrenme algoritmalarının önemine odaklanmaktadır. Makine öğrenme, büyük veri analizi, yapay zeka ve sınıflandırma gibi alanlarda önemli bir yer edinmiştir. Sosyal bilimler, karmaşık toplumsal sorunları anlamak ve çözümlemek için veri tabanlı yaklaşımlara dayalı güçlü bir araç sağlamaktadır. Makine öğrenme algoritmaları, büyük miktarda veriye dayalı örüntüleri tanımlama, tahmin yapma ve sınıflandırma gibi görevlerde büyük bir potansiyele sahiptir. Özellikle sınıflandırma algoritmaları, sosyal bilimlerdeki birçok araştırma alanında önemli bir rol oynamaktadır. Lojistik regresyon, Naïve Bayes ve rastgele orman gibi makine öğrenme sınıflandırma algoritmaları, karmaşık veri setlerinde çeşitli kategorilere ayrılmış verileri etkili bir şekilde sınıflandırma yetenekleri ile bilinir. Bu algoritmalar, çocuk işçiliği gibi önemli sosyal sorunların analizinde ve tahmininde kullanıldığında, politika yapıcılarına ve araştırmacılara değerli bilgiler sunabilir. Araştırmada kullanılan veri seti, Türkiye İstatistik Kurumu (TÜİK) tarafından 2019 gerçekleştirilen çocuk işgücü anketinin çıktısı olan çalışan çocuk istatistikleri mikro veri setinden alınmıştır. Türkiye genelinde çocuk işçiliği vakalarının kapsamlı bir görüntüsünü sunmaktadır. Veri seti çocuk işçiliği ile ilişkilendirilebilecek çeşitli özellikler içermektedir, örneğin yaş, cinsiyet, eğitim düzeyi ve hane halkı büyüklüğü gibi. Denetimli öğrenme teknikleri kullanılarak, lojistik regresyon, Naïve Bayes ve rastgele orman algoritmaları üzerinde tahmin modelleri oluşturulmuştur. Bu modeller, çocuk işçiliği vakalarını tahmin etmek için kullanılan veri setini kullanarak eğitilmiş (%80) ve test (%20) edilmiştir. Elde edilen sonuçlar, rastgele orman algoritmasının diğer iki algoritmadan daha yüksek bir tahmin doğruluğuna sahip olduğunu göstermektedir. Lojistik regresyon %92 doğruluk oranı sağlarken, Naïve Bayes %86 doğruluk oranı sunmuş ve rastgele orman %97 doğruluk oranına ulaşmıştır. Bu bulgular, rastgele orman algoritmasının çocuk işçiliği vakalarını tahmin etmede daha etkili olduğunu ve daha güvenilir sonuçlar üretebildiğini göstermektedir. Ayrıca, algoritmaların performansını değerlendirmek için farklı metrikler de kullanılmıştır. Hassasiyet, özgüllük, doğruluk ve F1 puanı gibi metrikler, her bir algoritmanın çocuk işçiliği vakalarını doğru bir şekilde sınıflandırma yeteneklerini değerlendirmek için kullanılmıştır. Bu analizler, rastgele orman algoritmasının en yüksek hassasiyet, özgüllük ve F1 puanı değerlerine sahip olduğunu göstermiştir. Ancak, bu çalışmanın bazı sınırlamaları da göz önünde bulundurulmalıdır. Veri setinde eksik veya eksik olabilecek bazı önemli bilgiler olabilir, örneğin bölge bazlı aile geliri gibi. Bu eksik bilgilerin sonuçları etkileyebileceği ve daha tam bir resim sunabilmek için daha kapsamlı veri toplama çabalarının gerekliliği akılda tutulmalıdır. Sonuç olarak, bu tez çalışması, Türkiye'deki çocuk işçiliğini tahmin etmek için lojistik regresyon, Naïve Bayes ve rastgele orman algoritmalarının performansını karşılaştırarak önemli bir katkı sağlamaktadır. Rastgele orman algoritmasının daha yüksek bir doğruluk oranı ve daha iyi sınıflandırma yetenekleri sergilediği bulunmuştur. Bu çalışma, çocuk işçiliğiyle mücadele etmek için veri odaklı ve etkili stratejilerin geliştirilmesinde bilimsel bir temel sunmaktadır. Gelecekteki çalışmalar, daha kapsamlı veri setleri kullanarak ve diğer gelişmiş makine öğrenme algoritmalarını dahil ederek bu alanda daha ileri araştırmalara yol açabilir.
This thesis aims to compare and analyze the performance of three popular machine learning algorithms - logistic regression, Naïve Bayes, and random forest - in predicting child labor in Turkey. The statistics on working children status in Turkey in 2019 were derived from the micro database of the Turkish Statistical Institute (TURKSTAT). The study leverages big data analysis, artificial intelligence, and classification algorithms to gain insights into the complex dynamics of child labor and inform effective interventions. The research explores the intersection of these fields, emphasizing their significance in addressing societal challenges. Using a comprehensive dataset on child labor in Turkey, we apply supervised learning techniques to develop and evaluate predictive models. The findings reveal that while logistic regression and Naïve Bayes offer valuable insights, the random forest algorithm demonstrates superior performance in accurately predicting child labor instances. The model achieves an impressive accuracy rate of 97%, highlighting its ability to capture intricate feature interactions. The Study adds to the body of knowledge by demonstrating the effectiveness of machine learning algorithms in preventing child labor and by offering evidence-based advice to decision-makers. But it's important to identify some restrictions, such the generalizability and quality of the data. To improve prediction accuracy and broaden our understanding of the dynamics of child labor, future study should investigate more sophisticated algorithms and incorporate extra information.
This thesis aims to compare and analyze the performance of three popular machine learning algorithms - logistic regression, Naïve Bayes, and random forest - in predicting child labor in Turkey. The statistics on working children status in Turkey in 2019 were derived from the micro database of the Turkish Statistical Institute (TURKSTAT). The study leverages big data analysis, artificial intelligence, and classification algorithms to gain insights into the complex dynamics of child labor and inform effective interventions. The research explores the intersection of these fields, emphasizing their significance in addressing societal challenges. Using a comprehensive dataset on child labor in Turkey, we apply supervised learning techniques to develop and evaluate predictive models. The findings reveal that while logistic regression and Naïve Bayes offer valuable insights, the random forest algorithm demonstrates superior performance in accurately predicting child labor instances. The model achieves an impressive accuracy rate of 97%, highlighting its ability to capture intricate feature interactions. The Study adds to the body of knowledge by demonstrating the effectiveness of machine learning algorithms in preventing child labor and by offering evidence-based advice to decision-makers. But it's important to identify some restrictions, such the generalizability and quality of the data. To improve prediction accuracy and broaden our understanding of the dynamics of child labor, future study should investigate more sophisticated algorithms and incorporate extra information.
