Publication:
A comparative study for customer churn analysis via machine learning algorithms

dc.contributor.advisorFIRAT, Seniye Ümit Oktay
dc.contributor.advisorUSLU, Banu Çalış
dc.contributor.authorErdem, Zeynep Uyar
dc.contributor.departmentMarmara Üniversitesi
dc.contributor.departmentFen Bilimleri Enstitüsü
dc.contributor.departmentEndüstri Mühendisliği Anabilim Dalı
dc.date.accessioned2026-01-13T12:01:57Z
dc.date.issued2021
dc.description.abstractBu tezin amacı, etkili bir müşteri kayıp tahmini (CCP) metodolojisine göre makine öğrenme algoritmalarının değerlendirilmesinin açıklayıcı bir analizini sağlamaktır. Hızla gelişen Müşteri İlişkileri Yönetimi (CRM) alanında, müşteri kaybetme eğiliminde olan müşterileri elde tutmak için uygun bir CCP metodolojisi önermek için, müşterilerden gelen hacimli bir veri setinden müşteri kaybını tahmin etmek için bir dizi veri madenciliği analizi yapılmıştır. Bu analizlerde açık kaynaklı bir veri madenciliği yazılımı olan WEKA'da oluşturulan makine öğrenimi (ML) algoritmaları kullanılmıştır. Ayrıca, sınıflandırma yaparken algoritmanın takip ettiği karar yolunu göstermek için bir karar ağacı modelinin Python uygulaması yapılmıştır. Çalışma boyunca, Türkiye'deki özel bir telekomünikasyon şirketinden sırasıyla 195712, 32905 ve 228617 olay sayılarına sahip bireysel, kurumsal ve birleşik veri kümeleri kullanılarak müşteri kaybı tahminine ilişkin bir dizi deneysel analiz yapılmıştır. Müşteri kayıp durumunun tahmini için altı veri madenciliği algoritması değerlendirildi: Lojistik Regresyon, Naive Bayes, J48 ve RandomForest, Bagging ve Boosting gibi ELM algoritmaları. RandomForest, RandomTree'yi kullanırken, Bagging temel öğrenme algoritması olarak J48'i kullanıyor. Deneysel analizler, CCP için uygulanan bu tür veri madenciliği analizlerine dayalı olarak gelecekteki müşteri kayıplarının olasılığının belirlenmesi için bazı karar ağaçlarının ve topluluk ML sınıflandırıcılarının etkinliğini doğrulamak için şirketin tarihsel veritabanından elde edilen gerçek dünya veri kümeleri ile gerçekleştirilir. Sonuçlar, J48'in tüm veri kümelerine göre Naive Bayes'ten daha iyi performans gösterdiğini ve Lojistik Regresyon sınıflandırıcı algoritmasına çok benzer sonuçlar verdiğini göstermektedir. Ayrıca, Bagging büyük boyutlu veritabanını çözmediğinden ve J48, bireysel ve eksiksiz veri setlerinde benzer doğru sonuçlar verdiğinden, müşteri kaybı tahmini için Bagging’in yanı sıra J48 karar ağacı sınıflandırıcısı da seçilebilir.
dc.description.abstractThe purpose of this thesis is to provide a descriptive analysis of the assessment of machine learning algorithms to an effective customer churn prediction (CCP) methodology. In the rapidly developing field of Customer Relation Management (CRM), to propose a convenient CCP methodology in order for retaining the customers who tends to churn, a set of data-mining analyses has been conducted to predict customer churn from a bulky dataset from customers with certain attributes in a telecommunication company by using machine learning (ML) algorithms built in an open-source data mining software, WEKA. Additionally, a Python implementation of a decision tree model has been made in order to show the followed decision path of the algorithm while classifying. Throughout the study, a set of experimental analyses with regards to customer churn prediction are conducted by using residential, corporate and combined datasets with number of incidences of 195712, 32905, and 228617 respectively from a private telecommunication company in Turkey. Six data mining algorithms have been evaluated for prediction of the customer churn status: Logistic Regression, Naive Bayes, J48, and ELM schemes such as RandomForest, Bagging, and Boosting. RandomForest uses RandomTree whereas the Bagging uses J48 as a base learner. The experimental analyses are conducted with real-world datasets acquired from the historical database of the company to validate the effectiveness of some decision tree and ensemble ML classifiers for determination of likelihood of future churning customers based on such data mining analyses implemented for CCP. The results show that the J48 outperforms Naïve Bayes based on all datasets and it provides very similar results as the Logistic Regression classifier scheme. Besides, since Bagging has not solved the large-sized database and J48 has given similar accurate results in the residential and complete data sets, J48 decision tree classifier can be chosen as well as Bagging for customer churn prediction.
dc.format.extentX, 64 s.
dc.identifier.urihttps://katalog.marmara.edu.tr/veriler/yordambt/cokluortam/3E/62449a7a29c0f.pdf
dc.identifier.urihttps://hdl.handle.net/11424/280804
dc.language.isoeng
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subjectCustomer Relation Management
dc.subjectData-mining
dc.subjectEndüstri mühendisliği
dc.subjectIndustrial engineering
dc.subjectMüşteri İlişkileri Yönetimi Customer Churn Analysis
dc.subjectMüşteri Kayıp Analizi
dc.subjectTelecommunication
dc.subjectVeri madenciliği
dc.titleA comparative study for customer churn analysis via machine learning algorithms
dc.typemasterThesis
dspace.entity.typePublication

Files

Collections