Publication:
Clustering and similarity based classification algorithm

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Research Projects

Organizational Units

Journal Issue

Abstract

Bu tezde ikili sınıflandırma problemine yeni bir çözüm sunulmuştur. Tez iki ana fikre dayanmaktadır; mesafe hesaplamalarında kullanılan ağırlıklar her özellik için farklı olabilir ve bu ağırlıklar veri setinin farklı alt kümelerinde de farklı olabilir. Bu fikirleri gerçekleştirmek için öncelikle, özelliklerin ağırlıklandırılmasında tahmin güçleri ve sınıf içi varyansları kullanılarak En Yakın Merkez sınıflandırıcısının yeni bir türevi elde edilmiştir. Bu türev Gelişmiş En Yakın Ağırlık Merkezi (ENC) olarak adlandırılmıştır. İkinci olarak, veri seti Karar Ağacı sınıflandırıcısı aracılığıyla alt kümelere bölünmüş ve yeni türev, yeni bir model ağaç sınıflandırıcısı oluşturmak için ağacın tüm yapraklarına uygulanmıştır. Bu model ağacı sınıflandırıcısına Gelişmiş En Yakın Merkez Model Ağacı (ENCMT) sınıflandırıcısı adı verilmiştir. Literatürde yaygın olarak kullanılan 30 veri seti üzerinden sınıflandırıcıların performanslarını karşılaştırmak için bağımsız bir karşılaştırma platformu kullanılmıştır. Sonuçlar, ENCMT'nin ENC'den, Karar Ağacı sınıflandırıcısından ve Lojistik Model Ağacı sınıflandırıcısından daha üstün olduğunu göstermektedir. ENCMT'nin bir torbalama çeşidi, Gelişmiş En Yakın Merkez Model Ağaç Ormanı (ENCMTF) olarak oluşturulmuştur ve karşılaştırmalar, ENCMTF'nin Rastgele Orman sınıflandırıcısından ve Lojistik Model Ağacı sınıflandırıcısından daha üstün olduğunu göstermiştir. ENCMT ve ENCMTF'nin performansları aynı zamanda son teknoloji sınıflandırıcılar olan XGBoost ve Light GBM ile de karşılaştırılmış olup alınan sonuçlar, bunların kıyaslanabilir performansa sahip olduğunu göstermiştir.
In this thesis a new solution to the binary classification problem has been introduced. It is based on two main ideas; the weights used at distance calculations should be different for each feature and these weights should be different at different subsets of the dataset. To realize these ideas, first, a novel derivative of Nearest Centroid classifier is obtained using predictive powers and in-class variances at weighting the features. This derivative is called as Enhanced Nearest Centroid (ENC). Second, the dataset is divided into subsets via Decision Tree classifier and the new derivative is applied at all leaves of the tree to form a new model tree classifier. This model tree classifier is called as Enhanced Nearest Centroid Model Tree (ENCMT) classifier. An independent comparison platform is used to compare the performances of classifiers over 30 datasets which are widely used at the literature. The results show that it is superior to its Nearest Centroid derivative, to the Decision Tree classifier and Logistic Model Tree classifier. A bagging variant of ENCMT is formed as Enhanced Nearest Centroid Model Tree Forest (ENCMTF) and comparisons show that ENCMTF is superior to Random Forest classifier and Logistic Model Tree classifier. The performances of ENCMT and ENCMTF is also compared against state-of-the art classifiers XGBoost and Light GBM and the results show that they have comparable performance.

Description

Citation

Collections

Endorsement

Review

Supplemented By

Referenced By