Publication: Hiyerarşik kümeleme metodları ile veri medenciliği uygulamaları
Abstract
HİYERARŞİK KÜMELEME METOTLARI İLE VERİ MADENCİLİĞİ UYGULAMALARI Veri üretme, veri toplama ve veri kullanımındaki teknolojik gelişmeler sonucu hızlı bir şekilde artan veritabanı boyutları, verileri kısa süre içinde kullanışlı ve anlaşılır bilgilere çevirebilen yeni teknikler ve araçlar gerektirmektedir. Bu gereksinimlere yanıt vermek üzere tanımlanan veri madenciliği, mevcut veri kaynaklarından, kullanıcının farklı sorularına yanıt verecek, kesin, faydalı, anlaşılır, önceden bilinmeyen ve kullanışlı bilgilerin elde edilmesi işlemidir. Veri madenciliğinde yaygın olarak kullanılan yöntemlerden biri kümeleme analizidir. Kümeleme işlemi veri analizlerinin örüntü oluşturma aşamasında, veri kaynağındaki tüm verileri kullanmak yerine, benzer özellik gösteren verileri temsil eden kümeleri kullanır. Veri madenciliğinde bir çok kümeleme metodu bulunmaktadır. Bu çalışmada, kümeleme metotlarından hiyerarşik kümeleme metodunun farklı algoritmalarının uygulamalı karşılaştırmaları yapılmıştır. Hiyerarşik kümeleme metotlarında, verilerin iç içe gruplaşma ilişkisini ve gruplaşmaların değiştiği benzerlik seviyelerini ağaç yapısı şeklinde gösteren bir dendrogram yapısı oluşturulur. Bu işlem veri noktalarını veya küçük kümeleri birleştirerek yada büyük kümeleri parçalara bölerek gerçekleştirilir. Bu tezde, veri madenciliği ve veri madenciliğinde kullanılan kümeleme analizi metotları ve bu metotlardan birisi olan hiyerarşik kümeleme algoritmaları hakkında teorik bilgiler verilmiştir. Daha sonra hiyerarşik kümeleme algoritmalarından CURE( Clustering Using REpresentatives) ve AGNES (AGglomerative NESting) ile bölümleyici kümeleme algoritmalarından k-means algoritmasının yapıları ayrıntılı olarak incelenmiş ve bu algoritmalar tarafımızca MATLAB'de hazırlanmış bir program aracılığıyla sentetik veri setleri üzerinde uygulanmıştır. Elde edilen sonuçların karşılaştırmaları yapılmıştır. Algoritmaların gerçek veri setleri üzerindeki sonuçlarının değerlendirilmesini sağlamak için süsen bitkisinin taç ve çanak yapraklarının büyüklükleri bilgilerini taşıyan iris veri setinde de uygulamalar gerçekleştirilmiştir. Gerçekleştirilen uygulamalar sonucunda, k-means algoritmasının ayrık ve sıkışık bulutlar halindeki kümeleri başarıyla bulduğu görülmüştür. Bu algoritma benzer büyüklükteki küresel kümeleri bulabilirken çok büyük kümeleri küresel de olsa parçalara ayırmaktadır. AGNES algoritması uygulamaları bu algoritmanın küresel kümeleri etkili bir şekilde bulduğunu ancak sıradışı noktalara karşı çok duyarlı olduğunu göstermiştir. CURE algoritması uygulamalarında bu algoritmanın farklı büyüklüklerde ve farklı şekillerdeki kümeleri sıradışı noktalardan etkilenmeden başarıyla bulduğu görülmüştür. Ancak, CURE algoritmasıyla elde edilen kümeler giriş parametrelerinin değerlerinden etkilendiği saptanmıştır. Temmuz, 2005 Meral DEMİRALAY
DATA MINING APPLICATIONS USING HIERARCHICAL CLUSTERING ALGORITHMS The rapid growth in the size of data and databases, has generated an urgent need for new techniques and tools that can intelligently and automatically transform the processed data into useful information and knowledge. Data mining (DM) is the process of discovering meaningful, understandable, implicit, previously unknown and potentially useful information from databases. There are number of techniques used in DM. One of the techniques is the cluster analysis. Clustering in data analysis prevents using all data points to find meaningful patterns in a database by using clusters that represents a number of very similar data points as one data point. There are number of techniques used in cluster analysis. In this thesis, hierarchical clustering methods are investigated. Hierarchical clustering methods builds a dendrogram representing the nested grouping of patterns and the similarity levels at which grouping change. In this thesis, data mining and clustering step of data mining process is described briefly and some theoretical background of most frequently used hierarchical clustering algorithms are explained. Detailed information on CURE, AGNES and k-means are presented and these algorithms are applied to synthetic databases in MATLAB platform to compare the performance of each algorithm. Iris dataset is chosen for real world data and CURE, AGNES and k-means algorithms are applied to that dataset to observe the performance and behavior of these algorithms. The results of the applications showed that k-means algorithm can find well-separated and compact clusters. When there are large differences in cluster sizes k-means algorithm splits the clusters into smaller clusters. AGNES algorithm efficiently finds the spherical clusters but it is very sensitive to outliers. CURE algorithm efficiently identifies the clusters with different size and arbitrary shapes. The algorithm is not very sensitive to the outliers but the input parameters affect the clustering results very much. The experimental studies showed that because of the execution time, CURE algorithm is not very useful in real world applications. July, 2005 Meral DEMİRALAY
DATA MINING APPLICATIONS USING HIERARCHICAL CLUSTERING ALGORITHMS The rapid growth in the size of data and databases, has generated an urgent need for new techniques and tools that can intelligently and automatically transform the processed data into useful information and knowledge. Data mining (DM) is the process of discovering meaningful, understandable, implicit, previously unknown and potentially useful information from databases. There are number of techniques used in DM. One of the techniques is the cluster analysis. Clustering in data analysis prevents using all data points to find meaningful patterns in a database by using clusters that represents a number of very similar data points as one data point. There are number of techniques used in cluster analysis. In this thesis, hierarchical clustering methods are investigated. Hierarchical clustering methods builds a dendrogram representing the nested grouping of patterns and the similarity levels at which grouping change. In this thesis, data mining and clustering step of data mining process is described briefly and some theoretical background of most frequently used hierarchical clustering algorithms are explained. Detailed information on CURE, AGNES and k-means are presented and these algorithms are applied to synthetic databases in MATLAB platform to compare the performance of each algorithm. Iris dataset is chosen for real world data and CURE, AGNES and k-means algorithms are applied to that dataset to observe the performance and behavior of these algorithms. The results of the applications showed that k-means algorithm can find well-separated and compact clusters. When there are large differences in cluster sizes k-means algorithm splits the clusters into smaller clusters. AGNES algorithm efficiently finds the spherical clusters but it is very sensitive to outliers. CURE algorithm efficiently identifies the clusters with different size and arbitrary shapes. The algorithm is not very sensitive to the outliers but the input parameters affect the clustering results very much. The experimental studies showed that because of the execution time, CURE algorithm is not very useful in real world applications. July, 2005 Meral DEMİRALAY
