Publication: Çok boyutlu uzayda görsel veri madenciliği için üç yeni çatı tasarımı ve uygulamaları
Abstract
ÇOK BOYUTLU UZAYDA GÖRSEL VERİ MADENCİLİĞİ İÇİN ÜÇ YENİ ÇATI TASARIMI VE UYGULAMALARI Veri madenciliği, veri ambarlarında veya diğer bilgi depolarında tutulmakta olan büyük miktardaki verinin işlenerek içindeki değerli olabilecek bilginin ortaya çıkarılması sürecidir. Veri görselleştirme, algılanabilirliği arttırmak için verinin etkileşimli ve bilgisayar desteği ile görsel olarak temsil edilmesidir. Görsel veri madenciliği ise görselleştirmeyi insan ile bilgisayar arasında bir iletişim kanalı olarak kullanarak yeni ve yorumlanabilir örüntüler ortaya çıkarma sürecidir. Bu tez çalışmasında, veri madenciliği ve veri görselleştirme algoritmalarının çok boyutlu veri setlerinde kullanılması sırasında karşılaşılan zorluklar irdelenerek bunlar için çözüm yöntemleri geliştirilmiştir. Tez çalışması altı bölümden oluşmaktadır. İlk bölümde öncelikle veri madenciliği, görselleştirme, kümeleme analizi ve görsel veri madenciliği kavramları tanımlanarak veri madenciliğindeki güncel problemlerden bahsedilmiştir. Daha sonra, tez kapsamında çözüm getirilen problemin tanımı yapılarak tezin amacı ve organizasyonu verilmiştir. Problemin tanımının ardından ikinci bölümde literatürde mevcut bulunan görselleştirme teknikleri, çok boyutluluk sorunu ve çok boyutlu veri setlerinde kullanılan veri madenciliği yöntemleri incelenmiştir. Ayrıca veri madenciliği sürecinin kalitesini ve performansını doğrudan etkileyen uzaklık ve benzerlik ölçüm yöntemleri ile küme kalitesi ölçüm yöntemleri verilmiştir. Bu bölümde son olarak, ilişki tabanlı kümeleme çatısı adı verilen sistemin yapısı incelenmiştir. İlişki tabanlı kümeleme çatısı çok boyutlu uzayda hem veri görselleştirme hem kümeleme uygulamaları geliştirmek için uygun altyapı sağlamaktadır. Tez kapsamında ilişki tabanlı kümeleme çatısı üzerinde sürdürülen çalışmalarda üç yenilik gerçekleştirildi. Bu yenilikler ve bilimsel katkıları üçüncü, dördüncü ve beşinci bölümlerde deneysel sonuçlar ile birlikte verilmiştir. Üçüncü bölümde ilişki tabanlı kümeleme çatısına, normalde sahip olmadığı yoğunluk tabanlı kümeleme ve istisna filtreleme yetenekleri kazandırmak amacı ile mevcut çatı temel alınarak yeni bir çatı geliştirilmiştir. Yeni çatı sisteminde kullanılan görselleştirme aracı istisna filtreleme işleminin insan gözü aracılığı ile görsel olarak da gerçekleştirilebilmesine olanak sağlamaktadır. Çatı, farklı veri setlerine uygulanmış ve elde edilen sonuçlar bölüm sonunda değerlendirilmiştir. Dördüncü bölümde, dengelenmemiş kümelenmelerin tespit edilebilmesine olanak veren yeni bir çatı geliştirilmiştir. İlişki tabanlı çatı sisteminin dengelenmemiş kümelere sahip veri setlerine uygulanması durumunda, veri setindeki kümeleri dengeli olmaya zorladığı görülmüştür. Probleme çözüm olarak, mevcut çatı sisteminde kullanılan graf bölmeleme algoritması yerine Graclus olarak adlandırılan farklı bir kümeleme algoritmasının kullanılabileceği gösterilmiş ve yardımcı bir ara uzay kullanılarak istisna filtreleme işlemi gerçekleştirilmiştir. Beşinci bölümde, tez çalışması süresince kullanılan çatıların gerektirdiği yüksek hesaplama gücü ihtiyaçlarını azaltacak bir önişleme sistemi geliştirilmiştir. Geliştirilen sistem ile elde edilen sonuçlar, önişleme aşaması kullanılmadan elde edilmesi olası sonuçların tahminine de olanak sağlamaktadır. Üç farklı veri setleri ile gerçekleştirilen ölçümler ile önişleme sisteminin bellek ve işlemci ihtiyacı konusunda önemli oranda tasarruf sağladığı, küme kalitesi konusunda ise hissedilir bir fark oluşturmadığı deneysel sonuçlar ile gösterilmiştir. Altıncı bölümde, tez çalışması ile elde edilen sistemlerin genel değerlendirmesi yapılarak, sağlanan bilimsel katkılar özetlenmiş, konu ile ilgili çalışacak araştırmacılar için öneriler verilmiştir.
THREE NEW FRAMEWORKS FOR THE DESIGN AND APPLICATION OF VISUAL DATA MINING IN HIGH DIMENSIONAL SPACE Data mining is the process of searching through and extracting potentially useful knowledge from huge amounts of data stored in data warehouses or other kinds of information stores. Data visualization is an interactive way to improve perceptibility through computer aided visual representation of the data. Visual data mining is the process of using visualization as a communication channel between human and computer to extract new and interpretable patterns. In this dissertation, difficulties of using data mining and data visualization algorithms on high dimensional datasets are examined. New methods are developed to deal with them. This dissertation consists of six chapters. In the first chapter data mining, cluster analysis and visual data mining concepts are described and current challenges in data mining are discussed. In addition, problem description, objectives and organization of the dissertation are presented. In the second chapter, literature review of the visualization techniques, the curse of dimensionality and high dimensional data mining techniques are further investigated. Distance and similarity measures which impact the quality and performance of data mining are presented and clustering evaluation methods are discussed. Relationship based clustering framework which provides a convenient way of clustering and data visualization in high dimensional space is examined in the last section of this chapter. Three improvements on the relationship based clustering framework are introduced in the dissertation. These improvements and contributions are presented with the numerous experimental results in third, fourth and fifth chapters. The relationship based clustering framework is normally not capable of density based clustering and outlier filtering. In the third chapter, an improved framework based on the existing framework is introduced to bring in these capabilities. A visualization tool which is used in the new framework enables filtering outliers by the human eye. The framework is used for mining various real life datasets and the results are discussed at the end of the chapter. In the fourth chapter, a new framework is developed to deal with unbalanced clusters. It is realized that, relationship based clustering framework forces clusters to be balanced when applied to the datasets consisting of unbalanced clusters. The graph partitioning algorithm which is the main part of the existing framework is replaced by another type of clustering algorithm called Graclus to deal with this issue. Also, an intermediate space is introduced to filter outliers. All frameworks mentioned in the previous chapters consume much memory and cpu resources. In the fifth chapter, a new preprocessing system is introduced to reduce the computing power requirements. The results gathered from the framework which uses the new preprocessing system, is not the same as the ones gathered from the original framework. However, the new preprocessing system is capable of estimating the results of the original framework. Experimental results on three different real world datasets prove that, the proposed preprocessing system perceiveably reduces the computing power requirements. On the other hand, the difference between the quality of the clusters is not noticeable. The sixth chapter concludes the dissertation with a summary of the scientific contributions and presents some future directions of research and some recommendations for the researchers.
THREE NEW FRAMEWORKS FOR THE DESIGN AND APPLICATION OF VISUAL DATA MINING IN HIGH DIMENSIONAL SPACE Data mining is the process of searching through and extracting potentially useful knowledge from huge amounts of data stored in data warehouses or other kinds of information stores. Data visualization is an interactive way to improve perceptibility through computer aided visual representation of the data. Visual data mining is the process of using visualization as a communication channel between human and computer to extract new and interpretable patterns. In this dissertation, difficulties of using data mining and data visualization algorithms on high dimensional datasets are examined. New methods are developed to deal with them. This dissertation consists of six chapters. In the first chapter data mining, cluster analysis and visual data mining concepts are described and current challenges in data mining are discussed. In addition, problem description, objectives and organization of the dissertation are presented. In the second chapter, literature review of the visualization techniques, the curse of dimensionality and high dimensional data mining techniques are further investigated. Distance and similarity measures which impact the quality and performance of data mining are presented and clustering evaluation methods are discussed. Relationship based clustering framework which provides a convenient way of clustering and data visualization in high dimensional space is examined in the last section of this chapter. Three improvements on the relationship based clustering framework are introduced in the dissertation. These improvements and contributions are presented with the numerous experimental results in third, fourth and fifth chapters. The relationship based clustering framework is normally not capable of density based clustering and outlier filtering. In the third chapter, an improved framework based on the existing framework is introduced to bring in these capabilities. A visualization tool which is used in the new framework enables filtering outliers by the human eye. The framework is used for mining various real life datasets and the results are discussed at the end of the chapter. In the fourth chapter, a new framework is developed to deal with unbalanced clusters. It is realized that, relationship based clustering framework forces clusters to be balanced when applied to the datasets consisting of unbalanced clusters. The graph partitioning algorithm which is the main part of the existing framework is replaced by another type of clustering algorithm called Graclus to deal with this issue. Also, an intermediate space is introduced to filter outliers. All frameworks mentioned in the previous chapters consume much memory and cpu resources. In the fifth chapter, a new preprocessing system is introduced to reduce the computing power requirements. The results gathered from the framework which uses the new preprocessing system, is not the same as the ones gathered from the original framework. However, the new preprocessing system is capable of estimating the results of the original framework. Experimental results on three different real world datasets prove that, the proposed preprocessing system perceiveably reduces the computing power requirements. On the other hand, the difference between the quality of the clusters is not noticeable. The sixth chapter concludes the dissertation with a summary of the scientific contributions and presents some future directions of research and some recommendations for the researchers.
