Publication: Veri madenciliğinde kümeleme analizi yöntemi uygulaması
| dc.contributor.advisor | ÇAMURCU, Yılmaz | |
| dc.contributor.author | Bilgin, Turgay Tugay | |
| dc.contributor.department | Marmara Üniversitesi | |
| dc.contributor.department | Fen Bilimleri Enstitüsü | |
| dc.contributor.department | Elektronik-Bilgisayar Eğitimi Anabilim Dalı Bilgisayar- Kontrol Programı | |
| dc.date.accessioned | 2026-01-13T14:54:31Z | |
| dc.date.issued | 2003 | |
| dc.description.abstract | VERİ MADENCİLİĞİNDE KÜMELEME ANALİZİ YÖNTEMİ UYGULAMASI Veri Madenciliği, büyük veri yığınlarından anlamlı bilgiler elde etme işlemidir. Kendiliğinden oluşan kümelenmeler, örüntüler, birliktelikler ve istisnalar veritabanlarındaki bilgi kaynaklarıdır. Veri madenciliği yöntem ve teknikleri bu kaynakları analiz ederek taşıdıkları bilgiyi keşfetmeye çalışırlar. Bu çalışmada, veri madenciliğinde yeni geliştirilen yöntem ve teknikler incelenmiş ve içlerinden seçilen bir tekniği temsil eden algoritmaları kullanan uygulama yazılımları oluşturularak deneysel amaçlı sentetik veritabanına uygulanmıştır. Seçilen tekniği temsil eden algoritmalardan biri gerçek hayatta kullanılan ve Türkiye'nin sıcaklık verilerini içeren Meteorolojik veritabanına uygulanarak Türkiye üzerinde benzer sıcaklık rejimine sahip bölgeler tespit edilmeye çalışılmıştır. Tez çalışması, dünyada her geçen gün daha çok önem kazanan veri madenciliğinde yaşanan son gelişmelerin incelendiği ve yakın gelecekte kullanılması beklenen teknolojilerin açıklandığı bir kaynak olacaktır. Ayrıca bu tez çalışmasının, kullanım alanları hızla artan veri madenciliği yöntem ve tekniklerinin Meteoroloji bilimine sağlayacağı olası katkılar konusunda yol gösterici olması amaçlanmıştır. Tezin ikinci bölümünde veri madenciliğine giriş yapılarak genel tanımlar, veri madenciliğinin uygulama alanları ve veri madenciliğinde bilgi keşfi kavramı ve aşamaları açıklanmış, veri madenciliği tekniklerine genel hatlarıyla değinilmiştir. Üçüncü bölümde veri madenciliği tekniklerinden kümeleme analizi detaylı olarak incelenmiştir. Bu bölümde kümeleme analizinin tanımı, kümeleme analizinde kullanılan veri türleri ve kümeleme analizi teknikleri açıklanarak her bir kümeleme tekniğini kullanan algoritmaların teorik yapısı ve çalışma şekli hakkında bilgiler verilmiştir. Dördüncü bölümde, kümeleme tekniklerinden yoğunluk tabanlı metotları temsil eden DBSCAN, OPTICS ile bölümlemeli metotları temsil eden K-means algoritması yapay olarak üretilmiş sentetik veritabanına uygulanarak elde edilen sonuçlar karşılaştırılmıştır. Bölüm sonunda da her algoritma ile elde edilen sonuçlar karşılaştırılarak yeni geliştirilen metotların geleneksel metotlardan farkları ve üstünlükleri açıklanmıştır. Beşinci bölümde, yoğunluk tabanlı metotları temsilen seçilen DBSCAN algoritması gerçek hayatta kullanılan bir veritabanına uygulanarak algoritmanın gerçek veritabanlarında gösterdiği davranışlar ve performansı incelenmiştir. Uygulama için seçilen meteoroloji veritabanının yapısı ve bu veritabanından elde edilen sonuçlar da bu bölümde verilmiştir. Tez konusu yoğunluk tabanlı kümeleme metodlarını kullanan algoritmalar veri madenciliğinin henüz yeni sayılabilecek ve gelişmekte olan alanlarındandır. Gelecekte, verinin içeriği kadar konumunu da dikkate alan bu algoritmalar istatistik yöntemlerin verimli olmadığı uzaysal verilerin analizinde çok daha fazla kullanılacaklardır. Bilindiği gibi Türkiye coğrafi bölgelere ayrılmıştır. Bu bölgelerin oluşturulmasında iklim özelliklerinden çok ülkenin siyasi haritası dikkate alınmıştır. Bu çalışma, veri madenciliği yöntemlerinden yoğunluk tabanlı kümeleme metodlarının Meteoroloji verilerine uygulanarak Türkiye'de benzer sıcaklık bölgelerinin belirlenmesi için yeni bir yaklaşım sağlayacaktır. Tez çalışmasında elde edilen sonuçlardan Türkiye'nin iklimsel bölgelere ayrılması çalışmalarında yararlanılabilir. Haziran 2003 Turgay Tugay BİLGİN | |
| dc.description.abstract | A CLUSTER ANALYSIS APPLICATION ON DATA MINING Data mining is extracting knowledge from large amounts of data. All of natural clusterings, patterns, communities and outliers are knowledge resources. Data mining technique and methods try to discover the knowledge by analyzing these resources. In this thesis, new techniques and methods on data mining are investigated and one of these methods are chosen and application softwares developed based on the chosen method. All algorithms of the chosen method are applied to a synthetic database. One of these algorithms is applied to a Meteorological database which contains temperature data of Turkey. Clustering results of Meteorological data is used to determine the regions in Turkey which have similar temperature regime. Data mining is one of the most important and popular subjects in computer sciences. Since this study contains information about new research areas and improvements on data mining, it will be a reference for further researches. Furthermore, this study will be guide for the researchers who want to use data mining techniques and methods on Meteorology science. Part two provides an introduction to data mining and knowledge discovery in databases. General definitions, application areas of data mining and data mining techniques are briefly described. Part three presents detailed information on cluster analysis which is one of the methods of data mining. Definition of cluster analysis, data types used on cluster analysis and cluster analysis techniques are described. Theoretical background of all clustering algorithms and techniques are explained in this chapter. In Part four DBSCAN, OPTICS as representatives of density based clustering methods and K-means as representative of partitioning methods are all applied to the synthetic database and results are compared. At the end of the part four, traditional methods and new methods are compared. Differences and superiorities of all methods are explained. In part five, DBSCAN as representative of density based methods is applied to a real world database. Meteorological database is chosen for real world data. Behavior and performance of DBSCAN on real world data is observed. Design and architecture of database and results of DBSCAN application is described in this chapter. Density based clustering algorithms which is main subject of the thesis is new and developing branch of data mining. Density based clustering algorithms not only take into consideration the value of the data but also position of it. In future, algorithms of density based methods will be widely used on spatial databases where statistical methods not yield good results. Turkey is divided into geographical regions as known. During drawing regions, the political map of the Turkey is taken into consideration rather than climatic characteristics. This study will provide a new approach that uses density based clustering methods in data mining to determine the regions which have similar temperature regime. The results of the study could be used to divide Turkey into regions according to climatic characteristics | |
| dc.format.extent | XV,119y.;28sm. | |
| dc.identifier.uri | https://katalog.marmara.edu.tr/veriler/yordambt/cokluortam/4A/T0049122.pdf | |
| dc.identifier.uri | https://hdl.handle.net/11424/209992 | |
| dc.language.iso | tur | |
| dc.rights | info:eu-repo/semantics/openAccess | |
| dc.subject | Veri Madenciliği | |
| dc.subject | Veri Tabanı Yönetimi | |
| dc.title | Veri madenciliğinde kümeleme analizi yöntemi uygulaması | |
| dc.type | masterThesis | |
| dspace.entity.type | Publication |
