Publication:
Knowledge discovery in databases and data mining techniques: an applied study

dc.contributor.advisorFIRAT, S Ümit Oktay
dc.contributor.authorAltay, Tayip
dc.contributor.departmentMarmara Üniversitesi
dc.contributor.departmentFen Bilimleri Enstitüsü
dc.contributor.departmentIndustrial Engineering Programme
dc.date.accessioned2026-01-13T07:44:44Z
dc.date.issued2005
dc.description.abstractVERİ TABANLARINDA BİLGİ KEŞFİ VE VERİ MADENCİLİĞİ TEKNİKLERİ: BİR UYGULAMA Veri madenciliği, kendi başına değersiz olan çok miktardaki veriden, geçerli, yararlı ve bilinmeyen değerli bilginin elde edilmesi olarak tanımlanabilir. Veri madenciliğinin başlıca kullanım alanları olarak, bankacılık, sigortacılık, parekende ticaret, tıp, üretim, ve telekominikasyon sayılabilir. İşletmeler hedefledikleri karlılık oranlarına ulaşabilmek için, veri madenciliğini, karar vermelerine yardımcı bir araç olarak kullanırlar. Bu uygulamada veri madenciliği yazılımı olarak, SPPS Clementine ürününün 8.1 versiyonu kullanıldı. Veri madenciliği pazarının önemli oyuncularından olan SPSS, başarılı bir model oluşturmak için altı safha içeren CRISP-DM metodolojisini önermektedir. Bu safhalar sırasıyla: İşin anlaşılması, verinin anlaşılması, verinin hazırlanması, modellerin oluşturulması, sonuçların değerlendirilmesi ve modelin uygulamaya geçirilmesidir. Tezin başlangıç aşamasında, veri madenciliğinin, ilgili diğer teknolojiler olan veri ambarı, anında analitik işleme (OLAP), ve iş zekası ile bağlantıları araştırıldı. Sonra, veri madenciliği teknikleri, üç kategoriden oluşan bir sınıflandırmaya tabi tutuldu: Kümeleme teknikleri, birliktelik kuralları ve tahmin edici teknikler. Kümeleme modelleri başlıca üç kısımda incelenildi: K-ortalamalar kümelemesi, hiyerarşik kümeleme, ve Kohonen ağları. Birliktelik kurallarının en önemlileri olan Apriori ve GRI hakkında bilgi verildikten sonra, tahmin edici teknikler dört ana başlık altında incelenildi: Yapay sinir ağları, karar ağaçları, lojistik regresyon, ve seri keşfi analizi. Modellerin oluşturulması safhasına geçilmeden önce, uygulamanın dayandığı teorik temeller sunuldu. MLP sinir ağı metodunun temel iki unsuru olan, ileriye besleme ve geriye yayılım hesaplamaları sunulduktan sonra, CART tekniğine dayalı karar ağaçlarının oluşturulmasında en önemli etmenler olan, safsızlık ölçütleri ve ağaç budanması işlemi ayrıntılarıyla incelendi. Başarılı modeller oluşturabilmek için; daha anlamlı yeni alanların türetilmesi, ara dosyaların üretilmesi ve eksik ya da tutarsız verilerin temizlenmesi işlemleri yapıldı. Uygulamanın veri kümesi, sanal bir şirketin müşterilerinin, 2001 yılında düzenlenen bir kampanyaya yanıt verip vermediklerini sorgulayan bir anket çalışması sonucu elde edilmişti. Uygulamanın amacı, sözü geçen veri kümesini kullanarak, müşterilerin izleyen yıllarda düzenlenecek kampanyalara yanıt verip vermeyeceklerini belirlemekti. Oluşturulan iki farklı modelden, sinir ağları kullanılarak elde edilen model; gerçek değerlerle, tahmin edilen değerler karşılaştırıldığında daha iyi sonuçlar üretti. Ayrıca, Clementine tarafından sunulan Analysis nodu kullanılarak, oluşturulan test kümesinden yararlanılarak, ve son olarak da kazanç grafikleri çizilerek yapılan tüm karşılaştırmalar; üretilen MLP sinir ağı modelinin, CART karar ağacı modelinden daha iyi sonuçlar ürettiğini gösterdi. MLP modeli, müşterilerin kampanyaya ilgi düzeylerini yaklaşık %91 oranında doğru tahmin etmişti.
dc.description.abstractKNOWLEDGE DISCOVERY IN DATABASES AND DATA MINING TECHNIQUES: AN APPLIED STUDY Data mining can be defined as extraction of valid, useful, and unknown information from masses of data which is worthless by itself. Banking, insurance, retailing, medicine, manufacturing, and telephony may be mentioned as the primary sectors for data mining usage. Businesses use data mining to achieve their ultimate goals; making profit by making better decisions. SPPS Clementine Version 8.1 was used to construct the models. As a prominent vendor, SPPS proposes following the CRISP-DM methodology to build a successful data mining model. This methodology includes six stages: Business understanding, data understanding, data preparation, modeling, evaluation and deployment. In this study, as a first step, the relationships of data mining with related technologies such as data warehousing, OLAP, and business intelligence was investigated. Then, data mining techniques were classified into three broad categories: Clustering techniques, association techniques, and predictive techniques. K-means clustering, hierarchical clustering, and Kohonen networks are mentioned as the three main clustering techniques while Apriori, and GRI as the two principal association techniques. Then, four predictive techniques are examined: Neural networks, rule induction (decision trees), logistic regression, and sequence detection. Before the actual construction of models takes place, the underlying theoretical basis for the application was introduced. The key factors of an MLP neural network, i.e. backpropagation and feedforward calculations are investigated in details. Similarly, the key points of a CART decision tree; impurity measures and pruning process, were examined. The data was preprocessed to construct successful models: Some more meaningful new fields are derived, intermediate files are created, and the noisy data is cleaned. The application's data was coming from a campaign conducted in year 2001 by a hypothetical company performing in retailing sector. The aim was predicting whether a customer will respond for the following years' campaigns or not. After the two models were constructed, it had been seen that the neural network model gives better results when the predicted values are compared with the actual ones. Similarly, comparison of outcomes of the two models by using Analysis node, validation data and gains chart proved that the MLP model outperformed over the CART model by giving about 91% precision.
dc.format.extentX;88y.; 28sm.
dc.identifier.urihttps://katalog.marmara.edu.tr/veriler/yordambt/cokluortam/4F/T0051753.pdf
dc.identifier.urihttps://hdl.handle.net/11424/189829
dc.language.isoeng
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subjectBilgisayar programlaması
dc.subjectBilgisayar sistemlerinde veri
dc.subjectGenel Konular
dc.subjectVeri dosyaları ve tabanları
dc.subjectVeri Madenciliği
dc.subjectVeri Tabanları
dc.titleKnowledge discovery in databases and data mining techniques: an applied study
dc.typemasterThesis
dspace.entity.typePublication

Files

Collections