Publication:
Veri madenciliği teknikleri ile istenmeyen türkçe e-postaların önlenmesi üzerine bir uygulama

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Research Projects

Organizational Units

Journal Issue

Abstract

İstenmeyen e-postalara maruz kalmak işletmelerin iş süreçlerinde aksamalara, zaman kayıplarına ve hatta maddi kayıplarına sebep olduğundan günümüzün önemli sorunlarından biri olarak görülmektedir. İstenmeyen e-postaların engellenmesi için öncelikle tespit edilmeleri gerekmektedir. Bu çalışmada, gelen e-postaların sınıflandırılması ve istenmeyen Türkçe e-postaların tespiti için Naive Bayes algoritmaları (iki terimli ve çok terimli) ve Destek Vektör Makinesi algoritmaları (doğrusal ve RBF çekirdek fonksiyonlu) kullanılmıştır. Çalışmada, öğrenme kümesinin Türkçede kullanılan etkisiz kelimelerden arındırılması ve arındırılmaması durumunda TF-IDF yöntemi ile oluşturulan farklı boyutlardaki özellik vektörlerinin sınıflandırma başarısına etkisi 72 farklı model oluşturularak incelenmiştir. Öğrenme kümesinden etkisiz kelimelerin arındırılmaması durumunda oluşturulan modellerin çoğunlukla daha yüksek başarı ile sınıflandırma işlemini gerçekleştirdiği sonucuna ulaşılmıştır. En yüksek başarıyı elde eden sınıflandırma algoritmasının çok terimli naive bayes algoritması olduğu gözlemlenmiştir.
Nowadays, spam (Junk) mails might be considered as an important issue since they causes disruptions of business processes, a waste of time and also financial losses. The first step to prevent spam mails have to be detecting them. In this study, Naïve Bayes (Bernoulli and Multinomial) and Support Vector Machine (Linear and RBF Kernel Functions) algorithms are applied to a data set in order to classify incoming mails and prevent unwanted ones. Besides, in 72 different models, it is examined how different size TF-IDF feature vectors affect the accuracy of classification in learning data set with or without stop-words used in Turkish. In case of not removed stop-words used in Turkish success of classification in learning data has been observed to increase. In this study using Multinomial Naive Bayes classification algorithm achieved the best result.

Description

Citation

Collections

Endorsement

Review

Supplemented By

Referenced By