Publication: Makine öğrenmesi destekli hile tespiti ve bir uygulama
Abstract
Çalışmada, işletmelerde sıklıkla karşılaşılan varlıkları kötüye kullanma hile türünün en yaygın grubu olan hileli ödemelerin verdiği zararı azaltmak için makine öğrenmesi yöntemlerinin kullanıldığı bir uygulama ile hile tespit sürecine katkının sağlanması amaçlanmıştır. Bu amaçla, elde edilmek istenen çıktılar için Python’da bir uygulama sistemi tasarlanmıştır. Çalışmada, kamuya açık finansal ve finansal olmayanlar bilgileri içeren 594.643 adetlik yapay veri setinden yararlanılmıştır. Veri seti kullanılarak Karar Ağacı, Destek Vektör Makinesi, Lojistik Regresyon ve Yapay Sinir Ağları tekniklerinin algoritmaları veri setinin %69’u ile önce eğitilmiş, sonra veri setinin %31’i ile test edilmiştir. Tekniklerin oluşturduğu değerler karşılaştırıldığında karar ağacı tekniği, %99,42 doğruluk, %75 f1-skor, %74 kesinlik ve %76 duyarlılık değerleriyle en anlamlı metrik değerlerini sağlayan ve bu süreçleri en hızlı (1,32sn) gerçekleştiren yöntem olmuştur. Bu doğrultuda karar ağacı tekniğiyle etiketsiz bir veri seti üzerinde modelin tahmin yapması sağlanmıştır. Uygulama sistemiyle yapılan tahminlere göre, hile ihtimali olan kayıtlar çapraz sorgulamalarla analiz edilmiştir. Çalışma, karar ağacı tekniğinin tahmin aşamasında ürettiği hatalı sınıf etiketlerinin azaltılması açısından iyileştirmeye açık olup, diğer tekniklerle karşılaştırılarak da geliştirilebilir.
In this study, an application that uses machine learning methods to reduce the damage caused by fraudulent disbursements, the most common type of asset misuse fraud in businesses, was aimed to be used in the fraud detection process. To achieve this aim, a system application has been designed in Python for the outputs to be obtained. In the study, 594,643 artificial datasets containing public financial and non-financial information were used. The algorithms of Decision Tree, Support Vector Machine, Logistic Regression and Artificial Neural Networks were first trained with 69% of the dataset, then tested with 31% of the dataset. When the values generated by the techniques were compared, the decision tree technique was the most meaningful method with 99.42% accuracy, 75% f1-score, 74% precision and 76% sensitivity, and the fastest (1.32 seconds) method to perform these processes. In this direction, it was possible to predict the model on an unlabeled data set with the decision tree technique. The records with a likelihood of fraud were analyzed with cross-queries according to the predictions made with the application system. The study is open to improvement in terms of reducing the erroneous class labels produced in the prediction phase of the decision tree technique, and can also be improved by comparing with other techniques.
In this study, an application that uses machine learning methods to reduce the damage caused by fraudulent disbursements, the most common type of asset misuse fraud in businesses, was aimed to be used in the fraud detection process. To achieve this aim, a system application has been designed in Python for the outputs to be obtained. In the study, 594,643 artificial datasets containing public financial and non-financial information were used. The algorithms of Decision Tree, Support Vector Machine, Logistic Regression and Artificial Neural Networks were first trained with 69% of the dataset, then tested with 31% of the dataset. When the values generated by the techniques were compared, the decision tree technique was the most meaningful method with 99.42% accuracy, 75% f1-score, 74% precision and 76% sensitivity, and the fastest (1.32 seconds) method to perform these processes. In this direction, it was possible to predict the model on an unlabeled data set with the decision tree technique. The records with a likelihood of fraud were analyzed with cross-queries according to the predictions made with the application system. The study is open to improvement in terms of reducing the erroneous class labels produced in the prediction phase of the decision tree technique, and can also be improved by comparing with other techniques.
