Topluluk sınıflandırma yöntemleri ve PCA kullanarak zararlı url tespiti

ALTIKARDEŞ, ZEHRA AYSUN; DOĞAN, BUKET

Publication:
Topluluk sınıflandırma yöntemleri ve PCA kullanarak zararlı url tespiti

dc.contributor.author	ALTIKARDEŞ, ZEHRA AYSUN
dc.contributor.author	DOĞAN, BUKET
dc.contributor.authors	Köksal K., Doğan B., Altıkardeş Z. A.
dc.date.accessioned	2022-12-27T08:30:34Z
dc.date.available	2022-12-27T08:30:34Z
dc.date.issued	2021-12-01
dc.description.abstract	Teknolojinin gelişmesi ve internet kullanıcı sayısındaki artışla orantılı olarak siber suçlarda da artış gözlemlenmiştir. Birçok farklı siber saldırı tekniği bulunmaktadır. Bu saldırı tekniklerinden biri olan kötü amaçlı web siteleri, siber saldırılar ve dolandırıcılık olaylarında önemli rol oynamaktadır. İnternette masum görünen bir bağlantıya tıklamak veya e-posta ve mesaj yoluyla gönderilen bir web sayfasını ziyaret etmek arka planda kimlik avı kampanyalarının başlatılmasına, kötü amaçlı yazılımların, casus yazılımların, fidye yazılımların indirilmesine ve ciddi parasal kayıplar oluşmasına yol açar. Dolayısıyla bu tehditlerin etkin bir şekilde tespit edilmesi ve önlenmesi bireyler, kurumlar ve hükümetler için oldukça önemli bir konu haline gelmiştir. Kara listeye dayalı yöntemler, kötü amaçlı URL\"leri tanımlamak için kullanılan standart yöntemlerden biridir. Ancak kara listeler hiçbir zaman kapsamlı değildir ve yeni oluşturulan URL\"leri algılama yeteneğinden yoksundur. Kara listeye dayalı yöntemlerin mevcut ihtiyacı ve eksiklikleri de göz önünde bulundurularak bu çalışmada toplulukla öğrenme yöntemleri kullanılarak bir sınıflandırma yaklaşımı önerilmiştir. Çalışmada iyi huylu ve kötü huylu URL’lerden elde edilmiş 79 sözcüksel özellik içeren Kanada Siber Güvenlik Enstitüsü\"nün URL veriseti (ISCX-URL-2016) üzerinde çalışılmıştır. Verisetinde benign, spam, phishing, malware ve defacement olmak üzere beş farklı URL türü bulunmaktadır. Toplam 7781 iyi huylu ve 28.917 tane zararlı URL kaydı üzerinde zararlı, zararsız etiketleri kullanılarak ikili sınıflandırma işlemi ve beş farklı etiket bilgisi kullanılarak çoklu sınıflandırma işlemi gerçekleştirilmiştir. Makine öğrenmesi yöntemlerinden Rastgele Orman algoritması uygulanan yöntemin başarısının sınanması için 10-katlamalı çapraz doğrulama (10-fold cross validation) ile birlikte kullanılmıştır ve 10 temel bileşen kullanılarak ikili sınıflandırma problemi için ortalama %99.42, çoklu sınıflandırma problemi için ortalama %95.68 doğruluk değeri elde edilmiştir. Böylece her gün yeni web sitelerinin katıldığı bu dinamik internet ağını kötü niyetli tasarlanmış web sitelerinden korumaya yönelik yüksek başarım oranına sahip bir model önerisi sunulmuştur.
dc.description.abstract	In parallel with the development of technology and the increase in the number of internet users, an increase in cybercrime has been observed. There are many different cyberattack techniques. Malicious websites, one of these attack techniques, play an important role in cyberattacks and fraud events. Clicking on an innocent-looking link on the Internet or visiting a web page sent via email or text will result in phishing campaigns being launched in the background, downloading malware, spyware, ransomware, and serious monetary losses. Therefore, effective detection and prevention of these threats has become a very important issue for individuals, institutions and governments. Blacklist-based methods are one of the standard methods used to identify malicious URLs. However, blacklists are never comprehensive and lack the ability to detect newly created URLs. Considering the current needs and deficiencies of blacklist-based methods, a machine learning based classification approach was used in this study to combat malicious URLs. In the study, the URL data set of the Canadian Cyber Security Institute (ISCX-URL-2016) was studied, which contains 79 lexical features obtained from benign and malignant URLs. There are five different URL types in the dataset: benign, spam, phishing, malware and defacement. A binary classification process using harmless, malicious labels and a multi-classification process using five different labels information was performed on a total of 7781 benign, harmless and 28,917 malicious URL records. Random Forest algorithm, one of the machine learning methods, used together with 10-fold cross validation to validate the success of the applied method, and an average accuracy value of 99.42% for the binary classification problem and 95.68% for the multiple classification problem was obtained. Thus, a model proposal with a high-performance rate is presented to protect this dynamic internet network, where new websites are added every day, from maliciously designed websites.
dc.identifier.citation	Köksal K., Doğan B., Altıkardeş Z. A. , "Topluluk Sınıflandırma Yöntemleri ve PCA Kullanarak Zararlı Url Tespiti", Veri Bilimi, cilt.4, sa.3, ss.113-122, 2021
dc.identifier.endpage	122
dc.identifier.issue	3
dc.identifier.startpage	113
dc.identifier.uri	https://dergipark.org.tr/en/download/article-file/1862117
dc.identifier.uri	https://hdl.handle.net/11424/284200
dc.identifier.volume	4
dc.language.iso	tur
dc.relation.ispartof	Veri Bilimi
dc.rights	info:eu-repo/semantics/openAccess
dc.subject	Bilgisayar Bilimleri
dc.subject	Yapay Zeka, Bilgisayarda Öğrenme ve Örüntü Tanıma
dc.subject	Mühendislik ve Teknoloji
dc.subject	Computer Sciences
dc.subject	Artificial Intelligence, Computer Learning and Pattern Recognition
dc.subject	Engineering and Technology
dc.subject	Mühendislik, Bilişim ve Teknoloji (ENG)
dc.subject	Bilgisayar Bilimi
dc.subject	BİLGİSAYAR BİLİMİ, YAPAY ZEKA
dc.subject	Engineering, Computing & Technology (ENG)
dc.subject	COMPUTER SCIENCE
dc.subject	COMPUTER SCIENCE, ARTIFICIAL INTELLIGENCE
dc.subject	Bilgisayarla Görme ve Örüntü Tanıma
dc.subject	Bilgisayar Bilimi Uygulamaları
dc.subject	Yapay Zeka
dc.subject	Bilgisayar Bilimi (çeşitli)
dc.subject	Genel Bilgisayar Bilimi
dc.subject	Fizik Bilimleri
dc.subject	Computer Vision and Pattern Recognition
dc.subject	Computer Science Applications
dc.subject	Artificial Intelligence
dc.subject	Computer Science (miscellaneous)
dc.subject	General Computer Science
dc.subject	Physical Sciences
dc.subject	Kötü niyetli URL
dc.subject	siber güvenlik
dc.subject	makine öğrenmesi
dc.subject	sıradışı veri
dc.subject	rastgele orman
dc.subject	Malicious URL
dc.subject	cyber security
dc.subject	machine learning
dc.subject	outlier data
dc.subject	random forest
dc.title	Topluluk sınıflandırma yöntemleri ve PCA kullanarak zararlı url tespiti
dc.type	article
dspace.entity.type	Publication
local.avesis.id	eeaf4d6c-8c37-448e-a648-65915cc3fb29
relation.isAuthorOfPublication	2bf726a8-fa64-4e61-be0f-7471ffaa4fba
relation.isAuthorOfPublication	a9bc5daa-70d8-426a-a198-3e5753ae7958
relation.isAuthorOfPublication.latestForDiscovery	2bf726a8-fa64-4e61-be0f-7471ffaa4fba

Files

Original bundle

Now showing 1 - 1 of 1

Name:: 13.pdf
Size:: 979.64 KB
Format:: Adobe Portable Document Format

Download

Collections

Research Outputs

Publication: Topluluk sınıflandırma yöntemleri ve PCA kullanarak zararlı url tespiti

Files

Original bundle

Collections

Publication:
Topluluk sınıflandırma yöntemleri ve PCA kullanarak zararlı url tespiti