Publication:
Duplicate product record detection engine for e-commerce platforms

dc.contributor.advisorAYTEKİN, Tevfik
dc.contributor.authorAlbayrak, Osman Semih
dc.contributor.departmentMarmara Üniversitesi
dc.contributor.departmentFen Bilimleri Enstitüsü
dc.contributor.departmentBilgisayar Mühendisliği Anabilim Dalı
dc.date.accessioned2026-01-13T06:24:56Z
dc.date.issued2021
dc.description.abstractTemiz ve sektör standartlarını karşılayabilen bir ürün kataloğuna sahip olabilmek ve eldeki ürün kataloğunu sektör standartlarının altına düşmeden yaşatabilmek e-ticaret şirketlerinin temel uğraşlarından biridir. Binlerce ürün sağlayıcısı tarafından sisteme girilen yeni ürün bilgileri şirketleri zorlu bir problemle karşı karşıya bırakır: Mükerrer ürün kayıtları. Herhangi bir ürünü birbirinden farklı kelimelerle, farklı resimlerle ve bileşenlerle tanımlamak mümkün olduğundan, mükerrer ürün kayıtlarını tespit edebilmek üstesinden gelmesi zor bir görevdir. Bu çalışmada, bir e-ticaret firması olan Hepsiburada.com için özgün bir mükerrer ürün kaydı tespit motoru önerilmiştir. Motor, Hepsiburada.com’un gerçek verileri temel alınarak geliştirilmiştir. Ham veriden, eğitilebilir bir veri seti oluşturabilmek için çeşitli metin benzerliği algoritmaları, e-ticarete özel kurallandırılmış metin benzerliği metrikleri ve görsel benzerlik metrikleri kullanılmıştır. Metin benzerliği hesaplamaları için Jaccar benzerliği, TF-IDF kosinüs benzerliği ve edit uzaklığı gibi geleneksel metin benzerliği yöntemlerine başvurulmuştur. Görsel benzerlik hesaplamaları için bir Siyam (İkiz) Sinir Ağı eğitilmiştir. Herhangi iki ürünün mükerrer olup olmadığını tespit edebilmek için oluşturulan veri seti kullanılarak iki sınıflı sınıflandırma modelleri eğitilmiştir. Deneysel sonuçlar, önerilen motorun, Hepsiburada.com içerisindeki mükerrer ürün kayıtlarını geleneksel yöntemlerden daha başarılı şekilde tespit edebildiğini göstermiştir.
dc.description.abstractHaving a clean product catalog and keeping it complying with the standards of the industry is one of the essential concerns of e-commerce companies. Integrating the product data from multiple providers confronts the companies with a challenging issue: Duplicate product records. Since it is possible to describe a product with a variety of different words, images and attributes, detecting duplicate product records is a difficult task to overcome with. In this thesis, a novel duplicate record detection engine is proposed for an e-commerce company, Hepsiburada.com. The engine is developed based on a real-world data set. A number of different text similarity algorithms, domain-specific distance metrics, image similarity metrics are used to form a training data set. Traditional text similarity algorithms such as Jaccard similarity, TF-IDF cosine similarity and edit distance are used for text similarity calculations. A Siamese (Twin) Neural Network is trained and used for image similarity calculations. Two-class classification models are trained using the data set created to determine whether any two products are duplicated or not. The experimental results show that our engine is able to use product information for duplicate record detection and outperforms the accuracy of non-adaptive methodologies.
dc.format.extentVIII, 48 s.
dc.identifier.urihttps://katalog.marmara.edu.tr/veriler/yordambt/cokluortam/5D/6045bd5494ac3.pdf
dc.identifier.urihttps://hdl.handle.net/11424/216862
dc.language.isoeng
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subjectBilgisayar mühendisliği
dc.subjectClassification
dc.subjectComputer engineering
dc.subjectDeduplication
dc.subjectMetin Benzerliği
dc.subjectMükerrer Tespiti Text Similarity
dc.subjectSınıflandırma
dc.titleDuplicate product record detection engine for e-commerce platforms
dc.typemasterThesis
dspace.entity.typePublication

Files

Collections