Publication:
Named entity recognition for e-commerce search queries in Turkish

dc.contributor.advisorAĞAOĞLU, Mustafa
dc.contributor.authorSaraçlar, Beyzanur
dc.contributor.departmentMarmara Üniversitesi
dc.contributor.departmentFen Bilimleri Enstitüsü
dc.contributor.departmentVeri Mühendisliği Bilim Dalı
dc.contributor.departmentBilgisayar Mühendisliği Anabilim Dalı
dc.date.accessioned2026-01-13T09:53:03Z
dc.date.issued2024
dc.description.abstractE-ticaretin gelişmesi, çevrimiçi işlemlerin sayısında hızlı bir artışa yol açarak, arama motorlarını tüketicilerin ürün ve hizmetleri bulmasında önemli bir araç haline getirdi. Adlandırılmış Varlık Tanıma'nın (NER) kullanıcı sorgularına uygulanması, e-ticaret platformlarının ürün keşfi ve kullanıcı deneyimini geliştirmek için ağırlıklı olarak kullanıcı arama sorgularına dayanması nedeniyle özellikle önemli hale gelmektedir. Bu araştırma, Türkçe dilinde e-ticaret arama sorgularına NER yönteminin uygulanmasına daklanmaktadır. Bu amaçla Türkçe dilinde açıklamalı bir e-ticaret arama sorgusu veri kümesi oluşturduk. Çalışmada ön eğitimli modellere ince ayar yaparak varlık tanımada yüksek performans elde etmek için kelime yerleştirme ve dönüştürücü modeller kullanılmıştır. Önceden eğitilmiş modeller, eğitim aşamalarında devasa derlemler üzerinde kodlanan dil bilgisinden yararlanarak dilin yapısı ve bağlamsal özellikleri sunması açısından önemli bir avantaj sunar. Bu yaklaşım, NER sisteminin, alana özgü kapsamlı eğitim verileri gerektirmeden, e-ticaret Türkçe arama sorgularına özgü bağlamsal ve dilsel özellikleri kavramasını sağlar. Sonuçlara göre tüm Transformers tabanlı modeller, tüm ölçümlerde temel modellerden daha iyi performans gösteriyor ve bu da büyük miktarda veriyle ön eğitimin üstün performansını gösteriyor. Bireysel transformatör modelleri arasında ELECTRA %91,97 ve %84,27 ile sırasıyla en yüksek wegihted ve ortalama macro F1-score’une elde etmiştir. Öte yandan ön eğitimli BERT word ebedding amacıyla Bi-LSTM+CRF modeli ile kombinasyonu, tüm modeller arasında %92,49 ve %84,34 ile sırasıyla en yüksek wegihted ve ortalama macro F1-score’une elde etmiştir. Ayrıca yapılan deneyler göstermektedir ki kaynakların kısıtlı olduğu ortamlar için DistilBERT ve ConvBERT, performans ve verimlilik arasında dengeli bir uzlaşma sunabilirken, maksimum performans gerektiren görevlerde, daha yüksek kaynak gereksinimlerine rağmen BERT+Bi-LSTM+CRF ve ELECTRA tercih edilebilir. Buna ilaveten BERT modelinin tek başına performans ve verimlilik arasında iyi bir denge kurduğu gözlemlenmiştir.
dc.description.abstractThe progress in e-commerce has led to a rapid rise in online transactions, making search engines an essential tool for consumers searching for products and services. The application of Named Entity Recognition (NER) to user queries has become particularly important for e-commerce platforms, as they heavily rely on user search queries to enhance product discovery and user experience. This research focuses on the application of NER methods to e-commerce search queries in the Turkish language. To this end, we have created an annotated dataset of e-commerce search queries in Turkish. In the study, word embeddings and transformer models were used to achieve high performance in entity recognition by fine-tuning pre-trained models. The use of pre-trained models offers a substantial advantage through the utilization of language structure and contextual features encoded in massive corpora during training stages. This approach enables the NER system to grasp the contextual and linguistic characteristics specific to Turkish e-commerce search queries without requiring extensive domain-specific training data. According to the results, all transformer-based models outperform baseline models across all metrics, demonstrating the superior performance of pre-training with large amounts of data. Among individual transformer models, ELECTRA achieved the highest weighted and macro avg. F1-scores with 91.97% and 84.27%, respectively. However, the combination of the pre-trained BERT model with the Bi-LSTM+CRF model for word embeddings achieved the highest weighted and macro avg. F1-scores among all models, with 92.49% and 84.34%, respectively. Additionally, experiments indicate that in resource-constrained environments, DistilBERT and ConvBERT offer a balanced trade-off between performance and efficiency, while for tasks requiring maximum performance, BERT+Bi-LSTM+CRF and ELECTRA may be preferred despite their higher resource requirements. Furthermore, BERT alone was observed to strike a good balance between performance and efficiency.
dc.format.extentVI, 48 sayfa : şekil
dc.identifier.urihttps://katalog.marmara.edu.tr/veriler/yordambt/cokluortam/2E/6704a92d7b3e2.pdf
dc.identifier.urihttps://hdl.handle.net/11424/298368
dc.language.isoeng
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subjectadlandırılmış varlık tanıma
dc.subjectData mining
dc.subjectDoğal dil işleme (DDİ)
dc.subjecte-commerce search queries
dc.subjecte-ticaret arama sorguları
dc.subjectElectronic commerce
dc.subjectElektronik ticaret
dc.subjectnamed entity recognition (NER)
dc.subjectNatural language processing (NLP)
dc.subjecttransformatörler
dc.subjecttransformers-based models
dc.subjectVeri madenciliği
dc.titleNamed entity recognition for e-commerce search queries in Turkish
dc.titleTürkçe e-ticaret arama sorguları için adlandırılmış varlık tanıma
dc.typemasterThesis
dspace.entity.typePublication

Files

Collections