Named entity recognition for e-commerce search queries in Turkish

Saraçlar, Beyzanur

Publication:
Named entity recognition for e-commerce search queries in Turkish

dc.contributor.advisor	AĞAOĞLU, Mustafa
dc.contributor.author	Saraçlar, Beyzanur
dc.contributor.department	Marmara Üniversitesi
dc.contributor.department	Fen Bilimleri Enstitüsü
dc.contributor.department	Veri Mühendisliği Bilim Dalı
dc.contributor.department	Bilgisayar Mühendisliği Anabilim Dalı
dc.date.accessioned	2026-01-13T09:53:03Z
dc.date.issued	2024
dc.description.abstract	E-ticaretin gelişmesi, çevrimiçi işlemlerin sayısında hızlı bir artışa yol açarak, arama motorlarını tüketicilerin ürün ve hizmetleri bulmasında önemli bir araç haline getirdi. Adlandırılmış Varlık Tanıma'nın (NER) kullanıcı sorgularına uygulanması, e-ticaret platformlarının ürün keşfi ve kullanıcı deneyimini geliştirmek için ağırlıklı olarak kullanıcı arama sorgularına dayanması nedeniyle özellikle önemli hale gelmektedir. Bu araştırma, Türkçe dilinde e-ticaret arama sorgularına NER yönteminin uygulanmasına daklanmaktadır. Bu amaçla Türkçe dilinde açıklamalı bir e-ticaret arama sorgusu veri kümesi oluşturduk. Çalışmada ön eğitimli modellere ince ayar yaparak varlık tanımada yüksek performans elde etmek için kelime yerleştirme ve dönüştürücü modeller kullanılmıştır. Önceden eğitilmiş modeller, eğitim aşamalarında devasa derlemler üzerinde kodlanan dil bilgisinden yararlanarak dilin yapısı ve bağlamsal özellikleri sunması açısından önemli bir avantaj sunar. Bu yaklaşım, NER sisteminin, alana özgü kapsamlı eğitim verileri gerektirmeden, e-ticaret Türkçe arama sorgularına özgü bağlamsal ve dilsel özellikleri kavramasını sağlar. Sonuçlara göre tüm Transformers tabanlı modeller, tüm ölçümlerde temel modellerden daha iyi performans gösteriyor ve bu da büyük miktarda veriyle ön eğitimin üstün performansını gösteriyor. Bireysel transformatör modelleri arasında ELECTRA %91,97 ve %84,27 ile sırasıyla en yüksek wegihted ve ortalama macro F1-score’une elde etmiştir. Öte yandan ön eğitimli BERT word ebedding amacıyla Bi-LSTM+CRF modeli ile kombinasyonu, tüm modeller arasında %92,49 ve %84,34 ile sırasıyla en yüksek wegihted ve ortalama macro F1-score’une elde etmiştir. Ayrıca yapılan deneyler göstermektedir ki kaynakların kısıtlı olduğu ortamlar için DistilBERT ve ConvBERT, performans ve verimlilik arasında dengeli bir uzlaşma sunabilirken, maksimum performans gerektiren görevlerde, daha yüksek kaynak gereksinimlerine rağmen BERT+Bi-LSTM+CRF ve ELECTRA tercih edilebilir. Buna ilaveten BERT modelinin tek başına performans ve verimlilik arasında iyi bir denge kurduğu gözlemlenmiştir.
dc.description.abstract	The progress in e-commerce has led to a rapid rise in online transactions, making search engines an essential tool for consumers searching for products and services. The application of Named Entity Recognition (NER) to user queries has become particularly important for e-commerce platforms, as they heavily rely on user search queries to enhance product discovery and user experience. This research focuses on the application of NER methods to e-commerce search queries in the Turkish language. To this end, we have created an annotated dataset of e-commerce search queries in Turkish. In the study, word embeddings and transformer models were used to achieve high performance in entity recognition by fine-tuning pre-trained models. The use of pre-trained models offers a substantial advantage through the utilization of language structure and contextual features encoded in massive corpora during training stages. This approach enables the NER system to grasp the contextual and linguistic characteristics specific to Turkish e-commerce search queries without requiring extensive domain-specific training data. According to the results, all transformer-based models outperform baseline models across all metrics, demonstrating the superior performance of pre-training with large amounts of data. Among individual transformer models, ELECTRA achieved the highest weighted and macro avg. F1-scores with 91.97% and 84.27%, respectively. However, the combination of the pre-trained BERT model with the Bi-LSTM+CRF model for word embeddings achieved the highest weighted and macro avg. F1-scores among all models, with 92.49% and 84.34%, respectively. Additionally, experiments indicate that in resource-constrained environments, DistilBERT and ConvBERT offer a balanced trade-off between performance and efficiency, while for tasks requiring maximum performance, BERT+Bi-LSTM+CRF and ELECTRA may be preferred despite their higher resource requirements. Furthermore, BERT alone was observed to strike a good balance between performance and efficiency.
dc.format.extent	VI, 48 sayfa : şekil
dc.identifier.uri	https://katalog.marmara.edu.tr/veriler/yordambt/cokluortam/2E/6704a92d7b3e2.pdf
dc.identifier.uri	https://hdl.handle.net/11424/298368
dc.language.iso	eng
dc.rights	info:eu-repo/semantics/openAccess
dc.subject	adlandırılmış varlık tanıma
dc.subject	Data mining
dc.subject	Doğal dil işleme (DDİ)
dc.subject	e-commerce search queries
dc.subject	e-ticaret arama sorguları
dc.subject	Electronic commerce
dc.subject	Elektronik ticaret
dc.subject	named entity recognition (NER)
dc.subject	Natural language processing (NLP)
dc.subject	transformatörler
dc.subject	transformers-based models
dc.subject	Veri madenciliği
dc.title	Named entity recognition for e-commerce search queries in Turkish
dc.title	Türkçe e-ticaret arama sorguları için adlandırılmış varlık tanıma
dc.type	masterThesis
dspace.entity.type	Publication

Collections

Tezler

Publication: Named entity recognition for e-commerce search queries in Turkish

Files

Collections

Publication:
Named entity recognition for e-commerce search queries in Turkish