Publication:
Türkçe metinlerde sorguya uygun kısımların token seviyesinde tespiti için geç etkileşimli füzyon modeli

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Research Projects

Organizational Units

Journal Issue

Abstract

Türkçe metinlerde sorguya uygun kısımların token seviyesinde tespiti için geç etkileşimli füzyon modeli Bu tez çalışmasında, Türkçe metinlerde kullanıcı sorgularına uygun olan kısım- ların otomatik olarak tespit edilmesi ve vurgulanması problemi ele alınmıştır. Çalış- manın temel amacı, az sayıda etiketli veri ile etkili bir token seviyesi sınıflandırma modeli geliştirerek, mevcut literatürdeki veri kıtlığı ve verimlilik sorunlarına çözüm sunmaktır. Geleneksel bilgi erişim sistemlerinin belge seviyesinde çalışmasının aksine, bu çalışma, metin içerisindeki token düzeyinde ayrıntılı bir analiz sunmaktadır. Bu yaklaşım, kullanıcı sorgularına tam olarak hangi ifadelerin karşılık geldiğini sapta- yarak daha hassas sonuçlar üretmeyi amaçlamaktadır. Türkçe gibi eklemeli dillerin morfolojik zenginliği, bu seviyedeki bir analizi özellikle zorlu kılmaktadır. Literatür incelemesi sonucunda, mevcut çalışmaların İngilizce metinler üzerinde yoğunlaştığı ve Türkçe için yeterli kaynak bulunmadığı tespit edilmiştir. Mevcut çö- zümler genellikle ya yüksek hesaplama maliyeti gerektiren cross-encoder mimarileri ya da düşük performanslı bi-encoder yaklaşımları kullanmaktadır. Önerilen yaklaşım, artiwise-ai/ modernbert-base-tr-uncased temel modeli üzerine Geç Etkileşimli Füzyon adı verilen hibrit bir mimari kullanmaktadır. Bu mimari iki aşamadan oluşur: İlk aşamada sorgu ve metin birbirinden bağımsız olarak kodlanır, ikinci aşamada özel füzyon katmanı ile bu temsiller arasında zengin etkile- şim kurulur. Bu yaklaşım, bi-encoder’ların verimliliğini korurken cross-encoder’ların yüksek performansını yakalamayı hedefler. Sınıf dengesizliği problemini çözmek için Focal Loss tabanlı eğitim stratejisi be- nimsenmiştir. Bu yaklaşım, pozitif ve negatif token’lar arasındaki dengesizliği gide- rerek modelin zorlu örnekleri öğrenmesini sağlar. Veri seti, internet üzerindeki çeşitli kaynaklardan derlenen 500 bin adet Türkçe metnin, bu tezde geliştirilen LLM-destekli yarı denetimli bir yaklaşımla etiketlen- mesiyle oluşturulmuştur. Bu süreç sonucunda, yaklaşık 2 milyon adet etiketli sorgu- metin çifti elde edilmiştir. Veri seti haber makaleleri, teknik blog yazıları, ürün yorumları ve forum yazıları gibi çeşitli kaynaklardan derlenmiştir. Model eğitimi, 2 adet NVIDIA H100 GPU üzerinde 10 epoch boyunca gerçekleş- tirilmiştir. Doğrulama seti (validation set) üzerindeki başarımın 2. epoch’ta tepe noktasına ulaştığı gözlemlenmiş ve nihai değerlendirmeler için bu en iyi kontrol noktası seçilmiştir. Eğitim sürecinde batch size 32, learning rate 2e-5 ve AdamW optimizer kullanılmıştır. Deneysel sonuçlar, önerilen modelin en iyi kontrol noktasında (epoch 2) ulaştığı 0.557 F1-skoru ile temel ‘Matching‘ (0.065) ve ‘Klasik Bi-Encoder‘ (0.481) modellerine göre belirgin bir üstünlük sağladığını göstermektedir. Ayrıca, modelin performansı, SOTA bir referans model olan ‘GLiNER‘’ın (0.580) performansına ol- dukça yakındır. Verimlilik açısından, önerilen model, mimari olarak kendisinden daha karmaşık olan GLiNER modeline kıyasla daha az parametre kullanırken, çıkarım hızı olarak da avantajlar sunmaktadır. Bu durum, modelin pratik uygulamalardaki kullanım potansiyelini artırmaktadır. Sonuç olarak, bu çalışma Türkçe metinlerde token seviyesi sorgu-metin eşleştirme için etkili bir hibrit mimari sunmaktadır. Model, verimlilik ve performans dengesi kurarak pratik uygulamalar için ölçeklenebilir bir çözüm sağlamaktadır.
Token-level detection of query-relevant sections in turkish texts using late-ınteraction fusion model This thesis addresses the problem of automatically detecting and highlighting query-relevant segments in Turkish texts. The main objective is to develop an effec- tive token-level classification model using zero-shot learning, addressing data scarcity and efficiency issues in current literature. Unlike traditional information access systems that operate at the document level, this study requires detailed analysis at the token level. This approach aims to deter- mine exactly which words respond to user queries, providing more precise results. For agglutinative languages like Turkish, such analyses present additional challenges due to morphological richness. Literature review revealed that existing studies focus primarily on English te- xts with insufficient resources for Turkish. Most existing solutions use either com- putationally expensive cross-encoder architectures or lower-performing bi-encoder approaches. The proposed approach utilizes a hybrid architecture called Late-Interaction Fusion built upon the artiwise-ai/ modernbert-base-tr-uncased base model. This architecture consists of two stages: first, queries and texts are encoded inde- pendently; second, rich interaction is established through a specialized fusion layer. This approach maintains bi-encoder efficiency while capturing cross-encoder perfor- mance. A Focal Loss-based training strategy addresses class imbalance problems by hel- ping the model focus on challenging examples and balancing positive and negative tokens. The dataset was created by labeling 500 thousand Turkish texts, compiled from various online sources, using a semi-supervised approach powered by Large Language Models (LLMs) developed in this thesis. This process resulted in approximately 2 million labeled query-text pairs. Data was compiled from news articles, technical blogs, product reviews, and forum posts. Model training was conducted on 2 NVIDIA H100 GPUs for 10 epochs. After training, the best checkpoint (epoch 2) was selected based on the highest validation F1, using a batch size of 32, a learning rate of 2e-5, and the AdamW optimizer. To fully analyze the model’s learning dynamics, the training process ran for 10 epochs. The validation performance peaked at epoch 2; therefore, all final evaluations report results from this best checkpoint. Experimental results show the proposed model, at its best checkpoint (epoch 2), achieved an F1-score of 0.557, significantly outperforming the ‘Matching‘ (0.065) and ‘Classic Bi-Encoder‘ (0.481) baselines. Furthermore, its performance is highly competitive with the SOTA reference model, ‘GLiNER‘ (0.580). In terms of efficiency, the proposed model uses fewer parameters and offers a faster inference speed compared to the more complex GLiNER architecture, high- lighting its potential for practical applications. In conclusion, this study presents an effective hybrid architecture for token-level query-text matching in Turkish texts. The model achieves a successful balance bet- ween efficiency and performance, providing a scalable solution for practical applica- tions.

Description

Citation

Collections

Endorsement

Review

Supplemented By

Referenced By