Natural language processings in legal domain : classification of Turkish legal texts

Akça, Onur

Publication:
Natural language processings in legal domain : classification of Turkish legal texts

dc.contributor.advisor	GANİZ, Murat Can
dc.contributor.author	Akça, Onur
dc.contributor.department	Marmara Üniversitesi
dc.contributor.department	Fen Bilimleri Enstitüsü
dc.contributor.department	Bilgisayar Mühendisliği Bilim Dalı
dc.contributor.department	Bilgisayar Mühendisliği Anabilim Dalı
dc.date.accessioned	2026-01-13T11:54:22Z
dc.date.issued	2023
dc.description.abstract	Yüksek mahkeme kararları gibi hukuki belgeler, teknik kelimelerin yoğun kullanımı nedeniyle karmaşıktır. Genellikle çok uzun ve karmaşık cümlelerden oluşurlar. Bu durum, dilin yüksek morfolojik ve eklemeli yapısı nedeniyle özellikle Türkçe hukuki belgelerde daha belirgindir. Bu zorluklar ve büyük kıyaslama veri kümelerinin eksikliği nedeniyle, Türkçe hukuk metinlerinde yapay zeka kullanımı üzerine sadece birkaç Doğal Dil İşleme (DDİ) çalışması yapılmıştır. Bu çalışmada, yaklaşık 10 GB’lık hukuk metinlerinden oluşan büyük bir denetimsiz veri kümesi kullandık ve benzersiz 56 suç etiketine sahip yaklaşık 90 bin yüksek mahkeme kararından oluşan bir denetimli veri kümesi derledik. Temel amacımız, etki alanı uyarlamasının, yani büyük bir dil modeli olan BERT’in etki alanına özgü bir derlem kullanılarak ince ayarının sınıflandırma performansını nasıl etkilediğini görmektir. Çeşitli sınıflandırıcılarla kapsamlı tek etiketli ve çok etiketli sınıflandırma deneyleri gerçekleştiriyoruz. Beklendiği gibi, BERT modelleri diğer sınıflandırıcılardan büyük bir farkla daha iyi performans gösteriyor. Daha da önemlisi, etki alanı uyarlamasının F1 puanında yaklaşık %2 artışa yol açtığını gösteriyoruz. Çalışmamız, hukuk alanında DDİ üzerine giderek artan araştırmalara katkıda bulunmakta ve alana özgü dil modellerinin potansiyelini vurgulamaktadır.
dc.description.abstract	Legal documents such as higher court decisions are complicated due to the intensive use of technical vocabulary. They are usually composed of very long and complex sentences. This is especially visible in Turkish legal documents due to the highly morphological and agglutinative nature of the language. Due to these difficulties and the lack of large benchmark datasets, there have been only a few Natural Language Processing (NLP) studies on artificial intelligence use in Turkish legal texts. In this research, we utilize a large unsupervised dataset of about 10 GBs of legal texts and compile a supervised dataset of about 90 thousand higher court decisions having unique 56 crime labels. Our main aim is the see how domain adaptation, i.e. continued pre-training of BERT, a large language model, by employing a domain-specific corpus affects the classification performance. We conduct extensive multi-class and multilabel classification experiments with a range of classifiers. As expected, BERT models outperform other classifiers by a wide margin. More importantly, we show that domain adaptation leads to about a 2% increase in F1 score. Our study contributes to the expanding corpus of studies on NLP in the legal domain and highlights the potential of domain-specific language models. v
dc.format.extent	XIII, 53 sayfa
dc.identifier.uri	https://katalog.marmara.edu.tr/veriler/yordambt/cokluortam/4A/6501a398342ff.pdf
dc.identifier.uri	https://hdl.handle.net/11424/293724
dc.language.iso	eng
dc.rights	info:eu-repo/semantics/openAccess
dc.subject	Alan Uyarlaması
dc.subject	Bilgisayar mühendisliği
dc.subject	Büyük Dil Modelleri
dc.subject	Computer engineering
dc.subject	Doğal Dil İşleme
dc.subject	Domain Adaptation
dc.subject	Hukuki Belge Sınıflandırma Natural Language Processing
dc.subject	Large Language Models
dc.subject	Legal Document Classification
dc.subject	MetinSınıflandırma
dc.subject	Text Classification
dc.title	Natural language processings in legal domain : classification of Turkish legal texts
dc.type	masterThesis
dspace.entity.type	Publication

Collections

Tezler

Publication: Natural language processings in legal domain : classification of Turkish legal texts

Files

Collections

Publication:
Natural language processings in legal domain : classification of Turkish legal texts