Publication:
Natural language processings in legal domain : classification of Turkish legal texts

dc.contributor.advisorGANİZ, Murat Can
dc.contributor.authorAkça, Onur
dc.contributor.departmentMarmara Üniversitesi
dc.contributor.departmentFen Bilimleri Enstitüsü
dc.contributor.departmentBilgisayar Mühendisliği Bilim Dalı
dc.contributor.departmentBilgisayar Mühendisliği Anabilim Dalı
dc.date.accessioned2026-01-13T11:54:22Z
dc.date.issued2023
dc.description.abstractYüksek mahkeme kararları gibi hukuki belgeler, teknik kelimelerin yoğun kullanımı nedeniyle karmaşıktır. Genellikle çok uzun ve karmaşık cümlelerden oluşurlar. Bu durum, dilin yüksek morfolojik ve eklemeli yapısı nedeniyle özellikle Türkçe hukuki belgelerde daha belirgindir. Bu zorluklar ve büyük kıyaslama veri kümelerinin eksikliği nedeniyle, Türkçe hukuk metinlerinde yapay zeka kullanımı üzerine sadece birkaç Doğal Dil İşleme (DDİ) çalışması yapılmıştır. Bu çalışmada, yaklaşık 10 GB’lık hukuk metinlerinden oluşan büyük bir denetimsiz veri kümesi kullandık ve benzersiz 56 suç etiketine sahip yaklaşık 90 bin yüksek mahkeme kararından oluşan bir denetimli veri kümesi derledik. Temel amacımız, etki alanı uyarlamasının, yani büyük bir dil modeli olan BERT’in etki alanına özgü bir derlem kullanılarak ince ayarının sınıflandırma performansını nasıl etkilediğini görmektir. Çeşitli sınıflandırıcılarla kapsamlı tek etiketli ve çok etiketli sınıflandırma deneyleri gerçekleştiriyoruz. Beklendiği gibi, BERT modelleri diğer sınıflandırıcılardan büyük bir farkla daha iyi performans gösteriyor. Daha da önemlisi, etki alanı uyarlamasının F1 puanında yaklaşık %2 artışa yol açtığını gösteriyoruz. Çalışmamız, hukuk alanında DDİ üzerine giderek artan araştırmalara katkıda bulunmakta ve alana özgü dil modellerinin potansiyelini vurgulamaktadır.
dc.description.abstractLegal documents such as higher court decisions are complicated due to the intensive use of technical vocabulary. They are usually composed of very long and complex sentences. This is especially visible in Turkish legal documents due to the highly morphological and agglutinative nature of the language. Due to these difficulties and the lack of large benchmark datasets, there have been only a few Natural Language Processing (NLP) studies on artificial intelligence use in Turkish legal texts. In this research, we utilize a large unsupervised dataset of about 10 GBs of legal texts and compile a supervised dataset of about 90 thousand higher court decisions having unique 56 crime labels. Our main aim is the see how domain adaptation, i.e. continued pre-training of BERT, a large language model, by employing a domain-specific corpus affects the classification performance. We conduct extensive multi-class and multilabel classification experiments with a range of classifiers. As expected, BERT models outperform other classifiers by a wide margin. More importantly, we show that domain adaptation leads to about a 2% increase in F1 score. Our study contributes to the expanding corpus of studies on NLP in the legal domain and highlights the potential of domain-specific language models. v
dc.format.extentXIII, 53 sayfa
dc.identifier.urihttps://katalog.marmara.edu.tr/veriler/yordambt/cokluortam/4A/6501a398342ff.pdf
dc.identifier.urihttps://hdl.handle.net/11424/293724
dc.language.isoeng
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subjectAlan Uyarlaması
dc.subjectBilgisayar mühendisliği
dc.subjectBüyük Dil Modelleri
dc.subjectComputer engineering
dc.subjectDoğal Dil İşleme
dc.subjectDomain Adaptation
dc.subjectHukuki Belge Sınıflandırma Natural Language Processing
dc.subjectLarge Language Models
dc.subjectLegal Document Classification
dc.subjectMetinSınıflandırma
dc.subjectText Classification
dc.titleNatural language processings in legal domain : classification of Turkish legal texts
dc.typemasterThesis
dspace.entity.typePublication

Files

Collections