Publication:
Information extraction from radiology reports

dc.contributor.advisorGANİZ, Murat Can
dc.contributor.authorAbdullahi, Abubakar Ahmad
dc.contributor.departmentMarmara Üniversitesi
dc.contributor.departmentFen Bilimleri Enstitüsü
dc.contributor.departmentBilgisayar Mühendisliği Anabilim Dalı
dc.date.accessioned2026-01-13T10:26:09Z
dc.date.issued2024
dc.description.abstractBu araştırmanın temel amacı Türk radyoloji raporlarından bilgi çıkarmanın doğruluğunu ve verimliliğini arttırmaktır. Bu hedefe yönelik olarak çalışma, adlandırılmış varlık tanıma için bir derin öğrenme çerçevesi geliştirmeyi ve değerlendirmeyi amaçlamaktadır. Araştırma ekibimizdeki radyologlar tarafından oluşturulan ve etiketlenen 1056 Türk radyoloji raporundan oluşan sentetik bir veri seti kullandık. Gizlilik endişeleri nedeniyle gerçek hasta verileri kullanılamadı. Ancak sentetik veriler, yapı ve içerik bakımından gerçek raporları yakından taklit ediyor. Deneyler için dört aşamalı DYGIE++ modelini kullandık. İlk olarak dört BERT modelini kullanarak token kodlamayı gerçekleştiriyoruz: BERTurk, BioBERTurk, PubMedBert ve XLM-RoBERTa. İkinci olarak, Türkçedeki bir cümlenin kelime sayısını dikkate alarak uyarlamalı kapsam sayımına geçiyoruz. Üçüncüsü, yayılma grafiği yayılımı, çekirdek referans çözünürlüğü için çok önemli olan çok yönlü bir grafik oluşturur. Son olarak, adlandırılmış varlığı sınıflandırmak için iki katmanlı ileri beslemeli bir sinir ağı kullanıyoruz. Etiketli veri kümesi üzerinde gerçekleştirilen deneyler, yaklaşımın etkinliğini göstermektedir. Çalışma, adı geçen varlık tanıma görevi için 80,1 F1 puanına ulaştı; BioBERTurk modelinin, denenen dört BERT modeli arasında en etkili model olduğu kanıtlandı. BioBERTurk, Türkçe Vikipedi, radyoloji raporları ve biyomedikal metinler konusunda önceden eğitilmiştir. Farklı veri kümesi etiketlerinin modelin performansını nasıl etkilediğini gösteriyoruz. Sonuçlar, her etiket için kesinlik, geri çağırma ve F1 puanlarının ayrıntılı bir analizini sağlayarak, modelin Türk radyoloji raporlarının karmaşıklıklarını ele alma yeteneğini göstermektedir. Ek olarak, çalışma bulgularını diğer düşük kaynaklı dillerdeki ilgili çalışmalarla karşılaştırmaktadır.
dc.description.abstractThe primary objective of this research is to enhance the accuracy and efficiency of information extraction from Turkish radiology reports. In addressing this objective, the study aims to develop and evaluate a deep-learning framework for named entity recognition. We used a synthetic dataset of 1056 Turkish radiology reports created and labeled by the radiologists in our research team. Due to privacy concerns, actual patient data could not be used. However, the synthetic data closely mimics genuine reports in structure and content. We employed the four-stage DYGIE++ model for the experiments. Firstly, we perform token encoding using four BERT models: BERTurk, BioBERTurk, PubMedBert, and XLM-RoBERTa. Secondly, we introduce adaptive span enumeration, considering the word count of a sentence in Turkish. Thirdly, span graph propagation generates a multidirectional graph crucial for coreference resolution. Lastly, we use a two-layered feed-forward neural network to classify the named entity. Experiments conducted on the labeled dataset showcase the approach's effectiveness. The study achieves an F1 score of 80.1 for the named entity recognition task, with the BioBERTurk model proving to be the most effective among the four experimented BERT models. BioBERTurk is pre-trained on Turkish Wikipedia, radiology reports, and biomedical texts. We show how different dataset labels affect the model's performance. The results demonstrate the model's ability to handle the intricacies of Turkish radiology reports, providing a detailed analysis of precision, recall, and F1 scores for each label. Additionally, the study compares its findings with related work in other low-resource languages.
dc.format.extentVIII, 56 sayfa : grafik, tablo
dc.identifier.urihttps://katalog.marmara.edu.tr/veriler/yordambt/cokluortam/1D/65a9126c2be49.pdf
dc.identifier.urihttps://hdl.handle.net/11424/296253
dc.language.isoeng
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subjectbert
dc.subjectbilgisayarlı tomografi
dc.subjectBilgisayarlı Tomografi, X-Ray
dc.subjectcomputed tomography
dc.subjectgöğüs kafesi named entity recognition
dc.subjectisimli varlık tanıma
dc.subjectRadiology
dc.subjectradiology reports
dc.subjectRadyoloji
dc.subjectradyoloji raporları
dc.subjectthorax
dc.subjectTomography, X-Ray Computed
dc.subjectturkish
dc.subjecttürkçe
dc.titleInformation extraction from radiology reports
dc.titleRadyoloji raporlarından bilgi Çıkarma
dc.typemasterThesis
dspace.entity.typePublication

Files

Collections