Information extraction from radiology reports

Abdullahi, Abubakar Ahmad

Publication:
Information extraction from radiology reports

dc.contributor.advisor	GANİZ, Murat Can
dc.contributor.author	Abdullahi, Abubakar Ahmad
dc.contributor.department	Marmara Üniversitesi
dc.contributor.department	Fen Bilimleri Enstitüsü
dc.contributor.department	Bilgisayar Mühendisliği Anabilim Dalı
dc.date.accessioned	2026-01-13T10:26:09Z
dc.date.issued	2024
dc.description.abstract	Bu araştırmanın temel amacı Türk radyoloji raporlarından bilgi çıkarmanın doğruluğunu ve verimliliğini arttırmaktır. Bu hedefe yönelik olarak çalışma, adlandırılmış varlık tanıma için bir derin öğrenme çerçevesi geliştirmeyi ve değerlendirmeyi amaçlamaktadır. Araştırma ekibimizdeki radyologlar tarafından oluşturulan ve etiketlenen 1056 Türk radyoloji raporundan oluşan sentetik bir veri seti kullandık. Gizlilik endişeleri nedeniyle gerçek hasta verileri kullanılamadı. Ancak sentetik veriler, yapı ve içerik bakımından gerçek raporları yakından taklit ediyor. Deneyler için dört aşamalı DYGIE++ modelini kullandık. İlk olarak dört BERT modelini kullanarak token kodlamayı gerçekleştiriyoruz: BERTurk, BioBERTurk, PubMedBert ve XLM-RoBERTa. İkinci olarak, Türkçedeki bir cümlenin kelime sayısını dikkate alarak uyarlamalı kapsam sayımına geçiyoruz. Üçüncüsü, yayılma grafiği yayılımı, çekirdek referans çözünürlüğü için çok önemli olan çok yönlü bir grafik oluşturur. Son olarak, adlandırılmış varlığı sınıflandırmak için iki katmanlı ileri beslemeli bir sinir ağı kullanıyoruz. Etiketli veri kümesi üzerinde gerçekleştirilen deneyler, yaklaşımın etkinliğini göstermektedir. Çalışma, adı geçen varlık tanıma görevi için 80,1 F1 puanına ulaştı; BioBERTurk modelinin, denenen dört BERT modeli arasında en etkili model olduğu kanıtlandı. BioBERTurk, Türkçe Vikipedi, radyoloji raporları ve biyomedikal metinler konusunda önceden eğitilmiştir. Farklı veri kümesi etiketlerinin modelin performansını nasıl etkilediğini gösteriyoruz. Sonuçlar, her etiket için kesinlik, geri çağırma ve F1 puanlarının ayrıntılı bir analizini sağlayarak, modelin Türk radyoloji raporlarının karmaşıklıklarını ele alma yeteneğini göstermektedir. Ek olarak, çalışma bulgularını diğer düşük kaynaklı dillerdeki ilgili çalışmalarla karşılaştırmaktadır.
dc.description.abstract	The primary objective of this research is to enhance the accuracy and efficiency of information extraction from Turkish radiology reports. In addressing this objective, the study aims to develop and evaluate a deep-learning framework for named entity recognition. We used a synthetic dataset of 1056 Turkish radiology reports created and labeled by the radiologists in our research team. Due to privacy concerns, actual patient data could not be used. However, the synthetic data closely mimics genuine reports in structure and content. We employed the four-stage DYGIE++ model for the experiments. Firstly, we perform token encoding using four BERT models: BERTurk, BioBERTurk, PubMedBert, and XLM-RoBERTa. Secondly, we introduce adaptive span enumeration, considering the word count of a sentence in Turkish. Thirdly, span graph propagation generates a multidirectional graph crucial for coreference resolution. Lastly, we use a two-layered feed-forward neural network to classify the named entity. Experiments conducted on the labeled dataset showcase the approach's effectiveness. The study achieves an F1 score of 80.1 for the named entity recognition task, with the BioBERTurk model proving to be the most effective among the four experimented BERT models. BioBERTurk is pre-trained on Turkish Wikipedia, radiology reports, and biomedical texts. We show how different dataset labels affect the model's performance. The results demonstrate the model's ability to handle the intricacies of Turkish radiology reports, providing a detailed analysis of precision, recall, and F1 scores for each label. Additionally, the study compares its findings with related work in other low-resource languages.
dc.format.extent	VIII, 56 sayfa : grafik, tablo
dc.identifier.uri	https://katalog.marmara.edu.tr/veriler/yordambt/cokluortam/1D/65a9126c2be49.pdf
dc.identifier.uri	https://hdl.handle.net/11424/296253
dc.language.iso	eng
dc.rights	info:eu-repo/semantics/openAccess
dc.subject	bert
dc.subject	bilgisayarlı tomografi
dc.subject	Bilgisayarlı Tomografi, X-Ray
dc.subject	computed tomography
dc.subject	göğüs kafesi named entity recognition
dc.subject	isimli varlık tanıma
dc.subject	Radiology
dc.subject	radiology reports
dc.subject	Radyoloji
dc.subject	radyoloji raporları
dc.subject	thorax
dc.subject	Tomography, X-Ray Computed
dc.subject	turkish
dc.subject	türkçe
dc.title	Information extraction from radiology reports
dc.title	Radyoloji raporlarından bilgi Çıkarma
dc.type	masterThesis
dspace.entity.type	Publication

Collections

Tezler

Publication: Information extraction from radiology reports

Files

Collections

Publication:
Information extraction from radiology reports