Publication: Information extraction from radiology reports
Abstract
Bu araştırmanın temel amacı Türk radyoloji raporlarından bilgi çıkarmanın doğruluğunu ve verimliliğini arttırmaktır. Bu hedefe yönelik olarak çalışma, adlandırılmış varlık tanıma için bir derin öğrenme çerçevesi geliştirmeyi ve değerlendirmeyi amaçlamaktadır. Araştırma ekibimizdeki radyologlar tarafından oluşturulan ve etiketlenen 1056 Türk radyoloji raporundan oluşan sentetik bir veri seti kullandık. Gizlilik endişeleri nedeniyle gerçek hasta verileri kullanılamadı. Ancak sentetik veriler, yapı ve içerik bakımından gerçek raporları yakından taklit ediyor. Deneyler için dört aşamalı DYGIE++ modelini kullandık. İlk olarak dört BERT modelini kullanarak token kodlamayı gerçekleştiriyoruz: BERTurk, BioBERTurk, PubMedBert ve XLM-RoBERTa. İkinci olarak, Türkçedeki bir cümlenin kelime sayısını dikkate alarak uyarlamalı kapsam sayımına geçiyoruz. Üçüncüsü, yayılma grafiği yayılımı, çekirdek referans çözünürlüğü için çok önemli olan çok yönlü bir grafik oluşturur. Son olarak, adlandırılmış varlığı sınıflandırmak için iki katmanlı ileri beslemeli bir sinir ağı kullanıyoruz. Etiketli veri kümesi üzerinde gerçekleştirilen deneyler, yaklaşımın etkinliğini göstermektedir. Çalışma, adı geçen varlık tanıma görevi için 80,1 F1 puanına ulaştı; BioBERTurk modelinin, denenen dört BERT modeli arasında en etkili model olduğu kanıtlandı. BioBERTurk, Türkçe Vikipedi, radyoloji raporları ve biyomedikal metinler konusunda önceden eğitilmiştir. Farklı veri kümesi etiketlerinin modelin performansını nasıl etkilediğini gösteriyoruz. Sonuçlar, her etiket için kesinlik, geri çağırma ve F1 puanlarının ayrıntılı bir analizini sağlayarak, modelin Türk radyoloji raporlarının karmaşıklıklarını ele alma yeteneğini göstermektedir. Ek olarak, çalışma bulgularını diğer düşük kaynaklı dillerdeki ilgili çalışmalarla karşılaştırmaktadır.
The primary objective of this research is to enhance the accuracy and efficiency of information extraction from Turkish radiology reports. In addressing this objective, the study aims to develop and evaluate a deep-learning framework for named entity recognition. We used a synthetic dataset of 1056 Turkish radiology reports created and labeled by the radiologists in our research team. Due to privacy concerns, actual patient data could not be used. However, the synthetic data closely mimics genuine reports in structure and content. We employed the four-stage DYGIE++ model for the experiments. Firstly, we perform token encoding using four BERT models: BERTurk, BioBERTurk, PubMedBert, and XLM-RoBERTa. Secondly, we introduce adaptive span enumeration, considering the word count of a sentence in Turkish. Thirdly, span graph propagation generates a multidirectional graph crucial for coreference resolution. Lastly, we use a two-layered feed-forward neural network to classify the named entity. Experiments conducted on the labeled dataset showcase the approach's effectiveness. The study achieves an F1 score of 80.1 for the named entity recognition task, with the BioBERTurk model proving to be the most effective among the four experimented BERT models. BioBERTurk is pre-trained on Turkish Wikipedia, radiology reports, and biomedical texts. We show how different dataset labels affect the model's performance. The results demonstrate the model's ability to handle the intricacies of Turkish radiology reports, providing a detailed analysis of precision, recall, and F1 scores for each label. Additionally, the study compares its findings with related work in other low-resource languages.
The primary objective of this research is to enhance the accuracy and efficiency of information extraction from Turkish radiology reports. In addressing this objective, the study aims to develop and evaluate a deep-learning framework for named entity recognition. We used a synthetic dataset of 1056 Turkish radiology reports created and labeled by the radiologists in our research team. Due to privacy concerns, actual patient data could not be used. However, the synthetic data closely mimics genuine reports in structure and content. We employed the four-stage DYGIE++ model for the experiments. Firstly, we perform token encoding using four BERT models: BERTurk, BioBERTurk, PubMedBert, and XLM-RoBERTa. Secondly, we introduce adaptive span enumeration, considering the word count of a sentence in Turkish. Thirdly, span graph propagation generates a multidirectional graph crucial for coreference resolution. Lastly, we use a two-layered feed-forward neural network to classify the named entity. Experiments conducted on the labeled dataset showcase the approach's effectiveness. The study achieves an F1 score of 80.1 for the named entity recognition task, with the BioBERTurk model proving to be the most effective among the four experimented BERT models. BioBERTurk is pre-trained on Turkish Wikipedia, radiology reports, and biomedical texts. We show how different dataset labels affect the model's performance. The results demonstrate the model's ability to handle the intricacies of Turkish radiology reports, providing a detailed analysis of precision, recall, and F1 scores for each label. Additionally, the study compares its findings with related work in other low-resource languages.
