A pan-cancer study using TCGA datasets to find possible novel prognostic markers

No Thumbnail Available

Date

2020

Journal Title

Journal ISSN

Volume Title

Publisher

Marmara Üniversitesi Fen Bilimleri Enstitüsü

Abstract

Kanser günümüzde en sık görülen ölüm nedenleri arasındadır. Bu hastalık, hücrelerin doğal olmayan yollarla ve kontrol edilemez bir şekilde büyüyerek diğer normal dokuları tehdit etmesi olarak tarif edilebilir. Yüzyıllardır kanser üzerinde yapılagelen çalışmalar Yeni Nesil Dizileme (YND) teknolojilerinin son yıllardaki gelişimi ile dikkate değer bir seviyeye erişmiştir. Mevzubahis teknoloji sayesinde hem kanser çalışmalarının kapsamı genişlemiş hem de insanlığı tehdit eden bu hastalığın kompleks yapısı günümüzde daha iyi kavranmaya başlanmıştır. YND teknolojilerinin sunduğu imkan çerçevesinde son zamanlarda büyük epigenetik, genetik ve transkriptomik veri setleri üretilmiştir. Bununyanında, kanserartıkbirorganhastalığıolarakdeğil, molekülerbirhastalıkolarak görülmeye başlanmıştır.Bu tezde üç farklı moleküler veri seti kullanılarak bir pan-kanser çalışması yapılmaktadır. DNA metilasyon, DNA kopya sayısı, DNA mutasyon ve RNA ekspresyonu seviyelerini gösterenverisetleriTCGAportalindenindirilerekkullanılmaktadır. Buçalışmamümkün olan en fazla sayıda kanser için moleküler veri kümelerini kullanarak yeni prognostik belirteçler bulmayı amaçlamaktadır. Bu hedefi gerçekleştirmek için, bu tezde daha önceden önerilen prognostik belirteçler (altklon sayısı ve çeşitlilik indeksleri gibi) ile beraber dört veri setindeki her prob/gen’in toplam varyansları da yeni birer olası belirteç olarak kullanılmaktadır. Ayrıyeten sunulan bu yeni belirteçler ile öncekiler arasındaki istatistiki ilişkiler ortaya konulmaktadır.Çalışmanın çıktıları, DNA metilasyonundaki toplam mutlak değişimin, pan-kanserde ve spesifik olarak bazı kanser tiplerinde, sağkalım üzerinde önemli bir belirteç olabileceğini göstermektedir. Ayrıca makine öğrenmesi ve derin öğrenme metodlarıyla beraber bu olası göstergeleri tahmin eden modeller geliştirilmektedir. Sonuçlar hangi modellerin hangi veri setleri üzerinde verimli çalıştıklarını göstermektedir--------------------Cancer is one of the most common causes of death worldwide. It can be described as the unnatural and uncontrollable growth of cells, which may lead to spreading other normal tissues. This major threat to human life has been studied for centuries. Yet, with the emergence of Next-Generation Sequencing (NGS) technologies, scope of these studies are expanded and better comprehension of the structure of such complex disease became possible. Through these developments, massive datasets regarding genetics, epigenetics, andtranscriptomicsareproducedincancerstudies. Besides,advancementintechnologies revealed that cancer might be treated as a molecular disease rather than a disease of an organ.Therefore, in this thesis, a pan-cancer study is conducted by using three-level molecular datasets. DNA methylation, DNA Copy Number, DNA Mutation, and RNA expression datasets from TCGA Portal are available to process. This study aims to find novel prognostic markers by using all possible datasets in as many cancer types as possible. For this purpose, prognostic markers, such as subclone numbers and diversity indexes, are used along with new proposed indexes, total variances for each gene/probe on four datasets. Association between these proposed indexes and existing ones are also demonstrated.Results suggest that total absolute change in DNA methylation might be a significant markerinpan-cancerandsomeparticularcancertypes. Moreover, thisstudyinvestigates several machine learning and deep learning models to predict these possible indicators. Findings show which models are more suitable in which circumstances.

Description

Keywords

Computer engineering, Bilgisayar mühendisliği

Citation

Collections