Publication: Makine öğrenmesi yöntemleriyle kanser ile ilgili yeni biyobelirteçlerin tespit edilmesi
Abstract
MAKİNE ÖĞRENMESİ YÖNTEMLERİYLE KANSER İLE İLGİLİ YENİ BİYOBELİRTEÇLERİN TESPİT EDİLMESİ Gelişmiş kanser tedavisi için hastalığın sınıflandırılması, hassas onkolojinin genel hedefine ulaşmak için kritik öneme sahiptir. Meme kanseri; risk faktörleri, etki, hastalık ilerleyişi, sağ kalım ve tedaviye yanıt verme açısından farklılık gösteren birden fazla moleküler etiyoloji ve alt tip ile dünya çapında en yaygın kötü tümörlerinden biridir. Bu nedenle, sadece hastalığın prognozunu değerlendirmek değil, aynı zamanda etkili ve bireyselleştirilmiş tedaviyi mümkün kılmak için meme kanserini moleküler alt tiplere ayırmada kesin stratejilerin geliştirilmesine açık bir ihtiyaç vardır. Burada, gen ekspresyonu seviyesindeki değişikliklerin sağlıklı bireylerin yanı sıra farklı meme kanseri alt tiplerine sahip hastaların farklılaşmasına yol açabileceğini varsaydık ve meme kanserinin moleküler alt tiplere doğru bir şekilde sınıflandırılmak için bir mRNA paneli geliştirmek üzere TCGA-BRCA (n=1.215) ve METABRIC (n=1.992) projelerinden kapsamlı klinik ve RNA-seq verilerini içeren bir makine öğrenimi yaklaşımı önerdik. Alternatif özellik eleme yöntemleri farklı sayıda özellik sayısı göz önünde bulundurularak özellik seçimi yapıldı ve akabinde farklı makine öğrenme yöntemleri bir araya getirilerek en iyi kombinasyonun sağlandığı birleştirilmiş öğrenme yöntemi kullandık ve sağlıklı bireylerin yanı sıra farklı meme kanseri alt tiplerine sahip hastaları sınıflandırmak için özellikler olarak 50 mRNA’yı içeren birleştirilmiş bir model belirledik. Modelin ayırt etme performansı, her bir alt türü sağlıklı topluluklardan ayırt eden ikili karşılaştırmalarda %100’e kadar ulaştı. Özellikler meme kanseri gelişiminde 2,25 (p=5x10-7 ) risk oranı ile yüksek belirti performans gösterdi ve kanser gelişimi ile ilgili moleküler yolaklarla önemli ölçüde ilişkiliydi. Bu çalışma; topluluk öğrenmesi gibi ileri makine öğrenmesi yöntemleri uygulamalarının kanser hastalarının doğru sınıflandırmalarını ve hedefe yönelik hastalığın teşhis ve tedavi edilmesinde daha güçlü araçların geliştirilebilmesini sağlayabileceğini göstermektedir.
IDENTIFICATION OF NOVEL SYSTEMS BIOMARKERS FOR CANCER DIAGNOSIS USING MACHINE LEARNING TECHNIQUES Stratification of disease for improved cancer treatment is critical to achieve the overall goal of precision oncology. Breast cancer is one of the most common malignancies worldwide, with multiple underlying molecular etiologies and subtypes that differ in risk factors, incidence, disease progression, survival, and response to treatment. Therefore, there is a clear need for the development of precise strategies to stratify breast cancer into molecular subtypes, not only to assess the prognosis of the disease, but also to enable effective and individualized therapy. Here, we hypothesized that changes at the level of gene expression could lead to differentiation of patients with different breast cancer subtypes as well as healthy individuals and proposed a machine learning approach incorporating comprehensive clinical and RNA-seq data from the TCGA-BRCA (n=1,215) and METABRIC (n=1,992) projects to develop an mRNA panel for accurate stratification of breast cancer into molecular subtypes. Using feature selection via alternative feature elimination methods, considering different feature sizes, and following an ensemble learning approach to find the best combination of various machine learning models, we identified an ensembled model including 50 mRNAs as features to stratify patients with different breast cancer subtypes as well as healthy individuals. The discrimination performance of the model reached up to 100% accuracy in pairwise comparisons to distinguish each subtype from the healthy cohort. The features showed high prognostic performance with hazard ratio of 2.25 (p=5x10-7 ) in breast cancer development and were significantly associated with molecular pathways related to carcinogenesis. This study shows that we could consider the application of advanced machine learning methods, such as ensembled learning, for the accurate classification of cancer patients and provide more powerful tools for improving diagnosis and targeted therapy.
IDENTIFICATION OF NOVEL SYSTEMS BIOMARKERS FOR CANCER DIAGNOSIS USING MACHINE LEARNING TECHNIQUES Stratification of disease for improved cancer treatment is critical to achieve the overall goal of precision oncology. Breast cancer is one of the most common malignancies worldwide, with multiple underlying molecular etiologies and subtypes that differ in risk factors, incidence, disease progression, survival, and response to treatment. Therefore, there is a clear need for the development of precise strategies to stratify breast cancer into molecular subtypes, not only to assess the prognosis of the disease, but also to enable effective and individualized therapy. Here, we hypothesized that changes at the level of gene expression could lead to differentiation of patients with different breast cancer subtypes as well as healthy individuals and proposed a machine learning approach incorporating comprehensive clinical and RNA-seq data from the TCGA-BRCA (n=1,215) and METABRIC (n=1,992) projects to develop an mRNA panel for accurate stratification of breast cancer into molecular subtypes. Using feature selection via alternative feature elimination methods, considering different feature sizes, and following an ensemble learning approach to find the best combination of various machine learning models, we identified an ensembled model including 50 mRNAs as features to stratify patients with different breast cancer subtypes as well as healthy individuals. The discrimination performance of the model reached up to 100% accuracy in pairwise comparisons to distinguish each subtype from the healthy cohort. The features showed high prognostic performance with hazard ratio of 2.25 (p=5x10-7 ) in breast cancer development and were significantly associated with molecular pathways related to carcinogenesis. This study shows that we could consider the application of advanced machine learning methods, such as ensembled learning, for the accurate classification of cancer patients and provide more powerful tools for improving diagnosis and targeted therapy.
