Publication: Zincirleme denklemlerle çoklu atama : bir simülasyon çalışması
Abstract
Araştırmacılar ve uygulamacılar, veri analizi yaparlarken sıklıkla kayıp veri sorunuyla karşı karşıya kalmaktadır. Sorunun çözümünde ad hoc yöntemlerin kullanılması, genellikle yanıltıcı sonuçlar üretilmesine neden olmaktadır. Alternatif olarak Zincirleme Denklemlerle Çok Değişkenli Atama (Multivariate Imputation by Chained Equations -- MICE), eksik veri analizinde kullanılabilecek modern ve etkin bir çoklu atama yöntemidir. Bu tez çalışmasında MICE ve ad hoc yöntemlerin, kayıp veri işleme başarılarının değerlendirilmesi amaçlanmıştır.Yapılan simülasyon çalışmasında, bu amaçla üretilen çok değişkenli, sentetik veri üzerinde, Rastgele Kayıp (RK) düzende, farklı oranlarda veri eksiltme işlemleri uygulanmış, elde edilen veriler MICE ve ad hoc yöntemlerce işlenerek doğrusal regresyon analizi gerçekleştirilmiştir. Regresyon model çıktıları; yanlılık yüzdesi, kapsama oranı ve ortalama genişlik ölçümleri ile değerlendirilmiştir.Sonuç olarak, değişkenler arası ilişkinin zayıf olduğu durumda bile MICE'ın RK düzende yansız ve geçerli sonuçlar ürettiği ve ad hoc yöntemlerin çoğu durumda başarısız olduğu tespit edilmiştir.
When researchers and practitioners do data analysis, they frequently encounter missing data problem. Performing ad hoc methods to solve that problem, mostly produce misleading results. As an alternative Multivariate Imputation by Chained Equations (MICE) is a state of the art method which multiple imputation, that could be used for incomplete data analysis.The objective of this study was to evaluate the performance of MICE and ad hoc methods to handling missing data.In the simulation study, on the multivariate synthetic data which was generated for this purpose, data amputation operations were applied on Missing at Random (MAR) mechanism at different proportions, the obtained data was handling by MICE and ad hoc methods then lineer regression analysis was performed. Regression model outputs were evaluated by percent of bias, coverage rate and average width measurements.As a result, it has been confirmed ad hoc methods fails in most of cases, nevertheless MICE produced unbiased and valid results on MAR data even when there was a weak relationship between variables.
When researchers and practitioners do data analysis, they frequently encounter missing data problem. Performing ad hoc methods to solve that problem, mostly produce misleading results. As an alternative Multivariate Imputation by Chained Equations (MICE) is a state of the art method which multiple imputation, that could be used for incomplete data analysis.The objective of this study was to evaluate the performance of MICE and ad hoc methods to handling missing data.In the simulation study, on the multivariate synthetic data which was generated for this purpose, data amputation operations were applied on Missing at Random (MAR) mechanism at different proportions, the obtained data was handling by MICE and ad hoc methods then lineer regression analysis was performed. Regression model outputs were evaluated by percent of bias, coverage rate and average width measurements.As a result, it has been confirmed ad hoc methods fails in most of cases, nevertheless MICE produced unbiased and valid results on MAR data even when there was a weak relationship between variables.
