The Effects of Missing Data Imputation Methods With Machine Learning On Classification Performance


Erken Ş., Şenyay L.

Kayseri Üniversitesi Sosyal Bilimler Dergisi , vol.5, no.1, pp.51-71, 2023 (Peer-Reviewed Journal)

Abstract

A common issue frequently encountered in research datasets is the presence of missing values. In the literature, a multitude of techniques for imputing missing values have been proposed. With advancements in information technology and data management, machine learning methods have emerged as viable approaches for addressing this problem. In this study, "Hitters" dataset, commonly utilized in literature, was employed. Manipulated values were introduced to create incomplete observations. In addition to fundamental techniques like Listwise Deletion, Last Observation Carried Forward, and Mean Imputation, machine learning methods, including Stochastic Regression, k-Nearest Neighbors algorithm, Random Forest algorithm, and Amelia algorithm, were employed to complete the missing values. The original dataset and the imputed datasets derived from these methods were classified using the Naive Bayes algorithm within the WEKA software package. The classification outcomes were compared using performance evaluation criteria such as classification time, accuracy, precision, recall, F-measure, and ROC area. In conclusion, this study demonstrates that machine learning methods exhibit promising results in imputing missing values and enhancing classification performance.

Araştırma yapmak üzere toplanmış veri setlerindeki değerlerde eksiklerin olması sıklıkla karşılaşılan bir problemdir. Bu problemi çözmek adına literatürde, eksik değerlerin tamamlamasına ilişkin yöntemler bulunmaktadır. Bilgi teknolojileri ve veri yönetimindeki gelişmelerle birlikte ilgili probleme ilişkin yöntemler artmış ve makine öğrenmesi yöntemleri de eksik değerleri tamamlamada kullanılmaya başlanmıştır. Çalışma kapsamında, literatürde sıklıkla yararlanılan “Hitters” veri seti kullanılmıştır. Bu veri setindeki değerler, manipüle edilerek eksiltilmiş ve eksiltilen değerler Liste Boyunca Silme, Son Gözlemi İleri Taşıma, Ortalama Atama gibi temel eksik değer tamamlama yöntemlerinin yanı sıra Stokastik Regresyon, En Yakın k- Komşu algoritması, Random Forest algoritması ve Amelia algoritması gibi makine öğrenmesi yöntemleriyle tamamlanmıştır. Veri setinin eksiltilmemiş hali ve eksik değerleri, bahsedilen yöntemlerle tamamlanarak elde edilen veri setleri, WEKA paket programı kullanılarak Naive Bayes algoritmasıyla sınıflandırılmıştır. Sınıflandırma sonuçları, sınıflandırma süresi, doğruluk, kesinlik, duyarlılık, F-ölçütü ve ROC alanı performans değerlendirme kriterleriyle kıyaslanmıştır. Çalışmanın sonucunda, makine öğrenmesi yöntemlerinin, eksik veri tamamlamada ve sınıflandırma operasyonlarının performanslarını yükseltmede başarılı sonuçlar ortaya koyduğu görülmüştür.