Kayseri Üniversitesi Sosyal Bilimler Dergisi , cilt.5, sa.1, ss.51-71, 2023 (Hakemli Dergi)
Araştırma yapmak üzere toplanmış veri setlerindeki değerlerde eksiklerin olması sıklıkla karşılaşılan bir
problemdir. Bu problemi çözmek adına literatürde, eksik değerlerin tamamlamasına ilişkin yöntemler
bulunmaktadır. Bilgi teknolojileri ve veri yönetimindeki gelişmelerle birlikte ilgili probleme ilişkin yöntemler
artmış ve makine öğrenmesi yöntemleri de eksik değerleri tamamlamada kullanılmaya başlanmıştır. Çalışma
kapsamında, literatürde sıklıkla yararlanılan “Hitters” veri seti kullanılmıştır. Bu veri setindeki değerler, manipüle
edilerek eksiltilmiş ve eksiltilen değerler Liste Boyunca Silme, Son Gözlemi İleri Taşıma, Ortalama Atama gibi
temel eksik değer tamamlama yöntemlerinin yanı sıra Stokastik Regresyon, En Yakın k- Komşu algoritması,
Random Forest algoritması ve Amelia algoritması gibi makine öğrenmesi yöntemleriyle tamamlanmıştır. Veri
setinin eksiltilmemiş hali ve eksik değerleri, bahsedilen yöntemlerle tamamlanarak elde edilen veri setleri, WEKA
paket programı kullanılarak Naive Bayes algoritmasıyla sınıflandırılmıştır. Sınıflandırma sonuçları, sınıflandırma
süresi, doğruluk, kesinlik, duyarlılık, F-ölçütü ve ROC alanı performans değerlendirme kriterleriyle
kıyaslanmıştır. Çalışmanın sonucunda, makine öğrenmesi yöntemlerinin, eksik veri tamamlamada ve
sınıflandırma operasyonlarının performanslarını yükseltmede başarılı sonuçlar ortaya koyduğu görülmüştür.
A common issue frequently encountered in research datasets is the presence of missing values. In the
literature, a multitude of techniques for imputing missing values have been proposed. With advancements in
information technology and data management, machine learning methods have emerged as viable approaches for
addressing this problem. In this study, "Hitters" dataset, commonly utilized in literature, was employed.
Manipulated values were introduced to create incomplete observations. In addition to fundamental techniques like
Listwise Deletion, Last Observation Carried Forward, and Mean Imputation, machine learning methods, including
Stochastic Regression, k-Nearest Neighbors algorithm, Random Forest algorithm, and Amelia algorithm, were
employed to complete the missing values. The original dataset and the imputed datasets derived from these methods were classified using the Naive Bayes algorithm within the WEKA software package. The classification
outcomes were compared using performance evaluation criteria such as classification time, accuracy, precision,
recall, F-measure, and ROC area. In conclusion, this study demonstrates that machine learning methods exhibit
promising results in imputing missing values and enhancing classification performance.