V. ASC 2023 / Spring Congress Everchanging World: Challenges and Opportunities, Multan, Pakistan, 10 - 12 May 2023, pp.173-184
The process of transforming data into information has been one of the most important issues
throughout human history. In this difficult process, one of the biggest problems encountered is
the missing values in the datasets. It is a very common problem that there are missing values in
the datasets collected for analysis. In order to analyze the dataset in a healthy way, the problems
caused by missing values should be eliminated. In the literature in order to solve these problems
there are lots of missing data imputation methods that differ according to the type of
missingness and data. In practice, instead of missing values, imputing the average of the
relevant data or removing the missing data from the data set by ignoring it are the methods used
in general. At this point, the rate of missing values in the dataset is also very important. If this
missingness rate is at a high level, such methods may disrupt the structure of the dataset. For
this reason, missing data imputation methods have a very important position. With the
development of information technologies, machine learning algorithms are also used in
imputing missing data as in many areas. In this study, the “Hitters” dataset, which has a wide
usage network in the literature, was manipulated to a certain extent and then missing values are
imputed by mean imputation, as well as machine learning tools such as k-nearest neighbours
algorithm, random forest algorithm, amelia algorithm, stochastic regression. Classification is
one of the data mining applications, was carried out by assigning the variable, which expresses
the performance values of players in the "Hitters" dataset, as a class attribute, in the imputed
datasets, whose missing values were imputed by mentioned methods. Thus, the effects of the
methods of missing data imputation on the classification were observed and it was seen that the
machine learning algorithms significantly increased the performance of the classification
process according to the average assignment.
Veriyi bilgiye dönüştürme süreci, insanlık tarihi boyunca en önemli konularından birisi olmuştur.
Oldukça zor olan bu süreçte, karşılaşılan en büyük sorunlardan birisi de veri setlerinde eksik
değerlerin olmasıdır. Analiz edilmek üzere toplanan veri setlerinde, eksik olan değerlerin olması çok
sık karşılaşılan bir sorundur. Veri setinin sağlıklı bir şekilde analiz edilebilmesi için eksik değerlerin
yarattığı sorunlar ortadan kaldırılmalıdır. Literatürde bu sorunları çözebilmek adına, eksikliğin ve
verinin türüne göre farklılık gösteren eksik veri tamamlama yöntemleri bulunmaktadır. Uygulamada,
eksik olan değerler yerine, ilgili verinin ortalamasının atanması veya eksik olan verilerin yok sayılarak
veri setinden çıkarılması, genel olarak kullanılan yöntemlerdendir. Bu noktada, veri setinde yer alan
eksik değerlerin oranı da oldukça önemlidir. Eğer bu eksiklik oranı, büyük sayılacak bir seviyede
ise bu gibi yöntemler, veri setinin yapısını yani doğasını bozabilir. Bu sebeple, eksik veri tamamlama
yöntemleri çok önemli bir konuma sahiptir. Bilgi teknolojilerinin gelişmesi ile birlikte makine
öğrenmesi algoritmaları, birçok alanda olduğu gibi eksik veri tamamlamada da kullanılmaktadır.
Bu çalışmada, literatürde geniş bir kullanım ağına sahip olan “Hitters” veri seti manipüle edilerek
belli oranda eksiltilmiş ardından eksik değerler, ortalama atamanın yanı sıra en yakın k-komşu
algoritması, random forest (rassal ormanlar) algoritması, amelia algoritması, stokastik regresyon
gibi makine öğrenmesi algoritmalarıyla tamamlanmıştır. Eksik değerleri, bahsedilen yöntemlerle
tamamlanarak ortaya çıkan tamamlanmış veri setlerinde, “Hitters” veri setindeki oyuncuların
maçlarda gösterdikleri performans değerlerini ifade eden değişken, sınıf nitelik olarak atanarak
veri madenciliği uygulamalarından biri olan sınıflandırma operasyonu yapılmıştır. Böylece eksik
verilerin tamamlanma yöntemlerinin sınıflandırmaya olan etkileri gözlenmiş ve makine öğrenmesi
algoritmalarının, ortalama atamaya göre anlamlı bir şekilde sınıflandırma işlemi performansının
artırdığı görülmüştür.