MAKİNE ÖĞRENMESİ ALGORİTMALARINI KULLANARAK EKSİK VERİ TAMAMLAMA


Creative Commons License

Erken Ş., Şenyay L.

V. ASC 2023 / Spring Congress Everchanging World: Challenges and Opportunities, Multan, Pakistan, 10 - 12 Mayıs 2023, ss.173-184

  • Yayın Türü: Bildiri / Tam Metin Bildiri
  • Basıldığı Şehir: Multan
  • Basıldığı Ülke: Pakistan
  • Sayfa Sayıları: ss.173-184
  • Dokuz Eylül Üniversitesi Adresli: Evet

Özet

Veriyi bilgiye dönüştürme süreci, insanlık tarihi boyunca en önemli konularından birisi olmuştur. Oldukça zor olan bu süreçte, karşılaşılan en büyük sorunlardan birisi de veri setlerinde eksik değerlerin olmasıdır. Analiz edilmek üzere toplanan veri setlerinde, eksik olan değerlerin olması çok sık karşılaşılan bir sorundur. Veri setinin sağlıklı bir şekilde analiz edilebilmesi için eksik değerlerin yarattığı sorunlar ortadan kaldırılmalıdır. Literatürde bu sorunları çözebilmek adına, eksikliğin ve verinin türüne göre farklılık gösteren eksik veri tamamlama yöntemleri bulunmaktadır. Uygulamada, eksik olan değerler yerine, ilgili verinin ortalamasının atanması veya eksik olan verilerin yok sayılarak veri setinden çıkarılması, genel olarak kullanılan yöntemlerdendir. Bu noktada, veri setinde yer alan eksik değerlerin oranı da oldukça önemlidir. Eğer bu eksiklik oranı, büyük sayılacak bir seviyede ise bu gibi yöntemler, veri setinin yapısını yani doğasını bozabilir. Bu sebeple, eksik veri tamamlama yöntemleri çok önemli bir konuma sahiptir. Bilgi teknolojilerinin gelişmesi ile birlikte makine öğrenmesi algoritmaları, birçok alanda olduğu gibi eksik veri tamamlamada da kullanılmaktadır. Bu çalışmada, literatürde geniş bir kullanım ağına sahip olan “Hitters” veri seti manipüle edilerek belli oranda eksiltilmiş ardından eksik değerler, ortalama atamanın yanı sıra en yakın k-komşu algoritması, random forest (rassal ormanlar) algoritması, amelia algoritması, stokastik regresyon gibi makine öğrenmesi algoritmalarıyla tamamlanmıştır. Eksik değerleri, bahsedilen yöntemlerle tamamlanarak ortaya çıkan tamamlanmış veri setlerinde, “Hitters” veri setindeki oyuncuların maçlarda gösterdikleri performans değerlerini ifade eden değişken, sınıf nitelik olarak atanarak veri madenciliği uygulamalarından biri olan sınıflandırma operasyonu yapılmıştır. Böylece eksik verilerin tamamlanma yöntemlerinin sınıflandırmaya olan etkileri gözlenmiş ve makine öğrenmesi algoritmalarının, ortalama atamaya göre anlamlı bir şekilde sınıflandırma işlemi performansının artırdığı görülmüştür.

The process of transforming data into information has been one of the most important issues throughout human history. In this difficult process, one of the biggest problems encountered is the missing values in the datasets. It is a very common problem that there are missing values in the datasets collected for analysis. In order to analyze the dataset in a healthy way, the problems caused by missing values should be eliminated. In the literature in order to solve these problems there are lots of missing data imputation methods that differ according to the type of missingness and data. In practice, instead of missing values, imputing the average of the relevant data or removing the missing data from the data set by ignoring it are the methods used in general. At this point, the rate of missing values in the dataset is also very important. If this missingness rate is at a high level, such methods may disrupt the structure of the dataset. For this reason, missing data imputation methods have a very important position. With the development of information technologies, machine learning algorithms are also used in imputing missing data as in many areas. In this study, the “Hitters” dataset, which has a wide usage network in the literature, was manipulated to a certain extent and then missing values are imputed by mean imputation, as well as machine learning tools such as k-nearest neighbours algorithm, random forest algorithm, amelia algorithm, stochastic regression. Classification is one of the data mining applications, was carried out by assigning the variable, which expresses the performance values of players in the "Hitters" dataset, as a class attribute, in the imputed datasets, whose missing values were imputed by mentioned methods. Thus, the effects of the methods of missing data imputation on the classification were observed and it was seen that the machine learning algorithms significantly increased the performance of the classification process according to the average assignment.