DENGESİZ VERİ SETLERİNDE HİBRİT ÖZNİTELİK SEÇİMİ SONRASI MAKİNE ÖĞRENMESİ ALGORİTMALARI İLE SINIFLANDIRMA


Pulat M., Deveci Kocakoç I.

7. Uluslararası Araştırmacılar, İstatistikçiler ve Genç İstatistikçiler Kongresi, İstanbul, Türkiye, 2 - 05 Kasım 2023

  • Yayın Türü: Bildiri / Özet Bildiri
  • Basıldığı Şehir: İstanbul
  • Basıldığı Ülke: Türkiye
  • Dokuz Eylül Üniversitesi Adresli: Evet

Özet

Elde edilen geçmiş deneyimlerin kullanılmasıyla bir model oluşturan makine öğrenmesi, veriler arasındaki ilişkileri keşfetme ve geleceğe yönelik kestirimde bulunulabilmektedir. Bu çalışmanın odak noktası, sınıflandırma problemlerini çözmek için kullanılan makine öğrenmesi algoritmalarının performansını artırmaktır. Bu algoritmaların performansı, kullanılan veri setindeki özniteliklerin yeterli ve uygun olup olmadığına bağlıdır. Bu nedenle sınıflandırma işlemi yapılmadan önce öznitelik seçimi yapılmıştır. Öznitelik seçimi, filtreleme ve sarmal yöntemlerin birleştirildiği bir hibrit yaklaşım kullanılarak gerçekleştirilmiştir. Bu hibrit yaklaşım, sadece filtreleme yöntemlerinin kullanıldığı duruma göre sınıflandırma doğruluğunu artırmanın yanı sıra sadece sarmal yöntemlerin kullanıldığı durumdaki işlem süresini de azaltabilmektedir. Öznitelik seçimi için filtreleme adımında Ki-Kare, Bilgi Kazancı, Kazanç Oranı, Simetrik Belirsizlik Katsayısı, Korelasyon Tabanlı Öznitelik Seçimi ve RELİEF yöntemleri kullanılırken; sarmal yöntem olarak Özyinelemeli Öznitelik Eliminasyonu, Genetik Algoritma, Tavlama Benzetimi ve BORUTA kullanılmıştır. Sınıflandırma işlemi K En Yakın Komşu, Lojistik Regresyon, Naive Bayes, Destek Vektör Makinaları, Doğrusal Diskriminant Analizi, Karar Ağaçları, Rasgele Orman, Bagging, Boosting, Rotasyon Ormanı ve Yığınlama algoritmaları kullanılarak yapılmış ve model başarım ölçütleri kullanılarak performansları kıyaslanmıştır. Hibrit öznitelik seçimi yaklaşımı kullanıldığında genel olarak algoritmaların performansı iyileşmiştir. Yapılan çalışmada, UCI Machine Learning Repository veri tabanındaki veri setlerinden “Taiwanese Bankruptcy” ve “Statlog (German Credit Data)” veri seti kullanılmıştır.  İlk veri seti, 95 tanımlayıcı öznitelik ve çıktı değişkeni (iflas eden ve iflas etmeyen firmalar) olmak üzere toplam 96 öznitelik, 6819 örnekten oluşmaktadır. 6819 verinin sınıf dağılımı ise 220 iflas etmiş, 6.599'u iflas etmeyen firmalar olmak üzere örnek iki küme içermektedir. İkinci veri seti 20 tanımlayıcı öznitelik ve çıktı değişkeni (good ve bad) olmak üzere toplam 21 öznitelik, 1000 örnekten oluşmaktadır. 1000 verinin sınıf dağılımı ise 700 iyi, 300 kötü olmak üzere iki küme içermektedir. Veri setleri dengesiz dağılmaktadır. Dengesiz dağılım dikkate alınarak veri ön işleme yapılmalıdır ya da performans ölçütü olarak doğruluk değeri dışında dengesiz veri setlerinde sıklıkla kullanılan performans ölçütleri dikkate alınabilir. Veri setindeki dengesiz dağılım dikkate alındıktan sonra (aşırı örnekleme (oversampling) ve eksik örnekleme (undersampling) yapıldıktan sonra) öznitelik seçimi ardından da sınıflandırma işlemi yapılmıştır.