7. Uluslararası Araştırmacılar, İstatistikçiler ve Genç İstatistikçiler Kongresi, İstanbul, Türkiye, 2 - 05 Kasım 2023
Elde
edilen geçmiş deneyimlerin kullanılmasıyla bir model oluşturan makine
öğrenmesi, veriler arasındaki ilişkileri keşfetme ve geleceğe yönelik
kestirimde bulunulabilmektedir. Bu çalışmanın odak noktası, sınıflandırma
problemlerini çözmek için kullanılan makine öğrenmesi algoritmalarının
performansını artırmaktır. Bu algoritmaların performansı, kullanılan veri
setindeki özniteliklerin yeterli ve uygun olup olmadığına bağlıdır. Bu nedenle
sınıflandırma işlemi yapılmadan önce öznitelik seçimi yapılmıştır. Öznitelik
seçimi, filtreleme ve sarmal yöntemlerin birleştirildiği bir hibrit yaklaşım
kullanılarak gerçekleştirilmiştir. Bu hibrit yaklaşım, sadece filtreleme
yöntemlerinin kullanıldığı duruma göre sınıflandırma doğruluğunu artırmanın
yanı sıra sadece sarmal yöntemlerin kullanıldığı durumdaki işlem süresini de
azaltabilmektedir. Öznitelik seçimi için filtreleme adımında Ki-Kare, Bilgi
Kazancı, Kazanç Oranı, Simetrik Belirsizlik Katsayısı, Korelasyon Tabanlı
Öznitelik Seçimi ve RELİEF yöntemleri kullanılırken; sarmal yöntem olarak
Özyinelemeli Öznitelik Eliminasyonu, Genetik Algoritma, Tavlama Benzetimi ve
BORUTA kullanılmıştır. Sınıflandırma işlemi K En Yakın Komşu, Lojistik
Regresyon, Naive Bayes, Destek Vektör Makinaları, Doğrusal Diskriminant
Analizi, Karar Ağaçları, Rasgele Orman, Bagging, Boosting, Rotasyon Ormanı ve
Yığınlama algoritmaları kullanılarak yapılmış ve model başarım ölçütleri
kullanılarak performansları kıyaslanmıştır. Hibrit öznitelik seçimi yaklaşımı
kullanıldığında genel olarak algoritmaların performansı iyileşmiştir. Yapılan
çalışmada, UCI Machine Learning Repository veri tabanındaki veri setlerinden
“Taiwanese Bankruptcy” ve “Statlog (German Credit Data)” veri seti
kullanılmıştır. İlk veri seti, 95
tanımlayıcı öznitelik ve çıktı değişkeni (iflas eden ve iflas etmeyen firmalar)
olmak üzere toplam 96 öznitelik, 6819 örnekten oluşmaktadır. 6819 verinin sınıf
dağılımı ise 220 iflas etmiş, 6.599'u iflas etmeyen firmalar olmak üzere örnek
iki küme içermektedir. İkinci veri seti 20 tanımlayıcı öznitelik ve çıktı
değişkeni (good ve bad) olmak üzere toplam 21 öznitelik, 1000 örnekten
oluşmaktadır. 1000 verinin sınıf dağılımı ise 700 iyi, 300 kötü olmak üzere iki
küme içermektedir. Veri setleri dengesiz dağılmaktadır. Dengesiz dağılım
dikkate alınarak veri ön işleme yapılmalıdır ya da performans ölçütü olarak
doğruluk değeri dışında dengesiz veri setlerinde sıklıkla kullanılan performans
ölçütleri dikkate alınabilir. Veri setindeki dengesiz dağılım dikkate
alındıktan sonra (aşırı örnekleme (oversampling) ve eksik örnekleme
(undersampling) yapıldıktan sonra) öznitelik seçimi ardından da sınıflandırma
işlemi yapılmıştır.