FİLTRELEME VE SARMAL YÖNTEMLERİ BİRLEŞTİREN HİBRİT ÖZNİTELİK SEÇİMİ SONRASI MAKİNE ÖĞRENMESİ ALGORİTMALARI İLE İFLAS TAHMİNİ


Pulat M., Deveci Kocakoç I.

2. ULUSLARARASI EGE SOSYAL VE BEŞERİ BİLİMLER KONGRESİ, İzmir, Türkiye, 12 - 13 Haziran 2023, ss.780-789

  • Yayın Türü: Bildiri / Tam Metin Bildiri
  • Basıldığı Şehir: İzmir
  • Basıldığı Ülke: Türkiye
  • Sayfa Sayıları: ss.780-789
  • Dokuz Eylül Üniversitesi Adresli: Evet

Özet

Makine öğrenmesi, sistemin geçmişteki deneyimlerinden elde edilen öğrenmelerini kullanarak bir model oluşturmaktadır. Bu sayede veriler arasındaki ilişkileri açığa çıkarabilmekte ve ihtiyaç duyulduğunda ileriye dönük kestirimlerde bulunabilmektedir. Yapılan çalışmada, sınıflandırma probleminin çözümünde kullanılan makine öğrenmesi algoritmalarının performansını artırmak amaçlanmıştır. Algoritmaların performansı etkileyen en önemli unsur elimizdeki veri setindeki özniteliklerin yeterli sayıda ve gerekli olmasıdır. Bunun için sınıflandırma işlemini gerçekleştirmeden önce öznitelik seçimi yapılmıştır. Öznitelik seçimi olarak da filtreleme ve sarmal yöntemleri birleştiren hibrit bir yaklaşım kullanılmıştır. Bu hibrit yaklaşımla, sadece filtreleme yönteminin kullanıldığı duruma nazaran sınıflandırma doğruluğunu iyileştirmekle birlikte sadece sarmal yöntemler kullanıldığı durumdaki işlem süresini de azaltalabilmektedir. Öznitelik seçimi için filtreleme adımında Ki-Kare, Bilgi Kazancı, Kazanç Oranı, Simetrik Belirsizlik Katsayısı, Korelasyon Tabanlı Öznitelik Seçimi ve RELİEF yöntemleri kullanılırken; sarmal yöntem olarak Özyinelemeli Öznitelik Eliminasyonu, Genetik Algoritma, Tavlama Benzetimi ve BORUTA kullanılmıştır. Sınıflandırma işlemi K En Yakın Komşu, Lojistik Regresyon, Naive Bayes, Destek Vektör Makinaları, Doğrusal Diskriminant Analizi, Karar Ağaçları, Rasgele Orman, Bagging, Boosting ve Rotasyon Ormanı algoritmaları kullanılarak yapılmış ve model başarım ölçütleri kullanılarak performansları kıyaslanmıştır. Hibrit öznitelik seçimi yaklaşımı kullanıldığında genel olarak algoritmaların performansı iyileşmiştir. Yapılan çalışmada, UCI Machine Learning Repository veri tabanındaki veri setlerinden “Taiwanese Bankruptcy” adlı veri seti kullanılmıştır. Bu veri seti, 95 tanımlayıcı öznitelik ve çıktı değişkeni (iflas eden ve iflas etmeyen firmalar) olmak üzere toplam 96 öznitelik, 6819 örnekten oluşmaktadır. 6819 verinin sınıf dağılımı ise 220 iflas etmiş, 6.599'u iflas etmeyen firmalar olmak üzere örnek iki küme içermektedir. Veri setinde, iflas etmeyen işletmeler %96,774'ü ve iflas eden işletmeler %3,226 oluşturduğundan veri seti dengesiz dağılmaktadır. Dengesiz dağılım dikkate alınarak veri ön işleme yapılmalıdır ya da performans ölçütü olarak doğruluk değeri dışında dengesiz veri setlerinde sıklıkla kullanılan performans ölçütleri dikkate alınabilir. Veri setindeki dengesiz dağılım dikkate alındıktan sonra öznitelik seçimi ardından da sınıflandırma işlemi yapılmıştır.

Machine learning creates a model using their learning from past experiences. In this way, it can reveal the relationships between the data and make forward-looking predictions when needed. Many methods and algorithms have been developed in machine learning. The study, it is aimed to increase the performance of machine learning algorithms used in the solution of the classification problem. The most important factor affecting the performance of algorithms is that the number of attributes in the data set we have is sufficient and necessary. For this, feature selection was made before performing the classification process. Feature selection is also used as a hybrid approach that combines filter and wrapper methods. With this hybrid approach, it can reduce the processing time when only wrapper methods are used while improving the classification accuracy compared to the case where only the filter method is used. While Chi-Square, Information Gain, Gain Ratio, Symmetric Uncertainty, Correlation Based Feature Selection, and RELIEF methods are used in the filtering step for feature selection; Recursive Attribute Elimination, Genetic Algorithm, Simulated Annealing, and BORUTA were used as wrapper methods. The classification was performed using K Nearest Neighbor, Logistic Regression, Naive Bayes, Support Vector Machines, Linear Discriminant Analysis, Decision Trees, Random Forest, Bagging, Boosting, and Rotation Forest algorithms and their performance was compared using model performance criteria. Overall, the performance of the algorithms has improved when the hybrid feature selection approach is used. In the study, "Taiwanese Bankruptcy" was used from the datasets in the UCI Machine Learning Repository database.  This data set consists of a total of 96 attributes, 6819 samples, including 95 input features and output features (bankrupt and non-bankrupt firms). The class distribution of the 6819 data includes two sample clusters, 220 of which are bankrupt firms and 6.599 are not. In the data set, the data set is imbalance distributed, as non-bankrupt businesses constitute 96.774% and bankrupt businesses make up 3.226%. Data pre-processing should be done taking into account the imbalance distribution, or the performance criteria that are frequently used in imbalance data sets can be taken into account, apart from the accuracy value. After taking into account the imbalance distribution in the data set, feature selection was followed by classification.