2. ULUSLARARASI EGE SOSYAL VE BEŞERİ BİLİMLER KONGRESİ, İzmir, Türkiye, 12 - 13 Haziran 2023, ss.780-789
Makine öğrenmesi, sistemin
geçmişteki deneyimlerinden elde edilen öğrenmelerini kullanarak bir model
oluşturmaktadır. Bu sayede veriler arasındaki ilişkileri açığa çıkarabilmekte
ve ihtiyaç duyulduğunda ileriye dönük kestirimlerde bulunabilmektedir. Yapılan
çalışmada, sınıflandırma probleminin çözümünde kullanılan makine öğrenmesi
algoritmalarının performansını artırmak amaçlanmıştır. Algoritmaların
performansı etkileyen en önemli unsur elimizdeki veri setindeki özniteliklerin
yeterli sayıda ve gerekli olmasıdır. Bunun için sınıflandırma işlemini
gerçekleştirmeden önce öznitelik seçimi yapılmıştır. Öznitelik seçimi olarak da
filtreleme ve sarmal yöntemleri birleştiren hibrit bir yaklaşım kullanılmıştır.
Bu hibrit yaklaşımla, sadece filtreleme yönteminin kullanıldığı duruma nazaran
sınıflandırma doğruluğunu iyileştirmekle birlikte sadece sarmal yöntemler
kullanıldığı durumdaki işlem süresini de azaltalabilmektedir. Öznitelik seçimi
için filtreleme adımında Ki-Kare, Bilgi Kazancı, Kazanç Oranı, Simetrik Belirsizlik
Katsayısı, Korelasyon Tabanlı Öznitelik Seçimi ve RELİEF yöntemleri
kullanılırken; sarmal yöntem olarak Özyinelemeli Öznitelik Eliminasyonu,
Genetik Algoritma, Tavlama Benzetimi ve BORUTA kullanılmıştır. Sınıflandırma
işlemi K En Yakın Komşu, Lojistik Regresyon, Naive Bayes, Destek Vektör
Makinaları, Doğrusal Diskriminant Analizi, Karar Ağaçları, Rasgele Orman,
Bagging, Boosting ve Rotasyon Ormanı algoritmaları kullanılarak yapılmış ve
model başarım ölçütleri kullanılarak performansları kıyaslanmıştır. Hibrit
öznitelik seçimi yaklaşımı kullanıldığında genel olarak algoritmaların
performansı iyileşmiştir. Yapılan çalışmada, UCI Machine Learning Repository
veri tabanındaki veri setlerinden “Taiwanese Bankruptcy” adlı veri seti
kullanılmıştır. Bu veri seti, 95 tanımlayıcı öznitelik ve çıktı değişkeni
(iflas eden ve iflas etmeyen firmalar) olmak üzere toplam 96 öznitelik, 6819
örnekten oluşmaktadır. 6819 verinin sınıf dağılımı ise 220 iflas etmiş, 6.599'u
iflas etmeyen firmalar olmak üzere örnek iki küme içermektedir. Veri setinde, iflas
etmeyen işletmeler %96,774'ü ve iflas eden işletmeler %3,226 oluşturduğundan veri
seti dengesiz dağılmaktadır. Dengesiz dağılım dikkate alınarak veri ön işleme
yapılmalıdır ya da performans ölçütü olarak doğruluk değeri dışında dengesiz
veri setlerinde sıklıkla kullanılan performans ölçütleri dikkate alınabilir.
Veri setindeki dengesiz dağılım dikkate alındıktan sonra öznitelik seçimi
ardından da sınıflandırma işlemi yapılmıştır.
Machine learning creates a model
using their learning from past experiences. In this way, it can reveal the
relationships between the data and make forward-looking predictions when
needed. Many methods and algorithms have been developed in machine learning. The
study, it is aimed to increase the performance of machine learning algorithms
used in the solution of the classification problem. The most important factor
affecting the performance of algorithms is that the number of attributes in the
data set we have is sufficient and necessary. For this, feature selection was
made before performing the classification process. Feature selection is also
used as a hybrid approach that combines filter and wrapper methods. With this
hybrid approach, it can reduce the processing time when only wrapper methods are
used while improving the classification accuracy compared to the case where
only the filter method is used. While Chi-Square, Information Gain, Gain Ratio,
Symmetric Uncertainty, Correlation Based Feature Selection, and RELIEF methods
are used in the filtering step for feature selection; Recursive Attribute
Elimination, Genetic Algorithm, Simulated Annealing, and BORUTA were used as
wrapper methods. The classification was performed using K Nearest Neighbor,
Logistic Regression, Naive Bayes, Support Vector Machines, Linear Discriminant
Analysis, Decision Trees, Random Forest, Bagging, Boosting, and Rotation Forest
algorithms and their performance was compared using model performance criteria.
Overall, the performance of the algorithms has improved when the hybrid feature
selection approach is used. In the study, "Taiwanese Bankruptcy" was
used from the datasets in the UCI Machine Learning Repository database. This data set consists of a total of 96
attributes, 6819 samples, including 95 input
features and output features (bankrupt and non-bankrupt firms). The class
distribution of the 6819 data includes two sample clusters, 220 of which are
bankrupt firms and 6.599 are not. In the data set, the data set is imbalance
distributed, as non-bankrupt businesses constitute 96.774% and bankrupt
businesses make up 3.226%. Data pre-processing should be done taking into
account the imbalance distribution, or the performance criteria that are
frequently used in imbalance data sets can be taken into account, apart from the
accuracy value. After taking into account the imbalance distribution in the
data set, feature selection was followed by classification.