Tezin Türü: Yüksek Lisans
Tezin Yürütüldüğü Kurum: Dokuz Eylül Üniversitesi, Sosyal Bilimler Enstitüsü, Yönetim Bilişim Sistemleri Ana Bilim Dalı, Türkiye
Tezin Onay Tarihi: 2023
Tezin Dili: Türkçe
Öğrenci: DAVUT EMRE TAŞAR
Danışman: KUTAN KORUYAN
Açık Arşiv Koleksiyonu: AVESİS Açık Erişim Koleksiyonu
Özet:Otomatik konuşma tanıma (ASR) teknolojisinin kullanımı son yıllarda hızla artmıştır ve birçok kuruluş çeşitli iş fonksiyonlarında verimliliği, doğruluğu ve üretkenliği artırmak için onu benimsemektedir. Bu tez çalışması, ASR sistemlerinin organizasyonel faydalarını keşfetmekle birlikte, organizasyonların rekabet avantajı elde etmek için bu faydalardan nasıl yararlanabileceğine dair bir model önerisi ve önerilen model ile birlikte bir çağrı merkezindeki performans artışını ölçümleme önerisi sunmayı amaçlamaktadır. ASR sistemleri, konuşulan dili metne dönüştürmek için gelişmiş algoritmalar ve doğal dil işleme teknikleri kullanarak kuruluşların veri girişini, transkripsiyonu ve konuşma dilini içeren diğer görevleri otomatikleştirmesini sağlar. Bu görevlerin doğruluğunu ve verimliliğini artırabilir, manuel redaksiyon ve transkripsiyon ihtiyacını azaltabilir ve zamandan ve kaynaklardan tasarruf sağlayabilir. Doğal dil işleme, bilişim sistemlerini kullanarak, hedeflenen dil veya diller ile ilgili metin ve ses verilerinin matematiksel temsillerini oluşturarak, bu temsiller üzerinden çeşitli algoirtmalar vasıtası ile dil verisini bilgiye, bilgiyi de bilgeliğe dönüştürme yöntemlerine verilen genel bir kavramdır. COVID-19 pandemisi sonrasında kullanım sıklığında artış meydana gelen uzaktan çalışma ve eğitim modelleri içerisinde sıkça yapılan online toplantılar nedeni ile ASR sistemlerinin önemi ve bu sistemlerin uygulama sayısı artış göstermektedir. Ancak, ASR sistemlerinin yapay zekâ algoritmaları ile eğitimi söz konusu olduğunda, üretilen modellerin başarımı, kullanılan yapay zekâ algoritmaları kadar, eğitim verilerinin yeterliliğine bağlanabilir. ASR sistemleri, ses dosyalarını ve karşılık gelen doğru şekilde yazılmış transkript dosyalarını içeren büyük miktarda açıklamalı eğitim verisi gerektirir. Bu açıklamalı (etiketli) eğitim verilerinin çoğu dil için doğrulanmış bir şekilde bulunması zordur, genellikle insanların ses doyalarının karşılıklarını girmelerini manuel olarak gerçekleştirmesini gerektirir, bu da maliyetinin dışında hataya da açıktır. Bu senaryo için denetimli bir eğitim görevi pratik değildir. Türkçe, bol miktarda etiketlenmiş veriye sahip olmayan dillerden biridir ve bu da ASR sisteminin doğruluğunu İngilizce, Fransızca veya İspanyolca gibi kaynak açısından zengin diğer dillere kıyasla çok düşük kılar. Bu çalışmada, kendi kendini denetleyen bir görevde veya eğitim öncesi aşamada etiketlenmemiş eğitim verilerinden (yalnızca ses dosyaları) genel veri temsillerini öğrenerek etiketlenmemiş ses verilerinden yararlanılmaktadır. Bu aşama, girdiyi maskeleyen ve karşıt bir görevi çözen Wav2Vec 2.0 mimarisi kullanılarak gerçekleştirilmiştir. Metin karşılıkları bulunan Türkçe verileri kullanarak Türkçe dilinde ince ayar yapmak amacıyla Wav2Vec 2.0 kullanarak farklı dillerde önceden eğitilmiş modellerden de yararlanılmaktadır. Birden çok dilde ham konuşma dalga biçimleri üzerinde, Türkçe veriler üzerinde eğitilmiş birçok dilli modele ince ayar yapılarak 0,23 oranında düşük bir kelime hata (WER) oranı elde edilmiştir. Böylelikle elde edilen bu konuşma tanıma modeli, organizasyonların süreçlerini yönetim bilişim sistemleri kullanarak geliştirmeyi hedefleyen bir ürün ortaya çıkartmış ve bunu açık kaynaklı olarak paylaşılmıştır.