Makine Öğrenmesi Performansının Ölçülmesi
Makine öðrenmesi, verilerden öðrenerek belirli görevleri otomatik olarak yerine getirmeyi amaçlayan bir bilim dalýdýr. Makine öðrenmesi algoritmalarý, verileri kullanarak bir model oluþturur ve bu modeli yeni veriler üzerinde test eder. Modelin ne kadar iyi öðrendiðini ve yeni verilerde ne kadar iyi performans gösterdiðini anlamak için farklý metrikler kullanýlýr. Bu metrikler, modelin performansýný sayýsal olarak ifade eder ve modeli geliþtirmek için geri bildirim saðlar. Makine öðrenmesi algoritmalarý, farklý amaçlara göre sýnýflandýrýlabilir. Sýnýflandýrma algoritmalarý, verileri belirli kategorilere ayýrmayý amaçlar. Örneðin, bir e-postanýn spam olup olmadýðýný, bir hastanýn COVID+ olup olmadýðýný, bir resmin hangi hayvana ait olduðunu sýnýflandýrmak gibi. Kestirim (regresyon) algoritmalarý, verilerin sayýsal bir deðerini tahmin etmeyi amaçlar. Örneðin, bir evin fiyatýný, bir arabanýn yakýt tüketimini, bir öðrencinin notunu tahmin etmek gibi.
Sýnýflandýrma performansýnýn ölçülmesi için, modelin tahminlerinin gerçek deðerlerle karþýlaþtýrýlmasý gerekir. Bu karþýlaþtýrma, bir karýþýklýk matrisi (confusion matrix) ile gösterilebilir. Karýþýklýk matrisi, modelin doðru ve yanlýþ tahminlerini dört kategoriye ayýrýr:
Doðru pozitif (DP): Modelin pozitif olarak tahmin ettiði ve gerçekte de pozitif olan veri noktalarý. Örneðin, modelin COVID+ olarak tahmin ettiði ve gerçekten de COVID+ olan hastalar.
Doðru negatif (DN): Modelin negatif olarak tahmin ettiði ve gerçekte de negatif olan veri noktalarý. Örneðin, modelin COVID- olarak tahmin ettiði ve gerçekten de COVID- olan hastalar.
Yanlýþ pozitif (YP): Modelin pozitif olarak tahmin ettiði ama gerçekte negatif olan veri noktalarý. Örneðin, modelin COVID+ olarak tahmin ettiði ama gerçekte COVID- olan hastalar. Bu tip hatalara Tip I hata denir.
Yanlýþ negatif (YN): Modelin negatif olarak tahmin ettiði ama gerçekte pozitif olan veri noktalarý. Örneðin, modelin COVID- olarak tahmin ettiði ama gerçekte COVID+ olan hastalar. Bu tip hatalara Tip II hata denir.
Bu dört kategori, modelin performansýný deðerlendirmek için farklý metriklerin hesaplanmasýna olanak saðlar. Bu metriklerden bazýlarý þunlardýr:
Doðruluk (accuracy): Modelin doðru tahmin ettiði veri noktalarýnýn toplam veri noktalarýna oranýdýr. Yüksek doðruluk, modelin genel olarak iyi performans gösterdiðini gösterir. Ancak, sýnýf dengesizliði olan durumlarda, doðruluk yanýltýcý olabilir. Örneðin, 100 hastadan sadece 10’u COVID+ olsun. Model, tüm hastalarý COVID- olarak tahmin etse, doðruluk %90 olur. Ama bu modelin iyi bir performans gösterdiði anlamýna gelmez. Çünkü model, COVID+ olan hastalarý hiç doðru tahmin edememiþtir. Doðruluk formülü þöyledir:
Doðruluk= (DP+DN)/(DP+DN+YP+YN)
Kesinlik (precision): Modelin pozitif olarak tahmin ettiði veri noktalarýnýn, gerçekte de pozitif olanlara oranýdýr. Yüksek kesinlik, modelin pozitif tahminlerinin güvenilir olduðunu gösterir. Kesinlik, yanlýþ pozitif hatalarýný azaltmak istediðimiz durumlarda önemlidir. Örneðin, bir e-postayý spam olarak iþaretlemek, yanlýþ pozitif bir hatadýr. Bu hatayý yapmamak için, modelin spam olarak iþaretlediði e-postalarýn gerçekten de spam olma olasýlýðýnýn yüksek olmasý gerekir. Kesinlik formülü þöyledir:
Kesinlik=DP/(DP+YP)
Duyarlýlýk (recall): Modelin pozitif olarak doðru tahmin ettiði veri noktalarýnýn, gerçekte toplam pozitif olanlara oranýdýr. Yüksek duyarlýlýk, modelin pozitif sýnýfý kaçýrmadýðýný gösterir. Duyarlýlýk, yanlýþ negatif hatalarýný azaltmak istediðimiz durumlarda önemlidir. Örneðin, bir hastayý COVID+ olarak teþhis etmek, yanlýþ negatif bir hatadýr. Bu hatayý yapmamak için, modelin COVID+ olan hastalarý doðru bir þekilde tespit etmesi gerekir. Duyarlýlýk formülü þöyledir:
Doðruluk=DP/(DP+YN)
Seçicilik (specificity): Modelin negatif olarak doðru tahmin ettiði veri noktalarýnýn, gerçekte toplam negatif olanlara oranýdýr. Yüksek seçicilik, modelin negatif sýnýfý kaçýrmadýðýný gösterir. Seçicilik, yanlýþ pozitif hatalarýnýn önemli olmadýðý durumlarda kullanýlabilir. Örneðin, bir hastayý COVID- olarak teþhis etmek, yanlýþ pozitif bir hatadýr. Ama bu hata, yanlýþ negatif hatadan daha az zararlýdýr. Çünkü yanlýþ pozitif bir hasta, ileri testlerle doðru teþhise ulaþabilir. Seçicilik formülü þöyledir:
Seçicilik=DN/(DN+YP)
F1 skoru: Kesinlik ve duyarlýlýk arasýndaki dengeyi saðlamak için kullanýlan bir metriktir. F1 skoru, kesinlik ve duyarlýlýðýn harmonik ortalamasýdýr. Yüksek F1 skoru, modelin hem kesinlik hem de duyarlýlýk açýsýndan iyi performans gösterdiðini gösterir. F1 skoru, sýnýf dengesizliði olan durumlarda doðruluktan daha iyi bir metriktir. F1 skoru formülü þöyledir:
F1 Skoru= (2×Kesinlik×Duyarlýlýk)/(Kesinlik+Duyarlýlýk)
deðerlerden ne kadar farklý olduðunu ölçen farklý metrikler kullanýlýr. Bu metriklerden bazýlarý þunlardýr:
Ortalama mutlak hata (MAE): Modelin tahminlerinin gerçek deðerlerden olan ortalama mutlak farkýdýr. MAE, modelin tahmin hatalarýnýn büyüklüðünü gösterir. MAE, hatalarýn yönünü göstermez, sadece büyüklüðünü gösterir.
Ortalama karesel hata (MSE): Modelin tahminlerinin gerçek deðerlerden olan ortalama karesel farkýdýr. MSE, modelin tahmin hatalarýnýn karesini alarak büyük hatalarý daha fazla cezalandýrýr. MSE, hatalarýn yönünü göstermez, sadece büyüklüðünü gösterir.
R-kare: Modelin açýkladýðý varyansýn, toplam varyansa oranýdýr. R-kare, modelin verileri ne kadar iyi açýkladýðýný gösterir. R-kare, 0 ile 1 arasýnda bir deðer alýr. 0, modelin verileri hiç açýklayamadýðýný, 1, modelin verileri mükemmel bir þekilde açýkladýðýný gösterir. R-kare formülü þöyledir:
R^2=1-MSE/Varyans
Burada, MSE modelin ortalama karesel hatasý, varyans ise verilerin ortalama deðer etrafýndaki daðýlýmýdýr. Örneðin, bir öðrencinin notunu tahmin etmek için bir regresyon modeli kullandýðýmýzý varsayalým. Model, 100 öðrencinin notunu tahmin etmiþ olsun. Bu öðrencilerin gerçek notlarý ile modelin tahmin ettiði notlar arasýndaki ortalama karesel hatayý ve verilerin varyansýný hesaplayarak R-kare deðerini bulabiliriz. R-kare, modelin verileri ne kadar iyi temsil ettiðini gösterir.
Bu metrikler, makine öðrenmesi modellerinin performansýný ölçmek için kullanýlan yaygýn metriklerdir. Ancak, bu metriklerin her birinin avantajlarý ve dezavantajlarý vardýr. Bu nedenle, model performansýný deðerlendirirken, birden fazla metriði birlikte kullanmak ve veri setinin özelliklerine, iþ problemine ve hedeflere göre uygun metrikleri seçmek önemlidir. Makine öðrenmesi modellerinin performansýný iyileþtirmek için, modelin hiperparametrelerini ayarlamak, veri setini temizlemek, öznitelik seçimi veya çýkarýmý yapmak, farklý algoritmalar denemek gibi yöntemler kullanýlabilir.
Makine Öðrenmesi Ýçin Gerekli Yazýlýmlar
Makine öðrenmesi uygulamalarý geliþtirmek için çeþitli yazýlýmlar ve platformlar mevcuttur. Makine öðrenmesi, farklý programlama dilleri ve platformlar ile gerçekleþtirilebilir. Bu öðrenme birimindeki uygulamalar, popüler bir platform olan Google Colab Not Defteri ile yapýlmýþtýr. Programlama dili olarak Python kullanýlmýþtýr. Platform ve programlama dili, açýk kaynaklý, fonksiyonel ve ücretsiz olduklarý için seçilmiþtir. Python, geniþ bir topluluk desteðine, zengin bir kütüphane çeþitliliðine ve yüksek bir iþlevselliðe sahiptir. Bu nedenle, programlama, makine öðrenmesi ve yapay zeka alanlarýnda son zamanlarda sýkça tercih edilen bir programlama dilidir.
Sosyal Medyada Paylaşın:
(c) Bu şiirin her türlü telif hakkı şairin kendisine ve/veya temsilcilerine aittir.