MENÃœLER

Anasayfa

Åžiirler

Yazılar

Forum

Nedir?

Kitap

Bi Cümle

Ä°letiÅŸim

Makine Öğrenmesi Performansının Ölçülmesi
Kaya Ridvan

Makine Öğrenmesi Performansının Ölçülmesi


Makine öðrenmesi, verilerden öðrenen ve belirli bir görevi otomatik olarak gerçekleþtiren bilgisayar programlarý geliþtirmek için kullanýlan bir bilim dalýdýr. Makine öðrenmesinde farklý amaçlar için farklý algoritmalar kullanýlýr. Örneðin, sýnýflama algoritmalarý, bir veri öðesinin hangi kategoriye ait olduðunu belirlemek için kullanýlýr. Kestirim algoritmalarý ise, bir veri öðesinin bir özellik veya sonuç deðerini tahmin etmek için kullanýlýr.
Eðitim iþlemi, algoritmalarý ve veri setini kullanarak bir model geliþtirme (eðitim) iþlemidir. Model, verilerdeki örüntüleri veya iliþkileri yakalamak için kullanýlan bir matematiksel fonksiyondur. Eðitim iþlemi, modelin verileri en iyi þekilde açýklayan veya tahmin eden parametrelerini bulmak için veri setini algoritmalara uygulamaktýr.
Geliþtirilen modellerin baþarýsýný ölçmek modeli deðerlendirebilmek için gereklidir. Modelin ne kadar iyi performans gösterdiðini, verileri ne kadar doðru açýkladýðýný veya tahmin ettiðini belirlemek için performans ölçümleri kullanýlýr. Performans ölçümleri, modelin çýktýlarýný gerçek deðerlerle karþýlaþtýrarak bir hata veya doðruluk oraný hesaplar.
Sýnýflandýrma ve sayýsal tahmin olmak üzere iki farklý performans ölçüm yöntemi bulunur. Sýnýflandýrma, veri öðelerinin ait olduðu sýnýfý belirtir ve çýktýda sonlu ve ayrýk deðerler olduðunda kullanýlýr.
Örnek:
Kredi Riski tahmin eden bir makine öðrenmesi modeli düþünelim. Bu model, kiþilerin gelir, yaþ, eðitim, borç, kredi geçmiþi gibi özelliklerini kullanarak, kredi baþvurusunda bulunan kiþilerin kredi riskini düþük veya yüksek olarak sýnýflandýrýr. Modelinizi oluþturduktan sonra, doðrulama veya test aþamasýnda, modelinizin performansýný ölçmek istersiniz. Test veri setinde kredi riski düþük veya yüksek olarak etiketli kiþilerin model tarafýndan doðru olarak sýnýflandýrýlmasýný beklersiniz. Makine öðrenmesinin tahminlerini gerçek etiketlerle karþýlaþtýrmanýz gerekir. Test setinde "kredi riski yüksek" olarak etiketlenmiþ bir kiþiye ait girdiler verildiðinde "kredi riski yüksek" olduðunu tahmin etmesini beklersiniz ancak her zaman böyle olmaz. Modeller týpký insanlar gibi (böyle iþlemlerde insanlardan çok daha fazla) hatalý sýnýflandýrmalar yapabilir. Sýnýflandýrma için geliþtirilen bir model örnekteki gibi ikili sýnýflandýrmada dört farklý tahmin üretebilir.
Gerçek kredi riski yüksek olan bir kiþi (KR+) model tarafýndan "kredi riski yüksek" olarak tahmin edilirse buna doðru pozitif (TP), gerçekte kredi riski yüksek olmasýna raðmen "kredi riski düþük" olarak sýnýflandýrýlýrsa buna yanlýþ negatif (FN) denir. Gerçekte "kredi riski düþük" olan bir kiþi (KR-) model tarafýndan "kredi riski yüksek" olarak sýnýflandýrýlýrsa buna yanlýþ pozitif (FP), gerçekte "kredi riski düþük" olan bir kiþi "kredi riski düþük" olarak tahmin edilirse buna doðru negatif (TN) denir. Yanlýþ pozitif ve yanlýþ negatif sýrasýyla Tip I ve Tip II hata olarak adlandýrýlýr.
Bu durumu þöyle bir tablo ile gösterebiliriz:
| Gerçek Etiket | Tahmin Edilen Etiket | Sonuç |
| :-----------: | :------------------: | :---: |
| KR+ | KR+ | TP |
| KR+ | KR- | FN |
| KR- | KR+ | FP |
| KR- | KR- | TN |
Bu tabloyu kullanarak, modelinizin doðruluk, hassasiyet, geri çaðýrma, F1 skoru gibi çeþitli metriklerini hesaplayabilirsiniz. Bu metrikler, modelinizin ne kadar iyi çalýþtýðýný deðerlendirmenize yardýmcý olur. Ayrýca, modelinizin karar eþiðini deðiþtirerek, yanlýþ pozitif ve yanlýþ negatif hatalarýný azaltmaya çalýþabilirsiniz. Örneðin, kredi riski tahmininde, yanlýþ negatif hatalarý (gerçekte kredi riski yüksek olan kiþilere kredi vermek) yanlýþ pozitif hatalarýndan (gerçekte kredi riski düþük olan kiþilere kredi vermeyi reddetmek) daha maliyetli olabilir. Bu nedenle, modelinizin karar eþiðini yükselterek, yanlýþ negatif hatalarýný azaltabilirsiniz. Ancak, bu durumda yanlýþ pozitif hatalarýnýz artabilir. Bu yüzden, modelinizin performansýný deðerlendirirken, iþ probleminizin özelliklerini ve maliyetlerini de göz önünde bulundurmanýz gerekir.
Sýnýflandýrma performansýný ölçmek için kullanýlan bazý metrikler þunlardýr:
- Doðruluk: Modelin doðru tahmin ettiði veri öðelerinin toplam sayýsýnýn, tüm veri öðelerinin sayýsýna oranýdýr. Doðruluk, modelin genel performansýný ölçmek için kullanýlýr. Ancak, sýnýflar arasýnda dengesizlik olduðunda yanýltýcý olabilir. Örneðin, 100 veri öðesinden 90’ý A sýnýfýna ve 10’u B sýnýfýna ait olsun. Model, tüm veri öðelerini A sýnýfýna tahmin etse bile, doðruluðu %90 olacaktýr. Bu durumda, modelin B sýnýfýný hiç tanýmadýðýný göz ardý eder.
- Hassasiyet: Modelin A sýnýfý olarak tahmin ettiði veri öðelerinden, gerçekten A sýnýfýna ait olanlarýn oranýdýr. Hassasiyet, modelin yanlýþ pozitifleri (gerçekte A sýnýfýna ait olmayan ama A sýnýfý olarak tahmin edilen veri öðeleri) azaltma yeteneðini ölçmek için kullanýlýr.
- Duyarlýlýk: Modelin gerçekten A sýnýfýna ait olan veri öðelerinden, A sýnýfý olarak tahmin ettiði veri öðelerinin oranýdýr. Duyarlýlýk, modelin doðru pozitifleri (gerçekte A sýnýfýna ait olan ve A sýnýfý olarak tahmin edilen veri öðeleri) yakalama yeteneðini ölçmek için kullanýlýr.
- F1-Skoru: Hassasiyet ve duyarlýlýðýn harmonik ortalamasýdýr. F1-skoru, hassasiyet ve duyarlýlýk arasýnda bir denge saðlamak için kullanýlýr. F1-skoru, 0 ile 1 arasýnda bir deðer alýr. 1, mükemmel bir performansý, 0 ise en kötü performansý gösterir.
Örnek:
Bir banka, müþterilerinin kredi kartý borcunu ödeyip ödemeyeceðini tahmin etmek için bir makine öðrenmesi modeli geliþtirdi. Bu model 100.000 veriden oluþan test verisinin tamamýný "öder" olarak tahmin ederse doðruluðu %95 olur ancak model aslýnda hiçbir borcunu ödemeyen müþteriyi doðru tahmin etmemiþtir. Böyle bir durumda tek baþýna doðruluk metriðinin anlamý kalmaz. Kesinlik deðeri %0.0 olarak hesaplanýr. Pozitif tahmin deðeri %95 olarak hesaplanýr. Özgüllük deðeri %100 olarak hesaplanýr. Duyarlýlýk deðeri ise %0.0 olarak hesaplanýr. Modelin baþarýsýný deðerlendirmek için hangi metriklerin incelenmesi gerektiði çok önemlidir. Örnekte verilen bir problem durumu için kesinlik ve duyarlýlýk deðerlerinin önemi ön plana çýkmaktadýr. Geliþtirilen bir modelin sýnýflandýrma baþarýsý deðerlendirilirken bu tür durumlara dikkat edilmelidir.
Sayýsal tahmin, veri öðelerinin bir sayýsal deðerini tahmin etmek için kullanýlýr. Sayýsal tahmin performansýný ölçmek için kullanýlan bazý metrikler þunlardýr:
- Ortalama Mutlak Hata (MAE): Modelin tahminleri ile gerçek deðerler arasýndaki mutlak farklarýn ortalamasýdýr. MAE, modelin ne kadar hata yaptýðýný ölçmek için kullanýlýr. MAE, 0 ile sonsuz arasýnda bir deðer alýr. 0, mükemmel bir performansý, yüksek deðerler ise kötü bir performansý gösterir.
- Ortalama Kare Hata (MSE): Modelin tahminleri ile gerçek deðerler arasýndaki kare farklarýn ortalamasýdýr. MSE, MAE’ye benzer þekilde modelin hata miktarýný ölçmek için kullanýlýr. Ancak, MSE, büyük hatalarý daha fazla cezalandýrýr. MSE, 0 ile sonsuz arasýnda bir deðer alýr. 0, mükemmel bir performansý, yüksek deðerler ise kötü bir performansý gösterir.
- Kök Ortalama Kare Hata (RMSE): MSE’nin kareköküdür. RMSE, MSE ile ayný amaçla kullanýlýr. Ancak, RMSE, tahminler ile gerçek deðerler arasýndaki farkýn ölçeðinde bir deðer verir. RMSE, 0 ile sonsuz arasýnda bir deðer alýr. 0, mükemmel bir performansý, yüksek deðerler ise kötü bir performansý gösterir.
- R-Kare: Verilerin yerleþtirilmiþ regresyon hattýna ne kadar yakýn olduðunun istatistiksel bir ölçüsüdür. R-kare, modelin verileri ne kadar iyi açýkladýðýný ölçmek için kullanýlýr. R-kare, 0 ile 1 arasýnda bir deðer alýr. 1, mükemmel bir uyumu, 0 ise hiçbir uyum olmadýðýný gösterir.
Sosyal Medyada Paylaşın:



(c) Bu şiirin her türlü telif hakkı şairin kendisine ve/veya temsilcilerine aittir.