REGRESYON DIŞINDA KALAN SIK KULLANILAN GÖZETİMLİ ÖĞRENME ALGORİTMALARI
Kaya Ridvan

REGRESYON DIŞINDA KALAN SIK KULLANILAN GÖZETİMLİ ÖĞRENME ALGORİTMALARI

K En Yak�n Kom�u (K-Nearest Neighbors-K-NN)
K En Yak�n Kom�u (K-Nearest Neighbors-K-NN) algoritmas�, bir veri noktas�n�n s�n�f�n�, kendisine en yak�n k kom�usunun s�n�flar�na g�re belirleyen bir makine ��renmesi y�ntemidir. Hem s�n�fland�rma hem de regresyon problemlerinde kullan�labilir.
K en yak�n kom�u algoritmas�, bir veri noktas�n�n hangi kategoriye ait oldu�unu belirlemek i�in, ona en yak�n olan di�er veri noktalar�na bakar. Bu algoritma, denetimli bir makine ��renmesi algoritmas�d�r, yani veri noktalar�n�n hangi kategorilere ait oldu�unu �nceden biliyoruz.
�rne�in, bir �i�e�in t�r�n� tahmin etmek istiyoruz. �i�e�in yaprak uzunlu�u ve geni�li�i gibi baz� �zelliklerine sahibiz. Bu �zellikleri kullanarak, �i�e�i bir grafikte g�sterebiliriz.
K en yak�n kom�u algoritmas�n�n temel mant��d�r. Bu algoritma, farkl� veri t�rleri ve �zellikleri i�in de kullan�labilir. �rne�in, bir ki�inin gelirini, ya��n�, e�itimini, mesle�ini gibi �zelliklerine g�re, kredi al�p alamayaca��n� tahmin etmek i�in de kullan�labilir.
K en yak�n kom�u algoritmas�n�n avantajlar� ve dezavantajlar� vard�r. Avantajlar� �unlard�r:
Basit ve anla��l�r bir algoritmad�r.
E�itim a�amas� yoktur, yani veri noktalar�n� �nceden i�lemeye gerek yoktur.
Farkl� veri t�rleri ve �zellikleri i�in uygulanabilir.
Dezavantajlar� ise �unlard�r:
Tahmin a�amas� yava� olabilir, ��nk� her yeni veri noktas� i�in, t�m veri setine bakmak gerekir.
Uzakl�k �l��t�, veri setinin �zelliklerine g�re se�ilmelidir. �rne�in, �zellikler aras�nda b�y�k farklar varsa, standartla�t�rma yapmak gerekir.
K say�s�n�n belirlenmesi, veri setine ve probleme g�re de�i�ir. K �ok k��kse, g�r�lt�ye duyarl� olabilir. K �ok b�y�kse, s�n�rlar belirsizle�ebilir.
Python dilinde K-NN algoritmas�n� uygulamak i�in, �ncelikle gerekli k�t�phaneleri i�e aktarmal�y�z. Bu k�t�phaneler �unlard�r:
pandas: Veri i�leme ve analizi i�in kullan�l�r.
sklearn: Makine ��renmesi modelleri ve metrikleri i�erir.
StandardScaler: Veriyi standartla�t�rmak i�in kullan�l�r.
Ard�ndan, veri setimizi okuyup, ba��ml� ve ba��ms�z de�i�kenleri ay�rmal�y�z. Veriyi standartla�t�rmak, uzakl�k temelli y�ntemlerde daha do�ru sonu�lar elde etmemizi sa�lar. Son olarak, KNeighborsClassifier s�n�f�ndan bir model olu�turup, veriye uydurmal�y�z. Modelimizi yeni veriler �zerinde tahmin yapmak i�in kullanabiliriz.
A�a��da, bir veri seti �zerinde K-NN algoritmas�n� uygulayan basit bir Python kodu �rne�i verilmi�tir. Kod blo�unda, her ad�m�n ne yapt��n� a��klayan yorum sat�rlar� bulunmaktad�r.
# Gerekli k�t�phaneleri i�e aktarma
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier # K-NN modeli
from sklearn.preprocessing import StandardScaler # Veriyi standartla�t�rmak
# Veri setini okuma
df = pd.read_csv("diabetes.csv")
# Ba��ml� ve ba��ms�z de�i�kenleri ay�rma
y = df["Outcome"] # Ba��ml� de�i�ken
X = df.drop(["Outcome"], axis=1) # Ba��ms�z de�i�kenler
# Veriyi standartla�t�rma
X_scaled = StandardScaler().fit_transform(X)
X = pd.DataFrame(X_scaled, columns=X.columns)
# K-NN modeli olu�turma ve veriye uydurma
knn_model = KNeighborsClassifier().fit(X, y)
# Yeni veriler �zerinde tahmin yapma
random_user = X.sample(5) # Rasgele 5 veri noktas� se�me
knn_model.predict(random_user) # Tahmin sonu�lar�n� g�sterme
Karar A�ac� (Decision Tree)
Karar a�ac� algoritmas�, verileri s�n�flara ay�rmak veya bir de�er tahmin etmek i�in kullan�lan bir makine ��renmesi y�ntemidir. Verilerdeki �zellikler, karar a�ac�n�n dallar�n� olu�turur. Her dalda, bir �zelli�e g�re veriler alt gruplara b�l�n�r. Bu i�lem, verilerin homojenli�i artana kadar devam eder. Karar a�ac�n�n yapraklar�, verilerin son s�n�flar�n� veya tahmin edilen de�erlerini g�sterir.
Karar a�ac� algoritmas�, hem say�sal hem de kategorik verilerle �al��abilir. Say�sal verilerde, bir �zelli�in belirli bir e�ik de�erinden b�y�k veya k��k olmas� gibi ko�ullar kullan�l�r. Kategorik verilerde, bir �zelli�in belirli bir kategoriye ait olmas� gibi ko�ullar kullan�l�r.
Karar a�ac� algoritmas�, verileri b�lmeden �nce, hangi �zelli�in en iyi b�l�nmeyi sa�lad��n� belirlemek i�in bir �l��t kullan�r. Bu �l��t, verilerin sahip oldu�u belirsizli�i veya karma��kl�� azaltmay� ama�lar. �l��t olarak, entropi, gini indeksi veya varyans gibi farkl� metrikler kullan�labilir.
Karar a�ac� algoritmas�, verileri �ok fazla b�lerek modelin a��r� uyum (overfitting) yapmas�na neden olabilir. A��r� uyum, modelin e�itim verilerinde �ok iyi performans g�stermesine, ancak yeni verilerde k�t� performans g�stermesine yol a�ar. A��r� uyumu �nlemek i�in, karar a�ac�n�n b�y�mesini s�n�rlayan baz� parametreler kullan�labilir. �rne�in, karar a�ac�n�n maksimum derinli�i, minimum yaprak say�s� veya minimum b�l�nme �rnek say�s� gibi parametreler ayarlanabilir.
Karar a�ac� algoritmas�, s�n�fland�rma veya regresyon problemlerinde kullan�labilir. S�n�fland�rma problemlerinde, verilerin bir s�n�fa ait olma olas�l��n� tahmin eder. Regresyon problemlerinde, verilerin bir say�sal de�erini tahmin eder.
Karar a�ac� algoritmas�n�n performans�n� de�erlendirmek i�in, farkl� metrikler kullan�labilir. S�n�fland�rma problemlerinde, hata matrisi (confusion matrix), modelin do�ru ve yanl�� tahminlerini g�steren bir tablodur. Hata matrisinden, kesinlik (precision), geri �a��rma (recall) ve do�ruluk (accuracy) gibi metrikler hesaplanabilir. Kesinlik, modelin do�ru tahmin etti�i s�n�f�n, t�m tahmin etti�i s�n�flar aras�ndaki oran�n� g�sterir. Geri �a��rma, modelin do�ru tahmin etti�i s�n�f�n, ger�ekten o s�n�fa ait olan t�m �rnekler aras�ndaki oran�n� g�sterir. Do�ruluk, modelin t�m s�n�flar� do�ru tahmin etme oran�n� g�sterir. Regresyon problemlerinde, ortalama mutlak hata (mean absolute error), ortalama karesel hata (mean squared error) veya k�k ortalama karesel hata (root mean squared error) gibi metrikler kullan�labilir. Bu metrikler, modelin tahmin etti�i de�erler ile ger�ek de�erler aras�ndaki fark� �l�er.
Python dilinde, karar a�ac� algoritmas� uygulamak i�in sklearn k�t�phanesi kullan�labilir. Sklearn k�t�phanesi, karar a�ac� olu�turmak, e�itmek, tahmin yapmak ve de�erlendirmek i�in farkl� fonksiyonlar sunar. Ayr�ca, karar a�ac�n�n grafiksel olarak g�sterilmesi i�in graphviz k�t�phanesi kullan�labilir.
A�a��da, sklearn k�t�phanesi kullan�larak karar a�ac� algoritmas� uygulayan basit bir Python kodu �rne�i verilmi�tir. Bu kod, iris veri k�mesini kullanarak, bir �i�e�in t�r�n� tahmin etmeye �al��r. Kodun a��klamalar� yorum sat�rlar� olarak verilmi�tir.
# Gerekli k�t�phaneleri i�e aktar
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix
from sklearn import tree
import graphviz
# Iris veri k�mesini y�kle
iris = pd.read_csv("raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv")
# Veri k�mesini ba��ms�z ve ba��ml� de�i�kenlere ay�r
X = iris.drop("species", axis=1) # Ba��ms�z de�i�kenler (�i�e�in �zellikleri)
y = iris["species"] # Ba��ml� de�i�ken (�i�e�in t�r�)
# Veri k�mesini e�itim ve test verileri olarak b�l
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Karar a�ac� s�n�fland�r�c�s�n� olu�tur
clf = DecisionTreeClassifier(criterion="gini", max_depth=3, random_state=42)
# Karar a�ac� s�n�fland�r�c�s�n� e�itim verileri ile e�it
clf.fit(X_train, y_train)
# Test verileri ile tahmin yap
y_pred = clf.predict(X_test)
# Model performans�n� de�erlendir
print("Hata Matrisi: ", confusion_matrix(y_test, y_pred))
print("S�n�fland�rma Raporu: ", classification_report(y_test, y_pred))
# Karar a�ac�n� grafiksel olarak g�ster
dot_data = tree.export_graphviz(clf, out_file=None, feature_names=X.columns, class_names=y.unique(), filled=True, rounded=True)
graph = graphviz.Source(dot_data)
graph.render("iris_decision_tree")
Destek Vekt�r Makineleri (SVM)
SVM, iki veya daha fazla s�n�f aras�ndaki verileri ay�rmak i�in kullan�lan bir makine ��renmesi y�ntemidir. SVM, verileri en iyi �ekilde ay�ran bir do�ru veya d�zlem bulmaya �al��r. Bu do�ru veya d�zleme karar s�n�r� denir. Karar s�n�r�, iki s�n�f�n en yak�n noktalar�na (destek vekt�rleri) e�it uzakl�kta olmal�d�r. Bu uzakl��a marj denir. Marj ne kadar b�y�kse, s�n�fland�rma o kadar iyi olur.
SVM, do�rusal olarak ayr�labilen veriler i�in iyi �al��r. Ancak baz� veriler do�rusal olarak ayr�lamaz. Bu durumda, SVM, verileri daha y�ksek boyutlu bir uzaya aktararak s�n�fland�rma yapabilir. Buna kernel trick denir. Kernel trick, verilerin karma��kl��n� azaltmak i�in farkl� fonksiyonlar kullan�r. �rne�in, polinom kernel, verileri polinom fonksiyonu ile �arparak daha y�ksek boyutlu bir uzaya aktar�r. Gaussian RBF kernel, verilerin belirli bir noktaya ne kadar benzedi�ini normal da��l�m ile hesaplar.
Python’da SVM kullanmak i�in scikit-learn k�t�phanesini kullanabilirsiniz. Bu k�t�phanede SVC (Support Vector Classifier) ve SVR (Support Vector Regressor) s�n�flar� bulunur. SVC, s�n�fland�rma problemleri i�in, SVR ise regresyon problemleri i�in kullan�l�r. Ayr�ca kernel, C, degree, gamma gibi hiperparametreleri ayarlayabilirsiniz. Bu hiperparametreler, SVM’in performans�n� etkiler.
A�a��da, scikit-learn ile basit bir SVM �rne�i verilmi�tir. Bu �rnekte, iris veri seti kullan�lm��t�r. Iris veri seti, �� farkl� t�rdeki iris �i�e�inin yaprak uzunluklar� ve geni�liklerini i�erir. SVM, bu verileri kullanarak �i�ek t�rlerini s�n�fland�rmaya �al��r.
python
# K�t�phaneleri i�e aktarma
from sklearn import datasets
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
# Veri setini y�kleme
iris = datasets.load_iris()
X = iris.data # �zellikler
y = iris.target # S�n�flar
# Veri setini e�itim ve test olarak b�lme
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# SVM modelini olu�turma
svm = SVC(kernel="rbf", C=1.0, gamma=0.1) # RBF kernel, C=1.0, gamma=0.1 olarak ayarland�
# Modeli e�itim verisi ile e�itme
svm.fit(X_train, y_train)
# Modeli test verisi ile de�erlendirme
y_pred = svm.predict(X_test) # Test verisinde tahmin yapma
acc = accuracy_score(y_test, y_pred) # Do�ruluk skorunu hesaplama
print("Accuracy:", acc) # Do�ruluk skorunu yazd�rma
Bu kodu �al��t�rd��n�zda, do�ruluk skorunun yakla��k olarak 0.95 oldu�unu g�rebilirsiniz. Bu, SVM’in iris veri setini olduk�a iyi s�n�fland�rd��n� g�sterir.
Topluluk ��renmesi (Ensemble Learning)
Topluluk ��renmesi, birden fazla makine ��renmesi modelinin bir arada kullan�larak daha iyi sonu�lar elde etmeyi ama�layan bir y�ntemdir. Bu y�ntemde, farkl� modellerin tahminleri birle�tirilerek nihai bir karar verilir. Topluluk ��renmesi, tek bir modelin yetersiz kald�� veya a��r� uyum yapt�� durumlarda faydal� olabilir. Topluluk ��renmesi modelleri, temel modellerin nas�l e�itildi�i ve nas�l birle�tirildi�ine g�re �� ana kategoriye ayr�labilir: torbalama, y�kseltme ve y��ma.
Torbalama, e�itim verisinin rastgele alt k�melerini alarak ayn� t�rden modelleri paralel olarak e�itir. Bu modellerin tahminleri, s�n�fland�rma i�in �o�unluk oyu, regresyon i�in ise ortalama alma y�ntemiyle birle�tirilir. Torbalama, modellerin varyans�n� azaltarak daha kararl� bir sonu� verir. Torbalama y�ntemlerinden en bilineni, karar a�a�lar�ndan olu�an Rastgele Orman (Random Forest) algoritmas�d�r.
Y�kseltme, e�itim verisinin bir alt k�mesiyle bir model e�itir, sonra bu modelin hatal� tahmin etti�i �rneklerin a��rl��n� art�rarak yeni bir model e�itir. Bu i�lem, belirli bir say�da model elde edilene kadar tekrarlan�r. Bu modellerin tahminleri, s�n�fland�rma i�in a��rl�kl� oylama, regresyon i�in ise a��rl�kl� ortalama alma y�ntemiyle birle�tirilir. Y�kseltme, modellerin sapmas�n� azaltarak daha do�ru bir sonu� verir. Y�kseltme y�ntemlerinden en bilinenleri, AdaBoost, Gradient Boosting ve XGBoost algoritmalar�d�r.
Y��ma, farkl� t�rden modelleri e�itim verisiyle e�itir, sonra bu modellerin tahminlerini yeni bir e�itim verisi olarak kullanarak bir �st model (meta model) e�itir. Bu �st model, temel modellerin tahminlerini birle�tirerek nihai bir sonu� verir. Y��ma, modellerin �e�itlili�ini art�rarak daha esnek bir sonu� verir. Y��ma y�ntemlerinden en bilineni, Stacking algoritmas�d�r.
Scikit-learn k�t�phanesi, Python dilinde makine ��renmesi uygulamalar� i�in pop�ler bir ara�t�r. Bu k�t�phanede, sklearn.ensemble mod�l� alt�nda �e�itli topluluk ��renmesi modellerine eri�ilebilir. Bu modeller, veri analizi, s�n�fland�rma ve regresyon gibi g�revler i�in kullan�labilir.
Rastgele Orman (Random Forest)
Rastgele Orman algoritmas�, birden fazla karar a�ac� kullanarak s�n�fland�rma veya regresyon problemlerini ��zmek i�in tasarlanm�� bir makine ��renmesi algoritmas�d�r. Bu algoritma, e�itim verilerinin alt k�melerini rastgele se�erek (torbalama) ve her a�a�ta kullan�lacak �zellikleri rastgele belirleyerek (rastgele alt uzay) farkl� karar a�a�lar� olu�turur. Bu �ekilde, her a�a� verilere a��r� uyum sa�lamaz ve a�a�lar aras�ndaki korelasyon azal�r. Sonu� olarak, a�a�lar�n tahminleri ortalamas� al�narak (s�n�fland�rma i�in modu) daha do�ru ve kararl� bir sonu� elde edilir.
GradientBoost ve XGBoost ise, y�kseltme (boosting) ad� verilen ba�ka bir topluluk y�ntemidir. Bu y�ntemde, her yeni a�a�, �nceki a�a�lar�n hatalar�n� d�zeltmek i�in e�itilir. B�ylece, her a�a� �nceki a�a�lara bir iyile�tirme katk�s� sa�lar. GradientBoost, kay�p fonksiyonunun gradyan�n� hesaplayarak hatalar� minimize etmeye �al��r. XGBoost ise, GradientBoost’un geli�tirilmi� bir versiyonudur. XGBoost, a�a�lar�n karma��kl��n� d�zenlemek i�in L1 ve L2 d�zenlile�tirme terimleri kullan�r. Ayr�ca, e�itimi h�zland�rmak ve bellek kullan�m�n� azaltmak i�in verileri histogramlara d�n��t�r�r.
Python kodlar� ile Rastgele Orman, GradientBoost ve XGBoost algoritmalar�n� kullanmak i�in a�a��daki �rnekleri inceleyebilirsiniz.
python
# Rastgele Orman i�in
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification
from sklearn.metrics import accuracy_score
# Rastgele bir s�n�fland�rma verisi olu�tural�m
X, y = make_classification(n_samples=100, n_features=10, n_classes=2, random_state=42)
# Rastgele Orman s�n�fland�r�c�s�n� tan�mlayal�m
rfc = RandomForestClassifier(n_estimators=100, max_features="sqrt")
# S�n�fland�r�c�y� verilere uydural�m
rfc.fit(X, y)
# Tahminleri alal�m
y_pred = rfc.predict(X)
# Do�rulu�u hesaplayal�m
acc = accuracy_score(y, y_pred)
print("Rastgele Orman - Do�ruluk: ", acc)
# GradientBoost i�in
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.datasets import make_classification
from sklearn.metrics import accuracy_score
# Rastgele bir s�n�fland�rma verisi olu�tural�m
X, y = make_classification(n_samples=100, n_features=10, n_classes=2, random_state=42)
# GradientBoost s�n�fland�r�c�s�n� tan�mlayal�m
gbc = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1)
# S�n�fland�r�c�y� verilere uydural�m
gbc.fit(X, y)
# Tahminleri alal�m
y_pred = gbc.predict(X)
# Do�rulu�u hesaplayal�m
acc = accuracy_score(y, y_pred)
print("GradientBoost - Do�ruluk: ", acc)
# XGBoost i�in
from xgboost import XGBClassifier
from sklearn.datasets import make_classification
from sklearn.metrics import accuracy_score
# Rastgele bir s�n�fland�rma verisi olu�tural�m
X, y = make_classification(n_samples=100, n_features=10, n_classes=2, random_state=42)
# XGBoost s�n�fland�r�c�s�n� tan�mlayal�m
xgb = XGBClassifier(n_estimators=100, learning_rate=0.1, reg_lambda=1, reg_alpha=0)
# S�n�fland�r�c�y� verilere uydural�m
xgb.fit(X, y)
# Tahminleri alal�m
y_pred = xgb.predict(X)
# Do�rulu�u hesaplayal�m
acc = accuracy_score(y, y_pred)
print("XGBoost - Do�ruluk: ", acc)

Sosyal Medyada Paylaşın:

Kaya Ridvan Şiirleri

En Çok Okunan Şiirleri

Bir Veri Setinden Ürün Tahmini Yapmak İçin Bir Makine Öğrenmesi Modeli Eğitmek CANVA VE HeyGen Kullanarak Yapay Zekayla Konuşan Avatar Videoları Oluşturma UYGULAMALI ETKİLİ PROMPT ÖRNEKLERİ PYTHONLA YAPAY ZEKALI HASTALIK DANIŞMA CHATBOTU Şizofreni Hastalarının Konuşma Ve Yazma Metinlerinden PANSS (Pozitif ve Negatif Sendrom Ölçeği) Skorlarını Tahmin Etmek İçin Bir Makine Öğrenmesi Projesi YAPAY ZEKA DİL MODELİ BİNG'İ KANDIRMAK İÇİN PROMPTLAR Pandas Seri / DataFrame Birleştirme Depresyon Veri Setini Kullanarak Bir Yapay Sinir Ağı Modeli Oluşturmak ve Eğitmek PYTHONLA BİTKİ HASTALIKLARINI TANIYAN BİR SİNİR AĞI MODELİNİ EĞİTMEK VE DEĞERLENDİRMEK YAPAY ZEKA HAYIR MI ŞER Mİ?

Anasayfa

Şiirler

Yazılar

Forum

Nedir?

Kitap

Bi Cümle

İletişim

REGRESYON DIŞINDA KALAN SIK KULLANILAN GÖZETİMLİ ÖĞRENME ALGORİTMALARI