Veri Bilimi Regresyon Analizlerinde (Supervised) Önemli Kavramlar Rehberi (Cheat Sheet)

Yiğit Şener
4 min readMay 27, 2020

Bu yazıyı aslında bir regresyon analizinde kavramların hatırlanması için bir başucu rehberi gibi düşünebilirsiniz (cheat sheet). Bu rehber veri bilimi için kullanılan makine öğrenmesi algoritmalarından gözetimli öğrenme (supervised) modellerindeki regresyon analizleri için yapılmıştır. Yani hedef (bağımlı) değişkeniniz sürekli artan ya da azalan bir sayısal değer olması halinde kullanabilirsiniz (continuous values). Özellikle kaynaklarda denk gelebileceğiniz İngilizce ve Türkçe eş anlamlarını da eklemeye çalıştım.

Bağımsız Değişken (Independent Variables, Predictors, Design, Explanatory Variables, Exogenous)

Model girdileri dediğimiz veri deseninde yer alan bir ya da birden çok değişkendir. Basitçe belirtmek gerekirse bağımsız değişkenler ile bağımlı değişken tahmin edilmeye çalışılır.

Bağımlı Değişken (Dependent Variable, Target, Outcome, Response Variable, Endogenous)

Kısaca tahmin edilmek istenen değişkendir.Veri ile ilgili projelerin çıktı değişkeni olarak bilinir. Bu açıdan aslında bir çok disiplinde farklı isimde yer alsa da anlam olarak aynıdır. Bağımlı değişken, hedef değişkendir ve birden fazla olamaz. Sayısal ya da kategorik olabilir.

R Square-R² (R-Kare)

bağımsız bir değişken veya bir regresyon modelindeki değişkenler tarafından açıklanan bağımlı bir değişkenin varyans oranını temsil eden istatistiksel bir ölçüdür. Bu ölçü ile bağımlı değişkenin açıklama oranı verilir. 0 ile 1 arasında olup 1'e yakın oldukça başarı oranı yüksek anlamına gelir.

Adjusted R Square-R² (Düzeltilmiş R-Kare)

Düzeltilmiş R-kare, modeldeki değişkenlerin sayısı için ayarlanmış olan R-karenin değiştirilmiş bir versiyonudur. Düzeltilmiş R-kare, herhangi bir yeni değişken modele eklendiği değeri artar. Ancak düzeltilmiş R-kare yeni gelen değişkenin eğer bir etkisi bulunmuyorsa bunu göstermez. Düzeltilmiş R-kare ile R-Kare arasında her zaman bir fark bulunur. Ancak bu fark fazlalaşır ise modelin kontrol edilmesi gerekir.

P-Value (Probability Value, Statistically Significant)

Modelin istatistiksel olarak ne kadar anlamlı olup olmadığını belirten bir ölçüttür. Çıkan sonucun (hipoteze bağlı olarak) 0,05'den düşük olması modelin istatistiksel anlamda manidar olduğunu gösterir. Regresyon analizlerinde değişken bazlı göstergeleri de bulunmaktadır.

Multicollinearity (Çoklu doğrusallık)

Çoklu doğrusallık, bağımsız değişkenler arasında çok yüksek karşılıklı korelasyonun olduğu bir durumdur. Bu nedenle verilerde bulunacak bu tür sıkıntılardan dolayı modelleme aşamasında sonuçlar istatistiksel olarak güvenilir çıkmayabilir. VIF (aşağıdaki madde) değeri bu sorunu kontrol etmeye yaramaktadır.

Variance Inflation Factors VIF (Varyans Genişlik Faktörü)

Multicollinearity (Çoklu doğrusallık) ölçümlenmesinde VIF kullanılabilir. Genel görüş anlamında bir değişkenin VIF değeri 1 ise böyle bir sorun yoktur. 4'e yakın bir değer ise değişkene bir göz atmakta fayda var. Eğer 4 veya 4'ten büyük ise bir multicollinearity sorunu bulunuyor denilebilir.

Forward, Backward, Stepwise

Üç kavramda temelde model için değişken (bağımsız) seçimindeki stratejileri ortaya koyar (Feature Selection). Forward yöntemi ile tüm bağımsız değişkenler tek tek modele eklenerek model yorumlanır. 0 değişken ile başlanır ve değişken eklendikçe farklar gözlemlenerek değişkenin modele uygun olup olmadığına karar verilir. Backward yöntemi ile değişkenlerin hepsi modelde değerlendirilir. Modeli kötü etkilediği düşünülen teker teker çıkarılarak model yorumlanır. Stepwise yönteminde ise değişkenlerin hepsi sıralı olarak hem modele alınır hem de modelden çıkarılır. Böylece bir aradayken modelin istatistiksel gücünü artıran değişkenler de korunmuş olur.

Mean Error ME (Ortalama Hata)

Modelden çıkan sonuç ile gerçek sonuçların arasındaki farkın ortalamasını verir. Örneğin gerçek sonuçlar [10,12] ve model sonuçları ise [8,11];

(10–8) + (12–11) / 2 = 1,5= ME

ME yani ortalama hatası 1,5 diyebiliriz. Bu ölçütün dezavantajı ise eğer toplam ifadelerde negatif değerler pozitif değerleri götürür ise model hatası 0 görünme riski mevcuttur. Yukarıdaki örnek için 12 değerinin yerine 9 kullanılırsa hata ortalaması 0 çıkacaktır.

Mean Percentage Error MPE (Ortalama Yüzde Hata)

Ortalama hatanın yüzdelik ifade ile gösterimidir. Yukarıdaki örnekten devam edersek; gerçek sonuçlar = [10,12] ve model sonuçları =[8,11] olduğuna göre:

(((10–8) / 10) + ((12–11) / 12)) / 2 = 0.14 = MPE

Hata oranı (0.14 * 100) %14 olarak değerlendirilebilir. Ancak ME’deki risk burada da söz konusudur.

Mean Absolute Error MAE (Ortalama Mutlak Hata)

Bu yöntem ile ortalama hata ME ile riskli olan negatif toplamların 0'ı verme olasılığı mutlak değer alınarak çözümlenmektedir. Aynı işlemler yapılır fakat gerçek değerler ile model değerleri arasındaki farkın her zaman mutlak değeri alınır. Bu sayede negatif değerler ile pozitif değerler arasındaki matematiksel işlemlerde sıfırlanma riski azalır. ME örneğinde yer alan işlemlerin içerisine mutlak değer ifadelerini aşağıdaki gibi konumlandırabiliriz.

|(10–8)| + |(12–11)| / 2 = 1,5 = MAE

Mean Absolute Percentage Error MAPE (Ortalama Mutlak Yüzde Hata)

Mutlak değer (MAE) ile hesaplanan ortalama karelerin (ME) yüzdeliğinin hesaplanmış halidir. Bu ölçümlemenin riskli tarafı ise hataların kendi aralarındaki farkın yine gerçek rakama bölündüğünde sıfır vermesidir. MAE’de belirtilen örneğin aşağıdaki gibi yüzdelik halde gösterebiliriz.

(|((10–8) / 10)| + (|(12–11) / 12)|) / 2 = 0.14 = MAPE

Mean Squared Error MSE (Ortalama Kare Hata)

Ortalama kare hata ME’de olduğu gibi gerçek değerler ile modelden çıkan değerler arasındaki farkın karesidir. Bu farkın karesinin alınmasının iki sebebi bulunmaktadır. Bunlardan ilki pozitif yönde değer elde etmek ikincisi ise hatanın büyüklüğünü kareli ifadeler ile gösterebilmek. Diğer metriklerde olduğu gibi sıfıra yaklaşması modelin doğruluğunu güçlendirmektedir. Örneğimizi bu formüle göre düzenleyelim.

(10–8)² + (12–11)² / 2 = 4 = MAE

Root Mean Squared Error RMSE (Karekök Ortalama Kare Hata)

Yukarıda bahsedilen MSE felsefesinin karekökünün alınmış halidir. Bu sayede kareler ile ortadan kaldırılan matematiksel riskler karekökü alınarak gerçek sonuçların yorumlanmasına katkıda bulunur. Yukarıdaki örneğin sonucunun karekökünün alınmasıyla sonuç elde edilir.

Ordinary Least Squares OLS (Sıradan En Küçük Kareler)

Aslında bu yöntemin diğer adı lineer (doğrusal) regresyondur. Yöntemde en gerçek değerler ile model değerleri arasındaki farkların karesi minimuma indirgenmeye çalışılır.

Not: Çok sık karşılaşılan başka kavramlar ile karşılaştıkça ya da sizden bir tavsiye gelirse onları da buraya ekleyeceğim.

--

--