2 Basit Doğrusal Regresyon
2.1 Basit Doğrusal Regresyon Modeli ve Katsayılar
Uyarı: Bu bölümde Basit Doğrusal Regresyon hakkında bazı temel bilgiler verilecektir, sadece uygulama ile ilgilenenler, R ile Basit Doğrusal Regresyon Uygulaması kısmına geçebilir.
Not: Daha detaylı öğrenmek için İlker Birbil’in Youtube’da, Veri Defteri kanalındaki Doğrusal Bağlanım 1-2 videolarını izlemelerini tavsiye ederim. Ayrıca kaynakça kısmından da yararlandığım kaynakları kurcalayabilirsiniz.
2.1.1 Basit Doğrusal Regresyon Modeli
Basit doğrusal regresyon modeli, tek bir açıklayıcı(bağımsız) değişken ile açıklanan(bağımlı) değişken arasında doğrusal(lineer) bir ilişki olduğunda, açıklayıcı(bağımsız) değişken yardımıyla açıklanan(bağımlı) değişkeni tahmin etmek(öngörmek) için kullanılan bir yöntemdir.
Y=β0+β1X+ϵ
Yukarıdaki denklem ile doğrusal bir model kurabiliriz. Bu modelde β0 kesim noktası, β1 doğrunun eğimi,ϵ hata terimidir.
Bir pazarlama firması televizyon, gazete ve radyoya verdiği reklamların satışlar üzerindeki etkisini araştırıyor olsun.
sales ≈β0+β1×TV
sales ve TV değişkenleri arasındaki doğrusal model yukarıdaki gibi olur.
ˆy=ˆβ0+ˆβ1x+e
Yukarıdaki denkleme, örneklem regresyon fonksiyonu(ÖRF) denir.Burada X=x durumunda, ˆy Y’nin tahmincisi, ˆβ0 kesim noktasının(β0) tahmincisi, ˆβ1 doğrunun eğim(β1) tahmincisidir, e ise artıktır.

Şekil 2.1: Basit Doğrusal Regresyon Modeli-1
2.1.2 Artıklar
Örneklem regresyon fonksiyonu(3) yardımıyla bulunan öngörü değerleri ile gerçek değerlerin arasındaki farka artıklar(residuals) denir. i. artık; ei=yi−ˆyi formülü ile hesaplanır.
Artık(Hata) Kareler Toplamı(AKT)(residualsumofsquares(RSS))
RSS=e21+e22+⋯+e2n
RSS=(y1−ˆβ0−ˆβ1x1)2+(y2−ˆβ0−ˆβ1x2)2+…+(yn−ˆβ0−ˆβ1xn)2
2.2 En Küçük Kareler Yöntemi (EKK)
En küçük kareler yöntemi hata kareleri minimum yapmak üzerine kuruludur. Hata kareler toplamı dış bükey bir fonksiyondur. Minimum yapmak için hata kareler toplamının türevi alınır. Bu yöntem yardımıyla ˆβ0 ve ˆβ1 katsayıları tahmin edilir.
2.2.1 Katsayıların Tahmini
ˆβ1=∑ni=1(xi−ˉx)(yi−ˉy)∑ni=1(xi−ˉx)2
ˆβ0=ˉy−ˆβ1ˉx
Burada ˉy≡1n∑ni=1yi ve ˉx≡1n∑ni=1xi şeklindedir.
2.3 Artıkların ve Katsayıların Varyansı
2.3.1 Katsayıların Varyansı
Katsayıların varyansı aşağıdaki formüller ile hesaplanabilir;
SE(ˆβ0)2=σ2[1n+ˉx2∑ni=1(xi−ˉx)2],SE(ˆβ1)2=σ2∑ni=1(xi−ˉx)2
2.3.2 Artıkların Varyansı
Artıkların varyansı elimizdeki veri yardımıyla tahmin edilebilir. Bu tahmine artıkların standart hatası denir(residualstandarderror). Aşağıdaki formül ile hesaplanabilir;
RSE=√RSS/(n−2)
2.3.3 Güven Aralıkları
ˆβ1 için %95 güven aralığı; ˆβ1±2⋅SE(ˆβ1)
ˆβ0 için %95 güven aralığı; ˆβ0±2⋅SE(ˆβ0)
2.4 Katsayıların ve Modelin Anlamlılığı
Oluşturulan modelde katsayıların ve modelin genel olarak anlamlılığı test edilmelidir.
2.4.1 Katsayıların Anlamlılığı
Katsayıların anlamlı olup olmadığını test etmek için hipotez testlerinden yararlanılır. Hipotezler aşağıdaki gibi kurulur;
H0: X ve Y arasında ilişki yok. HA: X ve Y arasında ilişki var.
H0:β1=0 HA:β1≠0
(Bu hipotez ile parametrelerimizin 0’a eşit olup olmadığına bakılır.)
Hipotez testini yapmak için t değerini aşağıdaki formül ile hesaplanabilir.
tc=ˆβ1−0SE(ˆβ1)
|tc|>tα2,n−(k+1)
Hesapladığımız t değeri, tablodaki t değerinden büyükse H0 hipotezi reddedilir. H0 hipotezi reddedildiğinde, test edilen katsayıya anlamlıdır denilir.
2.4.2 Model Anlamlılığı
Modelin genel olarak anlamlılığını da incelemek gerekir. Bunun için F istatistiği değerine bakılabilir.
H0: Model anlamlı değildir. HA: Model anlamlıdır.
Hesaplanan F değeri tablodaki F değerinden büyük ise H0 hipotezi reddedilir. Model anlamlıdır denir. F değeri aşağıdaki formül ile hesaplanır.
Fc=SSReg/kSSRes/n−(k+1) (Burada k bağımsız değişken sayısıdır, basit doğrusal regresyonda bir tane bağımsız değişkenimiz olduğu için değeri 1’dir.)
F tablo değeri ise 0.05 anlamlılık düzeyinde aşağıdaki gibi bulunur. Ft=F0.05,k,n−(k+1) (Burada da k değerini 1 alıyoruz.)
Fc>Ft
Yukarıdaki eşitlik sağlanırsa H0 hipotezi reddedilir ve model anlamlıdır denilir.
SSReg ve SSRes’in nasıl bulunduğuna daha detaylı olarak Çoklu Doğrusal Regresyonda değinilecektir. Şimdilik F değerinin 60-70 gibi değerlerden yüksek olduğunda modelin anlamlı olduğunu düşünebilirsiniz.
2.4.3 R2 ile Modelin Açıklayıcılığı

Şekil 2.2: TSS, RSS, ESS
TSS(Total Sum of Squares): Toplam Kareler Toplamı RSS(Residuals Sum of Squares): Artık Kareler Toplamı ESS(Explanied Sum of Squares): Açıklanan Kareler Toplamı
Modeldeki bağımsız değişkenlerin, bağımlı değişkeni ne kadar açıkladığı R2 değeri ile ölçülebilir. Bu değer 0 ile 1 arasında değer alır. R2 değerinin 1’e yakın olması bağımsız değişkenlerin, bağımlı değişkenleri iyi bir şekilde açıkladığını gösterir. Aşağıdaki formül yardımıyla R2 değeri bulunabilir.
R2=TSS−RSSTSS=1−RSSTSS
Ayrıca R2=r2 eşitliği vardır. Yani X ve Y arasındaki korelasyon katsayısının karesi R2 değerini verir.
Cor(X,Y)=∑ni=1(xi−ˉx)(yi−ˉy)√∑ni=1(xi−ˉx)2√∑ni=1(yi−ˉy)2