2 Basit Doğrusal Regresyon

2.1 Basit Doğrusal Regresyon Modeli ve Katsayılar

Uyarı: Bu bölümde Basit Doğrusal Regresyon hakkında bazı temel bilgiler verilecektir, sadece uygulama ile ilgilenenler, R ile Basit Doğrusal Regresyon Uygulaması kısmına geçebilir.

Not: Daha detaylı öğrenmek için İlker Birbil’in Youtube’da, Veri Defteri kanalındaki Doğrusal Bağlanım 1-2 videolarını izlemelerini tavsiye ederim. Ayrıca kaynakça kısmından da yararlandığım kaynakları kurcalayabilirsiniz.

2.1.1 Basit Doğrusal Regresyon Modeli

Basit doğrusal regresyon modeli, tek bir açıklayıcı(bağımsız) değişken ile açıklanan(bağımlı) değişken arasında doğrusal(lineer) bir ilişki olduğunda, açıklayıcı(bağımsız) değişken yardımıyla açıklanan(bağımlı) değişkeni tahmin etmek(öngörmek) için kullanılan bir yöntemdir.

Y=β0+β1X+ϵ

Yukarıdaki denklem ile doğrusal bir model kurabiliriz. Bu modelde β0 kesim noktası, β1 doğrunun eğimi,ϵ hata terimidir.

Bir pazarlama firması televizyon, gazete ve radyoya verdiği reklamların satışlar üzerindeki etkisini araştırıyor olsun.

 sales β0+β1×TV

sales ve TV değişkenleri arasındaki doğrusal model yukarıdaki gibi olur.

ˆy=ˆβ0+ˆβ1x+e

Yukarıdaki denkleme, örneklem regresyon fonksiyonu(ÖRF) denir.Burada X=x durumunda, ˆy Y’nin tahmincisi, ˆβ0 kesim noktasının(β0) tahmincisi, ˆβ1 doğrunun eğim(β1) tahmincisidir, e ise artıktır.

Basit Doğrusal Regresyon Modeli-1

Şekil 2.1: Basit Doğrusal Regresyon Modeli-1

2.1.2 Artıklar

Örneklem regresyon fonksiyonu(3) yardımıyla bulunan öngörü değerleri ile gerçek değerlerin arasındaki farka artıklar(residuals) denir. i. artık; ei=yiˆyi formülü ile hesaplanır.

Artık(Hata) Kareler Toplamı(AKT)(residualsumofsquares(RSS))

RSS=e21+e22++e2n

RSS=(y1ˆβ0ˆβ1x1)2+(y2ˆβ0ˆβ1x2)2++(ynˆβ0ˆβ1xn)2

2.2 En Küçük Kareler Yöntemi (EKK)

En küçük kareler yöntemi hata kareleri minimum yapmak üzerine kuruludur. Hata kareler toplamı dış bükey bir fonksiyondur. Minimum yapmak için hata kareler toplamının türevi alınır. Bu yöntem yardımıyla ˆβ0 ve ˆβ1 katsayıları tahmin edilir.

2.2.1 Katsayıların Tahmini

ˆβ1=ni=1(xiˉx)(yiˉy)ni=1(xiˉx)2

ˆβ0=ˉyˆβ1ˉx

Burada ˉy1nni=1yi ve ˉx1nni=1xi şeklindedir.

2.3 Artıkların ve Katsayıların Varyansı

2.3.1 Katsayıların Varyansı

Katsayıların varyansı aşağıdaki formüller ile hesaplanabilir;

SE(ˆβ0)2=σ2[1n+ˉx2ni=1(xiˉx)2],SE(ˆβ1)2=σ2ni=1(xiˉx)2

2.3.2 Artıkların Varyansı

Artıkların varyansı elimizdeki veri yardımıyla tahmin edilebilir. Bu tahmine artıkların standart hatası denir(residualstandarderror). Aşağıdaki formül ile hesaplanabilir;

RSE=RSS/(n2)

2.3.3 Güven Aralıkları

ˆβ1 için %95 güven aralığı; ˆβ1±2SE(ˆβ1)

ˆβ0 için %95 güven aralığı; ˆβ0±2SE(ˆβ0)

2.4 Katsayıların ve Modelin Anlamlılığı

Oluşturulan modelde katsayıların ve modelin genel olarak anlamlılığı test edilmelidir.

2.4.1 Katsayıların Anlamlılığı

Katsayıların anlamlı olup olmadığını test etmek için hipotez testlerinden yararlanılır. Hipotezler aşağıdaki gibi kurulur;

H0: X ve Y arasında ilişki yok. HA: X ve Y arasında ilişki var.

H0:β1=0 HA:β10

(Bu hipotez ile parametrelerimizin 0’a eşit olup olmadığına bakılır.)

Hipotez testini yapmak için t değerini aşağıdaki formül ile hesaplanabilir.

tc=ˆβ10SE(ˆβ1)

|tc|>tα2,n(k+1)

Hesapladığımız t değeri, tablodaki t değerinden büyükse H0 hipotezi reddedilir. H0 hipotezi reddedildiğinde, test edilen katsayıya anlamlıdır denilir.

2.4.2 Model Anlamlılığı

Modelin genel olarak anlamlılığını da incelemek gerekir. Bunun için F istatistiği değerine bakılabilir.

H0: Model anlamlı değildir. HA: Model anlamlıdır.

Hesaplanan F değeri tablodaki F değerinden büyük ise H0 hipotezi reddedilir. Model anlamlıdır denir. F değeri aşağıdaki formül ile hesaplanır.

Fc=SSReg/kSSRes/n(k+1) (Burada k bağımsız değişken sayısıdır, basit doğrusal regresyonda bir tane bağımsız değişkenimiz olduğu için değeri 1’dir.)

F tablo değeri ise 0.05 anlamlılık düzeyinde aşağıdaki gibi bulunur. Ft=F0.05,k,n(k+1) (Burada da k değerini 1 alıyoruz.)

Fc>Ft

Yukarıdaki eşitlik sağlanırsa H0 hipotezi reddedilir ve model anlamlıdır denilir.

SSReg ve SSRes’in nasıl bulunduğuna daha detaylı olarak Çoklu Doğrusal Regresyonda değinilecektir. Şimdilik F değerinin 60-70 gibi değerlerden yüksek olduğunda modelin anlamlı olduğunu düşünebilirsiniz.

2.4.3 R2 ile Modelin Açıklayıcılığı

TSS, RSS, ESS

Şekil 2.2: TSS, RSS, ESS

TSS(Total Sum of Squares): Toplam Kareler Toplamı RSS(Residuals Sum of Squares): Artık Kareler Toplamı ESS(Explanied Sum of Squares): Açıklanan Kareler Toplamı

Modeldeki bağımsız değişkenlerin, bağımlı değişkeni ne kadar açıkladığı R2 değeri ile ölçülebilir. Bu değer 0 ile 1 arasında değer alır. R2 değerinin 1’e yakın olması bağımsız değişkenlerin, bağımlı değişkenleri iyi bir şekilde açıkladığını gösterir. Aşağıdaki formül yardımıyla R2 değeri bulunabilir.

R2=TSSRSSTSS=1RSSTSS

Ayrıca R2=r2 eşitliği vardır. Yani X ve Y arasındaki korelasyon katsayısının karesi R2 değerini verir.

Cor(X,Y)=ni=1(xiˉx)(yiˉy)ni=1(xiˉx)2ni=1(yiˉy)2