Regresyon analizi

Regresyon analizi, iki ya da daha çok değişken arasındaki ilişkiyi ölçmek için kullanılan analiz metodudur. Eğer tek bir değişken kullanılarak analiz yapılıyorsa buna tek değişkenli regresyon, birden çok değişken kullanılıyorsa çok değişkenli regresyon analizi olarak isimlendirilir. Regresyon analizi ile değişkenler arasındaki ilişkinin varlığı, eğer ilişki var ise bunun gücü hakkında bilgi edilinebilinir. Regresyon terimi için öz Türkçe olarak bağlanım sözcüğü kullanılması teklif edilmiş ise de [1] Türk ekonometriciler arasında bu kullanım yaygın değildir.

Örneğin, bir ziraatçı buğday verimi ve gübre miktarı arasındaki ilişkiyi, bir mühendis, basınç ve sıcaklık, bir ekonomist gelir düzeyi ve tüketim harcamaları, bir eğitimci öğrencilerin devamsızlık gösterdiği gün sayıları ve başarı dereceleri arasındaki ilişkiyi bilmek isteyebilir. Regresyon, iki (ya da daha çok) değişken arasındaki doğrusal ilişkinin fonksiyonel şeklini, biri bağımlı diğeri bağımsız değişken olarak bir doğru denklemi olarak , göstermekle kalmaz, değişkenlerden birinin değeri bilindiğinde diğeri hakkında kestirim yapılmasını sağlar. Genellikle bu iki (veya çok) değişkenlerin hepsinin niceliksel ölçekli olması zorunluluğu vardır.

Regresyonda, değişkenlerden biri bağımlı diğerleri bağımsız değişken olmalıdır. Buradaki mantık eşitliğin solunda yer alan değişkenin sağında yer alan değişkenlerden etkilenmesidir. Sağda yer alan değişkenlerse diğer değişkenlerden etkilenmemektedir. Burada etkilenmemek matematiksel anlamda bu değişkenleri bir doğrusal denkleme koyduğumuzda etki yapması anlamındadır. Çoklu doğrusallık, ardışık bağımlılık sorunları kastedilmemektedir.


Regresyon analizinin tarihi

Regresyon yönteminin ilk şekli en küçük kareler prensibidir ve ilk olarak Adrien Marie Legendre tarafından 1805de ortaya atılmıştır [2]. Hemen takiben 1809da C.F. Gauss [3] aynı yöntemi açıklamıştır. En küçük kareler terimi Legendre tarafından moindres carrés olarak kullanılmış, ancak Gauss aynı yöntemi 1795den beri kullandığını iddia etmiştir. Legendre ve Gauss bu yöntemi astronomik gözlemlerden uydularının güneş etrafındaki yörüngelerini tespit etmek için kullanırken ortaya çıkartmışlardır. 1748de Eüler'in aynı problem üzerinde uğraştığı, fakat başarı sağlayamadığı bilinmektedir. En küçük kareler kuramında sonraki gelişme Gauss'in 1821de yayınladığı bir makalede ortaya çıkartılmış[4] ve bu yayında Gauss sonradan kendi adı verilen Gauss-Markov teoreminin bir şeklini açıklamıştır.

Regresyon terimi 19. yüzyılda İngiliz istatistikçisi Francis Galton tarafından bir biyolojik inceleme için ortaya atılmıştır. Bu incelemenin ana konusu kalıtım olup, aile içinde baba ve annenin boyu ile çocukların boyu arasındaki bağlantıyı araştırmakta ve çocukların boylarının bir nesil içinde eski ata nesillerinin ortalamasına geri döndüklerini yani bir nesil içinde ortalamaya geri dönüş olduğu inceleme konusudur. Galton geri dönüş terimi için ilk yazısında İngilizce olarak reversion terimi kullanmışsa da sonradan aynı anlamda olan regression sözcüğü kullanmıştır.[5];[6] Bu çalışmalarında Galton istatistiksel 'regresyon' kavramını ve yöntemini de geliştirmiştir. Udny Yüle ve Karl Pearson bu yöntemi daha geniş genel istatistiksel alanlara uygulayıp geliştirmişlerdir..[7][8]. Bu yazılarda bağımlı ve bağımsız değişkenlerin normal dağılım gösterdiği varsayılmaktadır. Bu kısıtlayıcı varsayım R.A. Fisher 1922 ve 1925de yayınlar ile sadece bağımlı değişkenin koşullu dağılımının normal olduğu hallere uygulanmak üzere daha genişletilmiştir.[9][10]).

Bu kavramları ve yöntemleri genel olarak, kalıtım konusu dışında "ortalamaya geri dönüş" ile hiçbir ilgisi olmayan konularda, kullanan istatistikçiler regresyon terimini kullanmakta devam etmişlerdir. Zamanımızda, bu terim, kavram ve yöntemin Galton'un konusu ile bütün ilişkisi yok olmuştur ve artık regresyon terimi doğrusal bağlantı bulunması ve eğri uydurma ile eş anlamlar vermektedir.

Temeldeki varsayımlar

Doğrusal regresyon yöntemini kullanmak için temelde şu varsayımların bulunduğu kabul edilmektedir:[1]

Doğrusal regresyon

Anakütle doğrusal regresyon modeli

Doğrusal regresyonda, anakütle model belirlenmesine göre [1] bağımlı değişken parametrelerin bir doğrusal birleşiği olur. Dikkat edilirse parametrelerden bahis edilmektedir, çünkü bağımsız değişkenlerin bir doğrusal bileşiği olması gerekli değildir. Örneğin, tek bir bağımsız değişkenli () ve iki parametreli ( ve ):

dogru:

Burada bir hata terimidir ve alt-indeksleri bir belirlenmiş mümkün gözlemi ifade eder. Ayrıca , 'nci gözlemin regresyon doğrusuna olan uzaklığını ifade etmekte olup ortalaması 0 ve varyansı olan bir normal dağılış gösterir.

Çoklu doğrusal regresyonda iki veya daha çok sayıda bağımsız değişken veya bağımsız değişken fonksiyonu bulunur. Örneğin, önce verilmiş olan regresyon modeli yeni bir terim xi2 eklenerek degistirilirse; şu anakütle çoklu doğrusal regresyon modeli ortaya çıkar:

parabol:

Denklemin sağ tarafındaki bağımsız değişken için bir ikinci derece (kuadratik) ifade bulunmasına rağmen bu model hala doğrusal regresyon modelidir; çünkü üç tane parametre, yani , ve ile çoklu değişkenli doğrusaldır.

Daha genel çoklu doğrusal regresyon modelinde p tane bağımsız değişken olduğu varsayılır ve anakütle modeli şöyle ifade edilir:

veya biraz daha kısa olarak

İki Değişkenli regresyon katsayı kestirimleri

Anakütleden bir rastgele örneklem elde edilirse, bu anakütle parametreleri için örneklem tahminleri bulunur ve şu örneklem doğrusal regresyon denklemi elde edilir:

Burada terimi örneklemden elde edilen artık olur; ve

olur.

Bu örneklem regresyon denkleminin kestirimini elde etmenin yöntemi adi en küçük kareler (Ordinary least squares) olarak adlandırılır.[1] Bu yönteme göre parametre kestirimleri artıkların kare toplamının minimum (en küçük) değerini bulmakla elde edilir. Artıklar minimum toplamı AKT şudur:

Bu fonksiyonun minimum değerini bulmak her parametre ile birinci kısımsal türevi alınarak sıfıra eşitlenir. Böylece her kısimsal türeve göre bir denklem elde edilir. Örneğin iki parametreli doğrusal regresyon için iki değişkenli iki denklem elde edilir. Bu simultane denklem sitemine normal denklemler adı verilir ve bu simultane denklemler sistemi birlikte çözülüp her anakütle parametresi için bir kestrim değeri bulunur.

İki parametreli basit doğrusal regresyon için iki anakütle parametre kestirimleri olan şu normal denklemlerin birlikte çözülmesi ile elde edilir:

Burada bütün toplamlar i=1 den i=n kadardır ve örneklem toplamları, toplam kareleri ve toplam karşı çarpımı ile elde edilirler.

Bu iki değiskenli iki doğrusal denklem için çeşitli çözüm yolları vardır. Burada Cramer'in kuralı kullanılıp şu ifade elde edilir:

burada

Böylece iki parametreli doğrusal regresyon icin en küçük kareler parametre tahminleri için formüller şöyledir:

a

ve

Burada gözlem değerlerinin ortalaması ve ise gözlem değerlerinin ortalamasıdır.

Bir veri serisi için kırmızı noktalar) doğrusal regresyon.

Çok değişkenli regresyon katsayı kestirimleri

Çok değişkenli regresyon için regresyon katsayısı kestrimi de iki değişkenli regresyon hâli gibi en küçük kareler yöntemi ile yapılır.[1] Bu demektir ki kestirmde ortaya çıkacak artıkların karelerinin toplamı minimize edilecektir. Artıklar ri olur ve minimize edilecek objektif fonksiyon soyle ifade edilir:

Her bir artık, gözlemi yapılan bir değer ile kestirim modelini kullanarak elde edilen bir kestirim değeri arasındaki farktır:

En küçük kareler yöntemine göre S, toplam artıklar karesi, minimize edilecektir. Belirli koşullar gecerli ise, elde edilecek parametre kestrimleri (Gauss-Markov teoremine göre) en küçük varyans gösteren kestirim ve hatta maksimum değişirlilik özelliği gösteren dogrusal kestirim olabilirler.

Anakütle regresyon katsayılarının kestirim regresyon katsayıları için bir ^ (şapka) notasyonu kullanılanılır: yani . Genellikle çok değişkenli regresyon için normal denklemler şöyle ifade edilir

Matris notasyonu kullanılırsa, normal denklemler şöyle yazılabilir:

Eğer matrisi singuler değilse

,

Bu doğru uydurma tahminleridir.

Hatalar varyansı ve toplam kareler

Anakütle hatalarının normal dağılım gösterdiğine dair bir diğer varsayımı da kullanarak incelemeci önce hatalar varyansı ve toplam kareler değerlerini bulur ve bunları kullanarak tahmin edilen denklem ve parametreler üzerinde çıkarımsal istatistik sonuçlara varabilir.[1]

Anakütle hata teriminin sabit bir varyansı bulunduğu varsayımına göre, hatalar varyansı kestirimi şöyle bulunur:

Bu ifadeye regresyon için kare kök ortalama hata karesi adı verilir. Parametre kestirimleri için standart hata şöyle bulunur:

Örneklem veri serisinin değişebilirliği değişik toplam kareler suretiyle ifade edilebilirler.

.

Bir regresyon modeli için parametreler, en küçük kareler yöntemi kullanılarak, tahmin edildikten sonra regresyon kontrol etme yöntemleri (yani çıkarımsal kontrol) uygulamak gerekir. Bunlar bulunan tahmin edilmiş genel doğrusal denklemin örnekleme uyum iyiliği sınaması ve kestirimci regresyon katsayılarının tektek istatistiksel anlamlılığını sınamak veya güvenlik aralığı sağlamak olarak özetlenir.

Kestirim denklemin genel uyum iyiliğinin çıkarımsal kontrolü

Tahmin edilen doğrusal regresyon denkleminin genel olarak örnekleme uygun olup olmadığı için uygulanan çıkarımsal istatistik işlemleri iki türde olabilir:[1]

Bu iki çıkarımsal kontrol aynı konunun çıkarımsal kontrolu için kullanılır: tahmin regresyon denkleminin tümünün uygun olup olmadığı. Bu nedenle iki yöntemden tek birini kullanmak yeterlidir. Buna rağmen birçok pratik analizde her iki çıkarımsal analiz de kullanılmaktadır; çünkü ikisinde hesaplanması için nerede ise aynı yöntem kullanılır ve eger istatistik veya ekonometrik kompüter paketi kullanılırsa her iki yöntem için gerekli sonuçlar birlikte verilir.

Belirleme katsayısı yani R-kare (R2) değeri

Belirleme katsayısı yani (R2) ) R-kare) için en genel tanımlama förmülü sudur:[1]

.

yani (1-toplam hatalar karesi) ile (tüm toplam kareler) oranı; veya (1-Artıklar toplam karesi) ile (tüm toplam kareler) oranı.

Çıkarımsal analizde R-kare değeri bulunur ve bulunan değer doğru hesaplanmışsa 0 ile 1 arasında olmalıdır. Yapılan bu analiz ceşitli hallerde açıklanabilir:

Genel olarak:

F-testi

Regresyon denklem uyum iyiliği için F-testi için sıfır hipotez (H0) anakutle model katsayilarinin hepsinin değerinin 0 (sifir)a eşit olduğudur.[1] Yani sıfır hipotez gerçekse hesap ile elde edilen katsayi kestirimlerinin hepsi anakütle için 0dir yani hiçbir etki ve bağlantı anlamı vermez. Bu basamağa kadar yapılmış olan analizin bir kenara bırakılması ve diğer bir modelin bulunup kullanılması gerekir. Eğer sıfır hipotez reddedilirse regresyon kestirimleri genellikle uygundur ve cikarimsal kontrol analizine devam edilir.


Kestirimi yapılan her tek regresyon parametresinin değerinin çıkarımsal kontrolu

Yani bu tahmin edilmiş standart hataları kullanarak her tek anakütle regresyon parametresi hakkında kestirim güvenlik aralıkları kurabilir ve hipotez sınamaları yapılabilir.[1]

İnterpolasyon ve ekstrapolasyon

Regresyon modelleri kullanarak kestirim yapılmak istenirse, bağımsız değişken olan değişken veri değerleri verilirse bağımlı değişken için kestrim değerleri () tahmin etmek için kullanabilirler.

Eğer bu kestirim, modeli kurmak için kullanılan değişken değerleri için yapılıyorsa, bu işlem interpolasyon olarak adlandırılır. Eğer kestirim modeli kurmak için kullanılan bağımsız değişken değerlerinin dışındaki değerler ile yapılırsa, ekstrapolasyon olarak adlandırılır ve ekstrapolasyon çok daha yanlı olabilir.

Diğer yaklaşımlar

Ağırlıklı en küçük kareler yöntemi

En küçük kareler yöntemi kullanılırken yapılan temel varsayımlarindan biri hata terimi varyanslarının birbirine esit olduğudur. Eğer gözlem hataları birbirine eşit olmayan hata terimi varyanslari gösteriyorlarsa, en küçük kareler yönteminin bu önemli varsayımı ihlal edilmiş olur ve en küçük kareler yöntemi ile elde edilen regresyon kestirimleri anlamlı olmayabilir. Bu sorunu çözümlemek için her gözleme ayrı ağırlık vererek en küçük kareler yöntemi uygulamak imkânı vardır ve bu genelleştirmeye ağırlıklı en küçük kareler adı verilir. Ağırlıklı En Küçük Kareler Yöntemi,değişkenlere ağırlık vererek veya değişkenlerin önem derecesini değiştirerek uygulanan en küçük kareler yöntemidir.

Değişkenlerde-hatalar modeli

En küçük kareler yöntemi kullanılırken yapılan temel varsayımlarından biri de gözlem hatalarının yalnızca bağımlı değişkenlerde yapıldığı ve bağımsız değişkende gözlem hatası bulunmadığıdır. Eğer bağımlı değişkende hata bulunduğu ve bunun elde edilen regresyon kestirim değerlerine çok etki yaptığı bilinirse, degiskenlerde-hatalar-modeli veya diğer ismi ile total en kucuk kareler modeli ve bu modelle ilişkili kestirim yöntemleri kullanılabilir.

Genelleştirilmiş doğrusal model

Eğer anakütle regresyon modeli içindeki hatalar için olasılık dağılım fonksiyonu bir normal dağılım göstermiyorsa genelleştirilmiş doğrusal model kullanılabilir. Bu halde hatalarin olasılık dağılım fonksiyonu ussel dağılım, gamma dağılımı, ters Gauss tipi dağılım, Poisson dağılımı, binom dağılım, multinom dağılım vb. olabilir.

Doğrusal olmayan regresyon

Eğer değişkenler hakkında kurulan teori dolayasıyla anakutle modeli parametrelri ile doğrusal değilse, kestirim yapılırken toplam kareleri tekrarlama usulu kullanarak minimize edilmesi gerekir. Bu kullanılan tekrarlama yöntemi birçok karışık sorunlar ortaya çıkarır. Bunların özet olarak incelenmesi için doğrusal olmayan regresyon#Dogrusal olmayan ve dogrusal en kucuk kareler arasindaki farklar maddesine bakiniz.[1]

İçsel kaynaklar

Kaynakça

  1. 1 2 3 4 5 6 7 8 9 10 11 Gujarati, Damodar (çev. Ümit Şenesen, Gülay Günlük Şenesen) (2008) Temel Ekonometri, Literatür Yayınları ISBN 975-7860-99-9.
  2. A.M. Legendre (1805), Nouvelles méthodeş pour la détermination des orbites des comètes. “Sur la Méthode des moindres quarrés” bir ek bölümde bulunur.
  3. C.F. Gauss (1809), Theoria Motus Corporum Coeleştium in Sectionibüs Conicis Şölem Ambientum.
  4. C.F. Gauss (1821/1823). Theoria çombinationis observationum erroribüs minimiş obnoxiae.
  5. Francis Galton (1877), "Typical laws of heredity", Nature 15, 492-495, 512-514, 532-533. (Galton burada bezelyelerle yaptığı kalıtım deneyi sonucunda reversion terimi kullanır.)
  6. Francis Galton (1885) Presidential address, Section H, Anthropology.(Burada insanlarin boylari uzerinde yaptigi arastirma sonucu için "regression" terimi kullanir.)
  7. G. Udny Yule (1897) "On the Theory of Correlation", J. Royal Statist. Soç., 1897, p. 812-54.
  8. Karl Pearson, G.U.Yüle, Norman Blanchard, and Alice Lee (1903). "The Law of Ancestral Heredity", Biometrika
  9. R.A. Fisher (1922), "The goodness of fit of regression formulae, and the distribution of regression çoefficients", J. Royal Statist. Soç., 85, 597-612
  10. R.A. Fisher (1925),Statistical Methods för Research Workers

Bibliyografya

Evan J. Williams, "I. Regression," say. 523-41.
Julian C. Stanley, "II. Analysis of Variance," pp. 541-554.

Dış bağlantılar

This article is issued from Vikipedi - version of the 10/21/2016. The text is available under the Creative Commons Attribution/Share Alike but additional terms may apply for the media files.