Linearna regresija

U statistici, linearna regresija se odnosi na svaki pristup modelovanja relacija između jednog ili više responsa (zavisnih promenljivih) označenog sa Y, i jedne ili više nezavisnih promenljivih označenih sa X, na način da takav model linearno zavisi od nepoznatih parametara procenjenih iz podataka.[1] Najčešće se linearna regresija odnosi na model u kojem je uslovna srednja vrednost od Y, uz datu vrednost X, afina funkcija od X. Slučaj sa jednom nezavisnom promenljivom se naziva jednostavna linearna regresija. Kad je obuhvaćeno više od jedne nezavisne promenljive, proces se zove višestruka linearna regresija.[2] Ovaj se termin razlikuje od multivarijantne linearne regresije, gde se višestruke korelisane zavisne promenljive predviđaju, umesto jedne skalarne promenljive.[3]
Mnogo ređe, linearna regresija se može odnositi na model u kojem se medijan, ili neki drugi kvantil uslovne distribucije Y za dato X izražava kao linearna funkcija od X. Kao i svi drugi oblici regresione analize, linearna regresija ima fokus na distribuciji uslovne verovatnoće od Y za dani X, a ne na distribuciji uslovne verovatnoće od Y i X, što je domen multivarijantne analize (Шаблон:Jez-eng-lat).[4][5][6]
Linearna regresija je bila prvi tip regresione analize[7][8] koja je detaljno proučavana i koja se ekstenzivno koristila u praktičnim primenama.[9] Razlog za ovo je da se modeli koji linearno zavise od svojih nepoznatih parametara lakše modeluju nego modeli sa nelinearnom zavisnošću od parametara. Takođe, statistička svojstva rezultirajućih estimatora se lakše određuju.
Linearna regresija ima mnogo praktičnih primena. Većina aplikacija linearne regresije spada u jednu od sledeće dve široke kategorije:
- Ako je cilj predviđanje ili prognoza, linearna regresija se može koristiti za podešavanje prediktivnog modela prema razmatranom skupu podataka vrednosti Y i X. Nakon razvoja ovakvog modela, ako je data vrednost za X bez pripadajuće vrednosti Y, model se može koristiti za predviđanje vrednosti Y.
- Ako je dostupna varijabla Y i veći broj varijabli X1, ..., X-{p}- koje mogu biti povezane sa Y, može se koristiti linearna regresiona analiza za kvantifikovanje jačine relacije između Y i Xj, za procenu koji je Xj uopšte vezan za Y, te da bi identifikovalo koji podskupovi od Xj sadrže redundantne informacije o Y, tako da kad je jedan od njih poznat, ostali više ne daju korisne informacije.
Linearni regresioni modeli se često podešavaju uz pomoć metode najmanjih kvadrata,[10][11] iako se mogu koristiti i drugi načini, kao što je minimizovanje „nedostatka podešenja” (Шаблон:Jez-eng-lat) u nekim drugim normama, ili minimizovanjem penalizirane verzije funkcije gubitaka najmanjih kvadrata, kao kod Tihonove regularizacije.[12][13][14]
Nasuprot tome, pristup metodom najmanjih kvadrata se može iskoristiti za podešavanje nelinearnih modela. Prema tome, pojmovi „najmanji kvadrati” i „linearni model” jesu usko povezani, ali nisu sinonimi.
Uvod

Uz zadati skup podataka od -{n}- statističkih jedinica, model linearne regresije pretpostavlja da se relacija između zavisne varijable i p-vektora regresora može približno uzeti kao linearna. „Približno” se ovde odnosi na „smetnje” εi — neposmatranu slučajnu varijablu koja dodaje šum u linearnu relaciju između zavisne varijable i regresora. Stoga, model ima oblik
gde je unutarnji produkat između vektora i .
Često su ovih -{n}- jednačina složene u vektorski oblik kao
gde je
Neke napomene vezane za terminologiju:
- je vektor izmerenih vrednosti ; se naziva regresand, zavisna varijabla, endogena varijabla, varijabla odgovora ili merena varijabla. Ova varijabla se ponekad naziva i predviđenom varijablom, ali to ne treba mešati sa predviđenim vrednostima, koje se označavaju sa . Odluka o tome koja se varijabla u skupu podataka modeluje kao zavisna varijabla, a koja kao nezavisna može se temeljiti na pretpostavci da je jedna od varijabli posledica ili pod uticajem druge varijable. Alternativno, može da postoji operacioni razlog za modelovanje jedne promenljive kao funkcije drugih, u kom slučaju nema potrebe za pretpostavljanjem uzročnosti.
- se može videti kao matrica od redova-vektora ili -{n}--dimenzionalnih kolonskih-vektora , koji su poznati kao regresori, eksogene promenljive, promenljive objašnjenja, kovarijati, inputne promenljive, prediktorske promenljive, ili nezavisne varijable (ovo ne treba mešati sa konceptom nezavisnih randomnih promenljivih). Matrica se ponekad naziva matricom dizajna.
- Шаблон:AnchorObično se konstanta uvrštava kao jedan od regresora. Posebno, za . Korespondirajući element β se naziva presek. Mnoge procedure statističke inferencije za linearne modele nalažu postojanje preseka, tako da se on obično uključuje čak i ako teoretska razmatranja sugerišu da njegova vrednost treba da bude jednaka nuli.
- Ponekad jedan od regresora može da bude nelinearna funkcija drugog regresora ili podatka, kao što je to slučaju u polinomskoj regresiji[15] i segmentnoj regresiji.[16] Model se smatra linearnim dokle god je linearan u pogledu parametra vektora β.
- Vrednosti x-{ij}- mogu da budu bilo izmerene vrednosti slučajnih promenljivih X-{j}- ili fiksne vrednosti izabrane pre merenja zavisnih promenljivih. Obe interpretacije mogu da budu podesne u različitim slučajevima, i generalno se koriste isti postupci procene; međutim u tim situacijama se koriste različiti pristupi asimptotskoj analizi.
Reference
Literatura
- Cohen, J., Cohen P., West, S.G., & Aiken, L.S. (2003). Applied multiple regression/correlation analysis for the behavioral sciences. (2nd ed.) Hillsdale, NJ: Lawrence Erlbaum Associates
- Charles Darwin. The Variation of Animals and Plants under Domestication. (1868) (Chapter XIII describes what was known about reversion in Galton's time. Darwin uses the term "reversion".)
- Шаблон:Cite book
- Francis Galton. Шаблон:Cite journal (1886). (Facsimile at: [1])
- Robert S. Pindyck and Daniel L. Rubinfeld (1998, 4h ed.). Econometric Models and Economic Forecasts, ch. 1 (Intro, incl. appendices on Σ operators & derivation of parameter est.) & Appendix 4.3 (mult. regression in matrix form).
- Шаблон:Cite journal
- Mathieu Rouaud, 2013: Probability, Statistics and Estimation Chapter 2: Linear Regression, Linear Regression with Error Bars and Nonlinear Regression.
- Шаблон:Cite book
Spoljašnje veze
Шаблон:Commonscat Шаблон:Литература
- -{R|https://web.archive.org/web/20070420165256/http://homepage.mac.com/nshoffner/nsh/CalcBookAll/Chapter%201/1functions.html}-
- Investment Volatility: A Critique of Standard Beta Estimation and a Simple Way Forward, C.TofallisDownloadable version of paper, subsequently published in the European Journal of Operational Research 2008.
- Scale-adaptive nonparametric regression (with Matlab software).
- In Situ Adaptive Tabulation Шаблон:Wayback: Combining many linear regressions to approximate any nonlinear function.
- Earliest Known uses of some of the Words of Mathematics. See: [2] for "error", [3] for "Gauss-Markov theorem", [4] for "method of least squares", and [5] for "regression".
- Perpendicular Regression Of a Line at MathPages
- Online regression by eye (simulation).
- Leverage Effect Interactive simulation to show the effect of outliers on the regression results
- Linear regression as an optimisation problem
- Visual Statistics with Multimedia
- Multiple Regression by Elmer G. Wiens. Online multiple and restricted multiple regression package.
- CAUSEweb.org Many resources for teaching statistics including Linear Regression.
- [6] "Mahler's Guide to Regression"
- Linear Regression - Notes, PPT, Videos, Mathcad, Matlab, Mathematica, Maple at Numerical Methods for STEM undergraduate
- Restricted regression - Lecture in the Department of Statistics, University of Udine
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite book
- ↑ Шаблон:Citation
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite book. New Haven, CT: Yale University Press.
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Citation
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite journal
- ↑ Statistical significance of segmented linear regression with break-point using variance analysis and F-tests. Download from [7] under nr. 13, or directly as PDF : [8]