Linearna regresija

Извор: testwiki
Пређи на навигацију Пређи на претрагу
Primer linearne regresije s jednom nezavisnom promenljivom

U statistici, linearna regresija se odnosi na svaki pristup modelovanja relacija između jednog ili više responsa (zavisnih promenljivih) označenog sa Y, i jedne ili više nezavisnih promenljivih označenih sa X, na način da takav model linearno zavisi od nepoznatih parametara procenjenih iz podataka.[1] Najčešće se linearna regresija odnosi na model u kojem je uslovna srednja vrednost od Y, uz datu vrednost X, afina funkcija od X. Slučaj sa jednom nezavisnom promenljivom se naziva jednostavna linearna regresija. Kad je obuhvaćeno više od jedne nezavisne promenljive, proces se zove višestruka linearna regresija.[2] Ovaj se termin razlikuje od multivarijantne linearne regresije, gde se višestruke korelisane zavisne promenljive predviđaju, umesto jedne skalarne promenljive.[3]

Mnogo ređe, linearna regresija se može odnositi na model u kojem se medijan, ili neki drugi kvantil uslovne distribucije Y za dato X izražava kao linearna funkcija od X. Kao i svi drugi oblici regresione analize, linearna regresija ima fokus na distribuciji uslovne verovatnoće od Y za dani X, a ne na distribuciji uslovne verovatnoće od Y i X, što je domen multivarijantne analize (Шаблон:Jez-eng-lat).[4][5][6]

Linearna regresija je bila prvi tip regresione analize[7][8] koja je detaljno proučavana i koja se ekstenzivno koristila u praktičnim primenama.[9] Razlog za ovo je da se modeli koji linearno zavise od svojih nepoznatih parametara lakše modeluju nego modeli sa nelinearnom zavisnošću od parametara. Takođe, statistička svojstva rezultirajućih estimatora se lakše određuju.

Linearna regresija ima mnogo praktičnih primena. Većina aplikacija linearne regresije spada u jednu od sledeće dve široke kategorije:

  • Ako je cilj predviđanje ili prognoza, linearna regresija se može koristiti za podešavanje prediktivnog modela prema razmatranom skupu podataka vrednosti Y i X. Nakon razvoja ovakvog modela, ako je data vrednost za X bez pripadajuće vrednosti Y, model se može koristiti za predviđanje vrednosti Y.
  • Ako je dostupna varijabla Y i veći broj varijabli X1, ..., X-{p}- koje mogu biti povezane sa Y, može se koristiti linearna regresiona analiza za kvantifikovanje jačine relacije između Y i Xj, za procenu koji je Xj uopšte vezan za Y, te da bi identifikovalo koji podskupovi od Xj sadrže redundantne informacije o Y, tako da kad je jedan od njih poznat, ostali više ne daju korisne informacije.

Linearni regresioni modeli se često podešavaju uz pomoć metode najmanjih kvadrata,[10][11] iako se mogu koristiti i drugi načini, kao što je minimizovanje „nedostatka podešenja” (Шаблон:Jez-eng-lat) u nekim drugim normama, ili minimizovanjem penalizirane verzije funkcije gubitaka najmanjih kvadrata, kao kod Tihonove regularizacije.[12][13][14]

Nasuprot tome, pristup metodom najmanjih kvadrata se može iskoristiti za podešavanje nelinearnih modela. Prema tome, pojmovi „najmanji kvadrati” i „linearni model” jesu usko povezani, ali nisu sinonimi.

Uvod

U linearnoj regresiji, za opažanja (obeležena crveno) se uzima da su rezultat randomnih devijacija (obeleženih zeleno) od temeljnog odnosa (označeno plavo) između zavisne promenljive (y) i nezavisne promenljive (x).

Uz zadati skup podataka {yi,xi1,,xip}i=1n od -{n}- statističkih jedinica, model linearne regresije pretpostavlja da se relacija između zavisne varijable yi i p-vektora regresora xi može približno uzeti kao linearna. „Približno” se ovde odnosi na „smetnje” εi — neposmatranu slučajnu varijablu koja dodaje šum u linearnu relaciju između zavisne varijable i regresora. Stoga, model ima oblik

yi=β1xi1++βpxip+εi=x'iβ+εi,i=1,,n,

gde je xiβ unutarnji produkat između vektora xi i β.

Često su ovih -{n}- jednačina složene u vektorski oblik kao

Y=Xβ+ε,

gde je

𝐲=(y1y2yn),
X=(𝐱1𝖳𝐱2𝖳𝐱n𝖳)=(1x11x1p1x21x2p1xn1xnp),
β=(β0β1β2βp),ε=(ε1ε2εn).

Neke napomene vezane za terminologiju:

  • 𝐲 je vektor izmerenih vrednosti yi (i=1,,n); yi se naziva regresand, zavisna varijabla, endogena varijabla, varijabla odgovora ili merena varijabla. Ova varijabla se ponekad naziva i predviđenom varijablom, ali to ne treba mešati sa predviđenim vrednostima, koje se označavaju sa y^. Odluka o tome koja se varijabla u skupu podataka modeluje kao zavisna varijabla, a koja kao nezavisna može se temeljiti na pretpostavci da je jedna od varijabli posledica ili pod uticajem druge varijable. Alternativno, može da postoji operacioni razlog za modelovanje jedne promenljive kao funkcije drugih, u kom slučaju nema potrebe za pretpostavljanjem uzročnosti.
  • X se može videti kao matrica od redova-vektora 𝐱i ili -{n}--dimenzionalnih kolonskih-vektora Xj, koji su poznati kao regresori, eksogene promenljive, promenljive objašnjenja, kovarijati, inputne promenljive, prediktorske promenljive, ili nezavisne varijable (ovo ne treba mešati sa konceptom nezavisnih randomnih promenljivih). Matrica X se ponekad naziva matricom dizajna.
    • Шаблон:AnchorObično se konstanta uvrštava kao jedan od regresora. Posebno, 𝐱i0=1 za i=1,,n. Korespondirajući element β se naziva presek. Mnoge procedure statističke inferencije za linearne modele nalažu postojanje preseka, tako da se on obično uključuje čak i ako teoretska razmatranja sugerišu da njegova vrednost treba da bude jednaka nuli.
    • Ponekad jedan od regresora može da bude nelinearna funkcija drugog regresora ili podatka, kao što je to slučaju u polinomskoj regresiji[15] i segmentnoj regresiji.[16] Model se smatra linearnim dokle god je linearan u pogledu parametra vektora β.
    • Vrednosti x-{ij}- mogu da budu bilo izmerene vrednosti slučajnih promenljivih X-{j}- ili fiksne vrednosti izabrane pre merenja zavisnih promenljivih. Obe interpretacije mogu da budu podesne u različitim slučajevima, i generalno se koriste isti postupci procene; međutim u tim situacijama se koriste različiti pristupi asimptotskoj analizi.

Reference

Шаблон:Reflist

Literatura

Шаблон:Литература

  • Cohen, J., Cohen P., West, S.G., & Aiken, L.S. (2003). Applied multiple regression/correlation analysis for the behavioral sciences. (2nd ed.) Hillsdale, NJ: Lawrence Erlbaum Associates
  • Charles Darwin. The Variation of Animals and Plants under Domestication. (1868) (Chapter XIII describes what was known about reversion in Galton's time. Darwin uses the term "reversion".)
  • Шаблон:Cite book
  • Francis Galton. Шаблон:Cite journal (1886). (Facsimile at: [1])
  • Robert S. Pindyck and Daniel L. Rubinfeld (1998, 4h ed.). Econometric Models and Economic Forecasts, ch. 1 (Intro, incl. appendices on Σ operators & derivation of parameter est.) & Appendix 4.3 (mult. regression in matrix form).
  • Шаблон:Cite journal
  • Mathieu Rouaud, 2013: Probability, Statistics and Estimation Chapter 2: Linear Regression, Linear Regression with Error Bars and Nonlinear Regression.
  • Шаблон:Cite book

Шаблон:Литература крај

Spoljašnje veze

Шаблон:Commonscat Шаблон:Литература

Шаблон:Литература крај

Шаблон:Authority control-lat