Regresijska analiza je statistična metoda za preučevanje odvisnosti naključne spremenljivke od spremenljivk. Regresija v Excelu: enačba, primeri

Namen regresijske analize je izmeriti razmerje med odvisno spremenljivko in eno (regresijska analiza po parih) ali več (več) neodvisnimi spremenljivkami. Neodvisne spremenljivke imenujemo tudi faktorske, pojasnjevalne, determinantne, regresorske in napovedovalne spremenljivke.

Odvisna spremenljivka se včasih imenuje določena, razložena ali "odzivna" spremenljivka. Izredno razširjena uporaba regresijske analize v empiričnih raziskavah ni le posledica dejstva, da je priročno orodje za preverjanje hipotez. Regresija, zlasti multipla regresija, je učinkovita metoda za modeliranje in napovedovanje.

Začnimo razlago principov dela z regresijsko analizo z enostavnejšo – metodo parov.

Seznanjena regresijska analiza

Prvi koraki pri uporabi regresijske analize bodo skoraj enaki tistim, ki smo jih naredili pri izračunu korelacijskega koeficienta. Trije glavni pogoji za učinkovitost korelacijske analize po Pearsonovi metodi - normalna porazdelitev spremenljivk, intervalno merjenje spremenljivk, linearna povezava med spremenljivkami - so pomembni tudi za multiplo regresijo. V skladu s tem so na prvi stopnji izdelani razpršilni diagrami, izvedena je statistična in deskriptivna analiza spremenljivk ter izračunana regresijska črta. Tako kot v okviru korelacijske analize so regresijske črte konstruirane z uporabo metode najmanjših kvadratov.

Za nazornejšo ponazoritev razlik med obema metodama analize podatkov se obrnemo na že obravnavan primer s spremenljivkama »podpora SPS« in »delež podeželskega prebivalstva«. Izvorni podatki so identični. Razlika v diagramih razpršitve bo v tem, da je pri regresijski analizi pravilno odvisno spremenljivko - v našem primeru "podpora SPS" narisati na os Y, medtem ko pri korelacijski analizi to ni pomembno. Po čiščenju izstopajočih vrednosti je diagram razpršenosti videti takole:

Temeljna ideja regresijske analize je, da je ob splošnem trendu za spremenljivke - v obliki regresijske črte - mogoče predvideti vrednost odvisne spremenljivke glede na vrednosti neodvisne.

Predstavljajmo si navadno matematično linearno funkcijo. Vsako premico v evklidskem prostoru lahko opišemo s formulo:

kjer je a konstanta, ki določa premik vzdolž ordinatne osi; b je koeficient, ki določa kot naklona črte.

Če poznate naklon in konstanto, lahko izračunate (predvidite) vrednost y za kateri koli x.

Ta najenostavnejša funkcija je bila osnova modela regresijske analize z opozorilom, da vrednosti y ne bomo napovedali natančno, temveč znotraj določenega intervala zaupanja, tj. približno.

Konstanta je točka presečišča regresijske premice in osi y (F-presek, običajno označen kot "interceptor" v statističnih paketih). V našem primeru z glasovanjem za Zvezo desnih sil bo njegova zaokrožena vrednost 10,55. Kotni koeficient b bo približno -0,1 (kot pri korelacijski analizi znak prikazuje vrsto povezave - neposredno ali inverzno). Tako bo dobljeni model imel obliko SP C = -0,1 x Sel. nas. + 10,55.

Tako bo za primer "Republike Adigeje" s 47-odstotnim deležem podeželskega prebivalstva predvidena vrednost 5,63:

ATP = -0,10 x 47 + 10,55 = 5,63.

Razlika med prvotno in predvideno vrednostjo se imenuje ostanek (s tem izrazom, ki je temeljni za statistiko, smo se že srečali pri analizi tabel nepredvidljivih dogodkov). Torej bo v primeru "Republike Adigeje" ostanek enak 3,92 - 5,63 = -1,71. Večja kot je modularna vrednost ostanka, manj uspešna je predvidena vrednost.

Izračunamo predvidene vrednosti in ostanke za vse primere:
Dogajanje Sedi. nas. Hvala

(izvirnik)

Hvala

(predvideno)

Ostanki
Republika Adigeja 47 3,92 5,63 -1,71 -
Republika Altaj 76 5,4 2,59 2,81
Republika Baškortostan 36 6,04 6,78 -0,74
Republika Burjatija 41 8,36 6,25 2,11
Republika Dagestan 59 1,22 4,37 -3,15
Republika Ingušetija 59 0,38 4,37 3,99
itd.

Analiza razmerja med začetnimi in predvidenimi vrednostmi služi za oceno kakovosti nastalega modela in njegove napovedne sposobnosti. Eden glavnih kazalcev regresijske statistike je večkratni korelacijski koeficient R - korelacijski koeficient med prvotnimi in predvidenimi vrednostmi odvisne spremenljivke. Pri parni regresijski analizi je enak običajnemu Pearsonovemu korelacijskemu koeficientu med odvisno in neodvisno spremenljivko, v našem primeru - 0,63. Za smiselno interpretacijo večkratnega R ga je treba pretvoriti v determinacijski koeficient. To naredimo na enak način kot pri korelacijski analizi – s kvadriranjem. Koeficient determinacije R-kvadrat (R 2) prikazuje delež variacije odvisne spremenljivke, ki je pojasnjena z neodvisno spremenljivko(-ami).

V našem primeru je R 2 = 0,39 (0,63 2); to pomeni, da spremenljivka »delež podeželskega prebivalstva« pojasni približno 40 % variacije spremenljivke »podpora SPS«. Večji ko je koeficient determinacije, višja je kakovost modela.

Drugi indikator kakovosti modela je standardna napaka ocene. To je merilo, kako široko so točke "razpršene" okoli regresijske črte. Mera razmika za intervalne spremenljivke je standardna deviacija. V skladu s tem je standardna napaka ocene standardni odklon porazdelitve ostankov. Višja kot je njegova vrednost, večji je razpršitev in slabši je model. V našem primeru je standardna napaka 2,18. Za to vrednost se bo naš model "povprečno zmotil" pri napovedovanju vrednosti spremenljivke "podpora SPS".

Regresijska statistika vključuje tudi analizo variance. Z njeno pomočjo ugotovimo: 1) kolikšen delež variacije (disperzije) odvisne spremenljivke pojasnjuje neodvisna spremenljivka; 2) kolikšen delež variance odvisne spremenljivke predstavljajo reziduali (nepojasnjeni del); 3) kakšno je razmerje teh dveh količin (/"-razmerje). Disperzijska statistika je še posebej pomembna za vzorčne študije - kaže, kako verjetno je, da obstaja povezava med neodvisnimi in odvisnimi spremenljivkami v populaciji. Vendar pa za kontinuirane študije (kot v našem primeru) študija rezultati analize variance niso uporabni. V tem primeru preverjajo, ali je ugotovljeni statistični vzorec posledica naključnih okoliščin, v kolikšni meri je značilen za nabor pogojev. v kateri najdemo populacijo, ki jo preučujemo, tj. ugotovimo, da dobljeni rezultat ne velja za neko širšo splošno skupnost, temveč stopnjo njene pravilnosti, neodvisnosti od naključnih vplivov.

V našem primeru je statistika ANOVA naslednja:

SS df GOSPA F pomen
Regres. 258,77 1,00 258,77 54,29 0.000000001
Ostanek 395,59 83,00 L,11
Skupaj 654,36

F-razmerje 54,29 je pomembno na ravni 0,0000000001. V skladu s tem lahko z gotovostjo zavrnemo ničelno hipotezo (da je odnos, ki smo ga odkrili, posledica naključja).

Kriterij t opravlja podobno funkcijo, vendar v povezavi z regresijskimi koeficienti (kotni in F-presek). S kriterijem / preverimo hipotezo, da so v splošni populaciji regresijski koeficienti enaki nič. V našem primeru lahko ponovno z gotovostjo zavrnemo ničelno hipotezo.

Multipla regresijska analiza

Model multiple regresije je skoraj identičen modelu parne regresije; edina razlika je v tem, da je več neodvisnih spremenljivk zaporedno vključenih v linearno funkcijo:

Y = b1X1 + b2X2 + …+ bpXp + a.

Če obstajata več kot dve neodvisni spremenljivki, ne moremo dobiti vizualne predstave o njunem odnosu; v tem pogledu je večkratna regresija manj "vizualna" kot regresija v paru. Ko imate dve neodvisni spremenljivki, je lahko koristno prikazati podatke v 3D razpršeni diagramu. V profesionalnih statističnih programskih paketih (na primer Statistica) je na voljo možnost vrtenja tridimenzionalnega grafikona, ki vam omogoča, da dobro vizualno predstavite strukturo podatkov.

Pri delu z multiplo regresijo, v nasprotju s parno regresijo, je treba določiti algoritem analize. Standardni algoritem vključuje vse razpoložljive napovednike v končnem regresijskem modelu. Algoritem po korakih vključuje zaporedno vključitev (izključitev) neodvisnih spremenljivk na podlagi njihove pojasnjevalne "uteži". Postopna metoda je dobra, kadar je veliko neodvisnih spremenljivk; "očisti" model odkrito šibkih napovednikov, zaradi česar je bolj kompakten in jedrnat.

Dodaten pogoj za pravilnost multiple regresije (skupaj z intervalom, normalnostjo in linearnostjo) je odsotnost multikolinearnosti - prisotnost močnih korelacij med neodvisnimi spremenljivkami.

Interpretacija statistike multiple regresije vključuje vse elemente, ki smo jih upoštevali za primer regresije po parih. Poleg tega obstajajo še druge pomembne komponente statistike multiple regresijske analize.

Delo bomo ponazorili z multiplo regresijo na primeru testiranja hipotez, ki pojasnjujejo razlike v stopnji volilne aktivnosti po ruskih regijah. Posebne empirične študije so pokazale, da na stopnjo volilne udeležbe vpliva:

Nacionalni faktor (spremenljivka »rusko prebivalstvo«; operacionalizirano kot delež ruskega prebivalstva v sestavnih entitetah Ruske federacije). Predpostavlja se, da povečanje deleža ruskega prebivalstva povzroči zmanjšanje volilne udeležbe;

Faktor urbanizacije (spremenljivka »mestno prebivalstvo«; operacionalizirano kot delež mestnega prebivalstva v sestavnih enotah Ruske federacije; s tem faktorjem smo že delali v okviru korelacijske analize). Predvideva se, da povečanje deleža mestnega prebivalstva vodi tudi v zmanjšanje volilne udeležbe.

Odvisna spremenljivka - »intenzivnost volilne dejavnosti« (»aktivno«) je operacionalizirana s podatki o povprečni volilni udeležbi po regijah na zveznih volitvah od leta 1995 do 2003. Začetna podatkovna tabela za dve neodvisni in eno odvisno spremenljivko bo naslednja:

Dogajanje Spremenljivke
Sredstva. Gor. nas. rus. nas.
Republika Adigeja 64,92 53 68
Republika Altaj 68,60 24 60
Republika Burjatija 60,75 59 70
Republika Dagestan 79,92 41 9
Republika Ingušetija 75,05 41 23
Republika Kalmikija 68,52 39 37
Karačajsko-Čerkeška republika 66,68 44 42
Republika Karelija 61,70 73 73
Republika Komi 59,60 74 57
Republika Mari El 65,19 62 47

itd. (po čiščenju izpustov ostane 83 od 88 primerov)

Statistični podatki, ki opisujejo kakovost modela:

1. Večkratnik R = 0,62; L-kvadrat = 0,38. Posledično nacionalni faktor in faktor urbanizacije skupaj pojasnjujeta približno 38 % variacije spremenljivke »volilna aktivnost«.

2. Povprečna napaka je 3,38. Prav tako »v povprečju« je izdelani model pri napovedovanju volilne udeležbe.

3. /l-razmerje pojasnjene in nepojasnjene variacije je 25,2 na ravni 0,000000003. Ničelna hipoteza o naključnosti ugotovljenih odnosov je zavrnjena.

4. Kriterij / za konstantne in regresijske koeficiente spremenljivk »mestno prebivalstvo« in »rusko prebivalstvo« je značilen na ravni 0,0000001; 0,00005 oziroma 0,007. Ničelna hipoteza, da so koeficienti naključni, je zavrnjena.

Dodatne uporabne statistike pri analizi razmerja med prvotnimi in predvidenimi vrednostmi odvisne spremenljivke so Mahalanobisova razdalja in Cookova razdalja. Prva je merilo edinstvenosti primera (pokaže, koliko kombinacija vrednosti vseh neodvisnih spremenljivk za določen primer odstopa od povprečne vrednosti za vse neodvisne spremenljivke hkrati). Drugo je merilo vpliva primera. Različna opazovanja imajo različne učinke na naklon regresijske premice in Cookovo razdaljo lahko uporabimo za njihovo primerjavo na tem indikatorju. To je lahko uporabno pri čiščenju izstopajočih vrednosti (izstopajoče vrednosti se lahko obravnavajo kot preveč vpliven primer).

V našem primeru edinstveni in vplivni primeri vključujejo Dagestan.

Dogajanje Original

vrednote

Predska

vrednote

Ostanki Razdalja

Mahalanobis

Razdalja
Adigeja 64,92 66,33 -1,40 0,69 0,00
Republika Altaj 68,60 69.91 -1,31 6,80 0,01
Republika Burjatija 60,75 65,56 -4,81 0,23 0,01
Republika Dagestan 79,92 71,01 8,91 10,57 0,44
Republika Ingušetija 75,05 70,21 4,84 6,73 0,08
Republika Kalmikija 68,52 69,59 -1,07 4,20 0,00

Sam regresijski model ima naslednje parametre: presek Y (konstanta) = 75,99; b (vodoravno) = -0,1; Kommersant (ruski nas.) = -0,06. Končna formula:

Aaktivno, = -0,1 x Hor. us.n+- 0,06 x rus. us.n + 75,99.

Ali lahko primerjamo »razlagalno moč« prediktorjev na podlagi vrednosti koeficienta 61. V tem primeru da, saj imata obe neodvisni spremenljivki enako odstotno obliko. Najpogosteje pa multipla regresija obravnava spremenljivke, merjene na različnih lestvicah (na primer raven dohodka v rubljih in starost v letih). Zato je v splošnem primeru nepravilno primerjati napovedne sposobnosti spremenljivk z uporabo regresijskega koeficienta. V multipli regresijski statistiki obstaja za ta namen poseben beta koeficient (B), ki se izračuna posebej za vsako neodvisno spremenljivko. Predstavlja parcialni (izračunan po vplivu vseh drugih napovednikov) korelacijski koeficient med faktorjem in odzivom ter prikazuje neodvisen prispevek faktorja k napovedi vrednosti odziva. Pri parni regresijski analizi je koeficient beta razumljivo enak parnemu korelacijskemu koeficientu med odvisno in neodvisno spremenljivko.

V našem primeru je beta (highland prebivalstvo) = -0,43, beta (rusko prebivalstvo) = -0,28. Tako oba dejavnika negativno vplivata na stopnjo volilne aktivnosti, medtem ko je pomen dejavnika urbanizacije bistveno večji od pomena nacionalnega dejavnika. Skupni vpliv obeh dejavnikov določa približno 38 % variacije spremenljivke "volilna aktivnost" (glej vrednost L-kvadrata).

Regresijska analiza

Regresija (linearni) analizo- statistična metoda za proučevanje vpliva ene ali več neodvisnih spremenljivk na odvisno spremenljivko. Neodvisne spremenljivke drugače imenujemo regresorji ali napovedovalci, odvisne spremenljivke pa kriterijske spremenljivke. Terminologija odvisen in neodvisen spremenljivk odraža samo matematično odvisnost spremenljivk ( glej Napačna korelacija), namesto vzročno-posledičnih odnosov.

Cilji regresijske analize

  1. Ugotavljanje stopnje determiniranosti variacije kriterijske (odvisne) spremenljivke s prediktorji (neodvisne spremenljivke)
  2. Napovedovanje vrednosti odvisne spremenljivke z uporabo neodvisnih spremenljivk
  3. Ugotavljanje prispevka posameznih neodvisnih spremenljivk k variaciji odvisne spremenljivke

Z regresijsko analizo ni mogoče ugotoviti, ali obstaja povezava med spremenljivkami, saj je prisotnost take povezave predpogoj za uporabo analize.

Matematična definicija regresije

Strogo regresijsko razmerje je mogoče definirati na naslednji način. Naj bodo naključne spremenljivke z dano skupno porazdelitvijo verjetnosti. Če je za vsak niz vrednosti definirano pogojno matematično pričakovanje

(regresijska enačba v splošni obliki),

potem se funkcija pokliče regresija vrednosti Y po vrednostih, njegov graf pa je regresijska črta od , oz regresijska enačba.

Odvisnost od se kaže v spremembi povprečnih vrednosti Y s spremembo v . Čeprav za vsak fiksni niz vrednosti vrednost ostane naključna spremenljivka z določenim razprševanjem.

Za razjasnitev vprašanja, kako natančno regresijska analiza oceni spremembo Y pri spreminjanju , se uporablja povprečna vrednost disperzije Y za različne nize vrednosti (pravzaprav govorimo o meri disperzije odvisne spremenljivke okrog regresijske premice).

Metoda najmanjših kvadratov (izračun koeficientov)

V praksi se regresijska premica najpogosteje išče v obliki linearne funkcije (linearna regresija), ki najbolj približa želeno krivuljo. To se naredi z uporabo metode najmanjših kvadratov, ko je vsota kvadratov odstopanj dejansko opazovanih od njihovih ocen minimizirana (kar pomeni ocene z uporabo ravne črte, ki naj bi predstavljala želeno regresijsko razmerje):

(M - velikost vzorca). Ta pristop temelji na dobro znanem dejstvu, da količina, ki se pojavlja v zgornjem izrazu, prevzame minimalno vrednost ravno v primeru, ko .

Za rešitev problema regresijske analize z uporabo metode najmanjših kvadratov je predstavljen koncept preostale funkcije:

Minimalni pogoj za rezidualno funkcijo:

Nastali sistem je sistem linearnih enačb z neznankami

Če proste člene na levi strani enačb predstavimo kot matriko

in koeficienti za neznanke na desni strani so matrika

potem dobimo matrično enačbo: , ki jo enostavno rešimo z Gaussovo metodo. Dobljena matrika bo matrika, ki vsebuje koeficiente enačbe regresijske premice:

Za pridobitev najboljših ocen je treba izpolniti predpogoje OLS (Gauss–Markov pogoji). V angleški literaturi se takšne ocene imenujejo BLUE (Best Linear Unbiased Estimators).

Interpretacija regresijskih parametrov

Parametri so delni korelacijski koeficienti; interpretira kot delež variance Y, razložen s fiksiranjem vpliva preostalih napovednikov, torej meri individualni prispevek k razlagi Y. V primeru koreliranih napovednikov se pojavi problem negotovosti v ocenah, ki postanejo odvisni od vrstnega reda, v katerem so napovedovalci vključeni v model. V takih primerih je potrebno uporabiti korelacijske in stopenjske regresijske metode analize.

Ko govorimo o nelinearnih modelih regresijske analize, je pomembno biti pozoren na to, ali govorimo o nelinearnosti pri neodvisnih spremenljivkah (s formalnega vidika jo zlahka reduciramo na linearno regresijo) ali o nelinearnosti pri ocenjenih parametrih (ki povzroča resne računske težave). V primeru nelinearnosti prve vrste je z vsebinskega vidika pomembno poudariti pojav v modelu izrazov oblike , , ki kažejo na prisotnost interakcij med značilnostmi itd. (glej Multikolinearnost).

Poglej tudi

Povezave

  • www.kgafk.ru - Predavanje na temo "Regresijska analiza"
  • www.basegroup.ru - metode za izbiro spremenljivk v regresijskih modelih

Literatura

  • Norman Draper, Harry Smith Uporabljena regresijska analiza. Večkratna regresija = uporabljena regresijska analiza. - 3. izd. - M .: "Dialektika", 2007. - Str. 912. - ISBN 0-471-17082-8
  • Robustne metode za ocenjevanje statističnih modelov: Monografija. - K.: PP "Sansparel", 2005. - Str. 504. - ISBN 966-96574-0-7, UDK: 519.237.5:515.126.2, BBK 22.172+22.152
  • Radčenko Stanislav Grigorjevič, Metodologija regresijske analize: Monografija. - K.: "Korniychuk", 2011. - Str. 376. - ISBN 978-966-7599-72-0

Fundacija Wikimedia. 2010.

Kot rezultat preučevanja gradiva v 4. poglavju bi moral študent:

vedeti

  • osnovni koncepti regresijske analize;
  • metode ocenjevanja in lastnosti ocen najmanjših kvadratov;
  • osnovna pravila za testiranje signifikantnosti in intervalne ocene enačb in regresijskih koeficientov;

biti sposoben

  • poiskati ocene parametrov bivariatnih in multiplih regresijskih enačbnih modelov z uporabo vzorčnih podatkov, analizirati njihove lastnosti;
  • preveriti pomembnost enačbe in regresijskih koeficientov;
  • najti intervalne ocene pomembnih parametrov;

lasten

  • veščine statističnega ocenjevanja parametrov enačb bivariatne in multiple regresije; veščine preverjanja ustreznosti regresijskih modelov;
  • veščine pridobivanja regresijske enačbe z vsemi pomembnimi koeficienti z uporabo analitične programske opreme.

Osnovni pojmi

Po izvedbi korelacijske analize, ko je ugotovljena prisotnost statistično pomembnih odnosov med spremenljivkami in ocenjena stopnja njihove bližine, običajno nadaljujejo z matematičnim opisom vrste odvisnosti z uporabo metod regresijske analize. V ta namen je izbran razred funkcij, ki povezuje efektivni indikator pri in argumenti„ izračunajo ocene parametrov sklopitvene enačbe in analizirajo točnost dobljene enačbe.

Funkcija|, ki opisuje odvisnost pogojne povprečne vrednosti dobljene karakteristike pri iz danih vrednosti argumentov regresijska enačba.

Izraz "regresija" (iz lat. regresija – umik, vrnitev k nečemu) je uvedel angleški psiholog in antropolog F. Galton in je povezan z enim njegovih prvih primerov, v katerem je Galton ob obdelavi statističnih podatkov, povezanih z vprašanjem dednosti višine, ugotovil, da če višina očetov odstopa od povprečne višine vseh očetov X palcev, potem višina njihovih sinov odstopa od povprečne višine vseh sinov za manj kot x palcev. Ugotovljeni trend je bil imenovan regresija na povprečje.

Izraz "regresija" se pogosto uporablja v statistični literaturi, čeprav v mnogih primerih ne označuje natančno statističnega odnosa.

Za natančen opis regresijske enačbe je potrebno poznati zakon pogojne porazdelitve efektivnega indikatorja u. V statistični praksi tovrstnih informacij običajno ni mogoče pridobiti, zato so omejeni na iskanje ustreznih približkov funkcije f(x u X 2,... l*), ki temelji na predhodni smiselni analizi pojava ali na začetnih statističnih podatkih.

V okviru posameznega modela predpostavke o vrsti porazdelitve vektorja indikatorjev<) может быть получен общий вид regresijske enačbe, Kje. Na primer, ob predpostavki, da nabor proučevanih indikatorjev upošteva ()-dimenzionalni zakon normalne porazdelitve z vektorjem matematičnih pričakovanj

Kje in kovariančna matrika,

kje je disperzija y,

Regresijska enačba (pogojno matematično pričakovanje) ima obliko

Torej, če je multivariatna naključna spremenljivka ()

upošteva ()-dimenzionalni zakon normalne porazdelitve, nato pa regresijsko enačbo efektivnega indikatorja pri v pojasnjevalnih spremenljivkah je linearna X pogled.

Vendar se je v statistični praksi običajno treba omejiti na iskanje ustreznih približkov za neznano pravo regresijsko funkcijo f(x), ker raziskovalec nima natančnega poznavanja zakona pogojne porazdelitve verjetnosti analiziranega kazalnika uspešnosti pri za podane vrednosti argumentov X.

Poglejmo razmerje med pravimi, modelnimi in regresijskimi ocenami. Naj učinkovit indikator pri povezane z argumentom X razmerje

kjer je naključna spremenljivka, ki ima normalen porazdelitveni zakon, in in. Prava regresijska funkcija ima v tem primeru obliko

Predpostavimo, da nam natančna oblika prave regresijske enačbe ni znana, vendar imamo devet opazovanj dvodimenzionalne naključne spremenljivke, ki je povezana z razmerji, predstavljenimi na sl. 4.1.

riž. 4.1. Relativni položaj pravegaf(x) in teoretičnoupsregresijski modeli

Lokacija točk na sl. 4.1 nam omogoča, da se omejimo na razred linearnih odvisnosti oblike

Z metodo najmanjših kvadratov najdemo oceno regresijske enačbe.

Za primerjavo na sl. 4.1 prikazujeta grafa prave regresijske funkcije in teoretične aproksimativne regresijske funkcije. Ocena regresijske enačbe konvergira slednji po verjetnosti ups z neomejenim povečanjem velikosti vzorca ().

Ker smo namesto prave regresijske funkcije pomotoma izbrali linearno regresijsko funkcijo, kar je v praksi statističnega raziskovanja žal precej pogosto, naši statistični zaključki in ocene ne bodo imeli lastnosti konsistentnosti, tj. Ne glede na to, kako povečamo število opazovanj, se naša ocena vzorca ne bo približala pravi regresijski funkciji

Če smo pravilno izbrali razred regresijskih funkcij, potem je netočnost v opisu z uporabo ups bi bilo pojasnjeno le z omejenim vzorčenjem, zato bi bilo lahko čim manjše

Za najboljšo obnovitev pogojne vrednosti kazalnika uspešnosti in neznane regresijske funkcije iz začetnih statističnih podatkov se najpogosteje uporabljajo: merila ustreznosti izgube funkcij.

1. metoda najmanjših kvadratov, v skladu s katerim je kvadrat opazovanih vrednosti efektivnega indikatorja minimiziran od vrednosti modela, kjer so koeficienti regresijske enačbe vrednosti vektorja argumentov v “-M opazovanje:

Problem iskanja ocene vektorja je rešen. Nastala regresija se imenuje srednji kvadrat.

2. Metoda najmanjših modulov, po katerem je vsota absolutnih odstopanj opazovanih vrednosti efektivnega indikatorja od modularnih vrednosti minimalizirana, tj.

Nastala regresija se imenuje pomeni absolutno(mediana).

3. Minimax metoda se zmanjša na minimum največjega modula odstopanja opazovane vrednosti efektivnega indikatorja y, od vrednosti modela, tj.

Nastala regresija se imenuje minimax.

V praktičnih aplikacijah so pogosto problemi, pri katerih se proučuje naključna spremenljivka y, odvisno od določenega nabora spremenljivk in neznanih parametrov. Upoštevali bomo () kot (k + 1)-dimenzionalna splošna populacija, iz katere naključni vzorec P, kjer je () rezultat i-tega opazovanja. Neznane parametre je treba oceniti na podlagi rezultatov opazovanj. Zgoraj opisana naloga se nanaša na probleme regresijske analize.

Regresijska analiza se imenuje metoda statistične analize odvisnosti naključne spremenljivke pri na spremenljivkah, ki se v regresijski analizi obravnavajo kot nenaključne vrednosti, ne glede na pravi porazdelitveni zakon

Pri statističnem modeliranju je regresijska analiza študija, ki se uporablja za vrednotenje razmerja med spremenljivkami. Ta matematična metoda vključuje številne druge metode za modeliranje in analizo več spremenljivk, kjer je poudarek na razmerju med odvisno spremenljivko in eno ali več neodvisnimi. Natančneje, regresijska analiza nam pomaga razumeti, kako se tipična vrednost odvisne spremenljivke spremeni, če se ena od neodvisnih spremenljivk spremeni, medtem ko druge neodvisne spremenljivke ostanejo fiksne.

V vseh primerih je ciljna ocena funkcija neodvisnih spremenljivk in se imenuje regresijska funkcija. Pri regresijski analizi je zanimiva tudi opredelitev spremembe odvisne spremenljivke kot funkcije regresije, ki jo lahko opišemo z verjetnostno porazdelitvijo.

Problemi regresijske analize

Ta statistična raziskovalna metoda se pogosto uporablja za napovedovanje, kjer ima njena uporaba veliko prednost, včasih pa lahko privede do iluzij ali napačnih razmerij, zato je priporočljivo, da jo pri omenjeni zadevi uporabljate previdno, saj npr. korelacija ne pomeni vzročnost.

Za regresijsko analizo je bilo razvitih veliko število metod, kot sta linearna in navadna regresija najmanjših kvadratov, ki sta parametrični. Njihovo bistvo je, da je regresijska funkcija definirana v smislu končnega števila neznanih parametrov, ki so ocenjeni iz podatkov. Neparametrična regresija omogoča, da njena funkcija leži znotraj določenega nabora funkcij, ki so lahko neskončnodimenzionalne.

Kot statistična raziskovalna metoda je regresijska analiza v praksi odvisna od oblike procesa generiranja podatkov in njegove povezave z regresijskim pristopom. Ker je prava oblika generiranja podatkovnega procesa običajno neznano število, je regresijska analiza podatkov pogosto do neke mere odvisna od predpostavk o procesu. Te predpostavke je včasih mogoče preveriti, če je na voljo dovolj podatkov. Regresijski modeli so pogosto uporabni, tudi če so predpostavke zmerno kršene, čeprav morda ne delujejo pri največji učinkovitosti.

V ožjem smislu se lahko regresija posebej nanaša na oceno zveznih spremenljivk odziva, v nasprotju z diskretnimi spremenljivkami odziva, ki se uporabljajo pri klasifikaciji. Primer zvezne izhodne spremenljivke se imenuje tudi metrična regresija, da se razlikuje od sorodnih problemov.

Zgodba

Najzgodnejša oblika regresije je znana metoda najmanjših kvadratov. Objavila sta jo Legendre leta 1805 in Gauss leta 1809. Legendre in Gauss sta metodo uporabila pri problemu določanja iz astronomskih opazovanj orbit teles okoli Sonca (predvsem kometov, pozneje pa tudi na novo odkritih manjših planetov). Gauss je leta 1821 objavil nadaljnji razvoj teorije najmanjših kvadratov, vključno z različico Gauss-Markovega izreka.

Izraz "regresija" je skoval Francis Galton v 19. stoletju za opis biološkega pojava. Ideja je bila, da se višina potomcev od višine njihovih prednikov nagiba k nazadovanju proti normalni srednji vrednosti. Za Galtona je imela regresija le ta biološki pomen, kasneje pa sta njegovo delo nadaljevala Udney Yoley in Karl Pearson ter ga pripeljala v splošnejši statistični kontekst. V delu Yula in Pearsona se domneva, da je skupna porazdelitev odzivnih in pojasnjevalnih spremenljivk Gaussova. To predpostavko je Fischer zavrnil v dokumentih iz let 1922 in 1925. Fisher je predlagal, da je pogojna porazdelitev spremenljivke odziva Gaussova, ni pa nujno, da je skupna porazdelitev. V tem pogledu je Fischerjev predlog bližje Gaussovi formulaciji iz leta 1821. Pred letom 1970 je včasih trajalo do 24 ur, da smo dobili rezultat regresijske analize.

Metode regresijske analize so še naprej področje aktivnih raziskav. V zadnjih desetletjih so bile razvite nove metode za robustno regresijo; regresije, ki vključujejo korelirane odzive; regresijske metode, ki se prilagodijo različnim vrstam manjkajočih podatkov; neparametrična regresija; metode Bayesove regresije; regresije, pri katerih so napovedne spremenljivke izmerjene z napako; regresija z več napovedovalci kot opazovanja in vzročno-posledično sklepanje z regresijo.

Regresijski modeli

Modeli regresijske analize vključujejo naslednje spremenljivke:

  • Neznani parametri, označeni kot beta, ki so lahko skalarni ali vektorski.
  • Neodvisne spremenljivke, X.
  • Odvisne spremenljivke, Y.

Različna področja znanosti, kjer se uporablja regresijska analiza, uporabljajo različne izraze namesto odvisnih in neodvisnih spremenljivk, vendar v vseh primerih regresijski model povezuje Y s funkcijo X in β.

Približek je običajno formuliran kot E(Y | X) = F(X, β). Za izvedbo regresijske analize je treba določiti vrsto funkcije f. Manj običajno temelji na znanju o razmerju med Y in X, ki se ne zanaša na podatke. Če takšno znanje ni na voljo, se izbere prilagodljiva ali priročna oblika F.

Odvisna spremenljivka Y

Predpostavimo zdaj, da ima vektor neznanih parametrov β dolžino k. Za izvedbo regresijske analize mora uporabnik zagotoviti informacije o odvisni spremenljivki Y:

  • Če opazimo N podatkovnih točk oblike (Y, X), kjer N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Če opazimo natančno N = K in je funkcija F linearna, potem lahko enačbo Y = F(X, β) rešimo natančno in ne približno. To pomeni reševanje niza N-enačb z N-neznankami (elementi β), ki ima edinstveno rešitev, dokler je X linearno neodvisen. Če je F nelinearen, morda ni rešitve ali pa obstaja veliko rešitev.
  • Najpogostejša situacija je, ko je opaziti N > podatkovnih točk. V tem primeru je v podatkih dovolj informacij za oceno edinstvene vrednosti za β, ki najbolje ustreza podatkom, in regresijski model, pri katerem je mogoče na aplikacijo podatkov gledati kot na preveč določen sistem v β.

V slednjem primeru regresijska analiza ponuja orodja za:

  • Iskanje rešitve za neznane parametre β, ki bo na primer zmanjšala razdaljo med izmerjeno in napovedano vrednostjo Y.
  • Pod določenimi statističnimi predpostavkami regresijska analiza uporablja presežne informacije, da zagotovi statistične informacije o neznanih parametrih β in predvidenih vrednostih odvisne spremenljivke Y.

Zahtevano število neodvisnih meritev

Razmislite o regresijskem modelu, ki ima tri neznane parametre: β 0 , β 1 in β 2 . Recimo, da eksperimentator opravi 10 meritev iste vrednosti vektorja neodvisne spremenljivke X. V tem primeru regresijska analiza ne ustvari edinstvenega nabora vrednosti. Najboljše, kar lahko storite, je, da ocenite povprečje in standardni odklon odvisne spremenljivke Y. Podobno lahko z merjenjem dveh različnih vrednosti X pridobite dovolj podatkov za regresijo z dvema neznankama, ne pa tudi s tremi ali več neznankami.

Če so bile meritve eksperimentatorja opravljene pri treh različnih vrednostih vektorja neodvisne spremenljivke X, potem bo regresijska analiza zagotovila edinstven niz ocen za tri neznane parametre v β.

V primeru splošne linearne regresije je zgornja izjava enakovredna zahtevi, da je matrika X T X invertibilna.

Statistične predpostavke

Kadar je število meritev N večje od števila neznanih parametrov k in merilnih napak ε i , potem se praviloma odvečne informacije, ki jih vsebujejo meritve, diseminirajo in uporabijo za statistične napovedi glede neznanih parametrov. Ta presežek informacij se imenuje regresijska stopnja svobode.

Temeljne predpostavke

Klasične predpostavke za regresijsko analizo vključujejo:

  • Vzorčenje je reprezentativno za predvidevanje sklepanja.
  • Izraz napake je naključna spremenljivka s srednjo vrednostjo nič, ki je odvisna od pojasnjevalnih spremenljivk.
  • Neodvisne spremenljivke so izmerjene brez napak.
  • Kot neodvisne spremenljivke (prediktorji) so linearno neodvisne, kar pomeni, da nobenega prediktorja ni mogoče izraziti kot linearno kombinacijo drugih.
  • Napake so nekorelirane, to je matrika kovariance napak diagonal in vsak neničelni element je varianca napake.
  • Varianca napake je med opazovanji konstantna (homoskedastičnost). Če ne, se lahko uporabijo uteženi najmanjši kvadrati ali druge metode.

Ti zadostni pogoji za oceno najmanjših kvadratov imajo zahtevane lastnosti; te predpostavke zlasti pomenijo, da bodo ocene parametrov objektivne, dosledne in učinkovite, zlasti če jih upoštevamo v razredu linearnih ocenjevalcev. Pomembno je omeniti, da dokazi le redko izpolnjujejo pogoje. To pomeni, da se metoda uporablja tudi, če predpostavke niso pravilne. Odstopanja od predpostavk se včasih lahko uporabijo kot merilo, kako uporaben je model. Mnoge od teh predpostavk je mogoče omiliti z naprednejšimi metodami. Poročila o statistični analizi običajno vključujejo analizo testov vzorčnih podatkov in metodologije za uporabnost modela.

Poleg tega se spremenljivke v nekaterih primerih nanašajo na vrednosti, izmerjene na točkah. V spremenljivkah lahko obstajajo prostorski trendi in prostorske avtokorelacije, ki kršijo statistične predpostavke. Geografsko utežena regresija je edina metoda, ki obravnava takšne podatke.

Značilnost linearne regresije je, da je odvisna spremenljivka, ki je Yi, linearna kombinacija parametrov. Na primer, preprosta linearna regresija uporablja eno neodvisno spremenljivko, x i, in dva parametra, β 0 in β 1, za modeliranje n-točk.

Pri večkratni linearni regresiji obstaja več neodvisnih spremenljivk ali njihovih funkcij.

Ko se iz populacije vzame naključni vzorec, njegovi parametri omogočajo pridobitev vzorčnega modela linearne regresije.

S tega vidika je najbolj priljubljena metoda najmanjših kvadratov. Uporablja se za pridobitev ocen parametrov, ki minimizirajo vsoto kvadratov ostankov. Ta vrsta minimizacije (ki je značilna za linearno regresijo) te funkcije vodi do niza normalnih enačb in niza linearnih enačb s parametri, ki se rešijo za pridobitev ocen parametrov.

Ob nadaljnji predpostavki, da se populacijska napaka na splošno širi, lahko raziskovalec uporabi te standardne ocene napak za ustvarjanje intervalov zaupanja in izvedbo preizkusov hipotez o njenih parametrih.

Nelinearna regresijska analiza

Primer, kjer funkcija ni linearna glede na parametre, kaže, da je treba vsoto kvadratov minimizirati z uporabo iterativnega postopka. To uvaja številne zaplete, ki opredeljujejo razlike med linearnimi in nelinearnimi metodami najmanjših kvadratov. Posledično so rezultati regresijske analize pri uporabi nelinearne metode včasih nepredvidljivi.

Izračun moči in velikosti vzorca

Na splošno ni doslednih metod glede števila opazovanj v primerjavi s številom neodvisnih spremenljivk v modelu. Prvo pravilo sta predlagala Dobra in Hardin in je videti kot N = t^n, kjer je N velikost vzorca, n število neodvisnih spremenljivk in t število opazovanj, potrebnih za doseganje želene natančnosti, če bi model imel samo ena neodvisna spremenljivka. Na primer, raziskovalec zgradi linearni regresijski model z uporabo nabora podatkov, ki vsebuje 1000 bolnikov (N). Če se raziskovalec odloči, da je za natančno določitev črte (m) potrebnih pet opazovanj, potem je največje število neodvisnih spremenljivk, ki jih lahko podpira model, 4.

Druge metode

Čeprav so parametri regresijskega modela običajno ocenjeni z uporabo metode najmanjših kvadratov, obstajajo druge metode, ki se uporabljajo veliko manj pogosto. To so na primer naslednje metode:

  • Bayesove metode (na primer Bayesova linearna regresija).
  • Odstotna regresija, ki se uporablja v situacijah, ko je zmanjšanje odstotnih napak bolj primerno.
  • Najmanjša absolutna odstopanja, ki so močnejša v prisotnosti izstopajočih vrednosti, ki vodijo do kvantilne regresije.
  • Neparametrična regresija, ki zahteva veliko število opazovanj in izračunov.
  • Merilo učenja na daljavo, ki se nauči najti smiselno meritev razdalje v danem vhodnem prostoru.

Programska oprema

Vsi večji statistični programski paketi izvajajo regresijsko analizo najmanjših kvadratov. Enostavno linearno regresijsko in večkratno regresijsko analizo je mogoče uporabiti v nekaterih aplikacijah za preglednice in nekaterih kalkulatorjih. Čeprav lahko številni paketi statistične programske opreme izvajajo različne vrste neparametrične in robustne regresije, so te metode manj standardizirane; različni programski paketi izvajajo različne metode. Specializirana programska oprema za regresijo je bila razvita za uporabo na področjih, kot sta analiza preiskav in slikanje nevronov.

Regresijska analiza je ena najbolj priljubljenih metod statističnega raziskovanja. Z njim lahko ugotovimo stopnjo vpliva neodvisnih spremenljivk na odvisno spremenljivko. Microsoft Excel ima orodja, namenjena izvajanju te vrste analize. Poglejmo, kaj so in kako jih uporabljati.

Če pa želite uporabiti funkcijo, ki vam omogoča izvajanje regresijske analize, morate najprej aktivirati paket Analysis Package. Šele takrat se bodo orodja, potrebna za ta postopek, pojavila na Excelovem traku.


Zdaj, ko gremo na zavihek "Podatki", na traku v orodju "Analiza" videli bomo nov gumb - "Analiza podatkov".

Vrste regresijske analize

Obstaja več vrst regresij:

  • parabolični;
  • umirjeno;
  • logaritemski;
  • eksponentna;
  • demonstrativno;
  • hiperbolično;
  • linearna regresija.

O izvajanju zadnje vrste regresijske analize v Excelu bomo podrobneje govorili kasneje.

Linearna regresija v Excelu

Spodaj je kot primer prikazana tabela, ki prikazuje povprečno dnevno zunanjo temperaturo zraka in število kupcev trgovine za ustrezni delovni dan. Kako natančno lahko vremenske razmere v obliki temperature zraka vplivajo na obisk trgovskega lokala, ugotovimo z regresijsko analizo.

Splošna enačba linearne regresije je naslednja: Y = a0 + a1x1 +…+ akhk. V tej formuli Y pomeni spremenljivko, vpliv dejavnikov, ki jih poskušamo preučevati. V našem primeru je to število kupcev. Pomen x so različni dejavniki, ki vplivajo na spremenljivko. Opcije a so regresijski koeficienti. To pomeni, da so oni tisti, ki določajo pomembnost določenega dejavnika. Kazalo k označuje skupno število teh istih dejavnikov.


Analiza rezultatov analize

Rezultati regresijske analize so prikazani v obliki tabele na mestu, določenem v nastavitvah.

Eden glavnih kazalcev je R-kvadrat. Označuje kakovost modela. V našem primeru je ta koeficient 0,705 ali približno 70,5 %. To je sprejemljiva raven kakovosti. Odvisnost manjša od 0,5 je slaba.

Drug pomemben indikator se nahaja v celici na presečišču črte "Y-križišče" in stolpec "kvote". To nakazuje, kakšno vrednost bo imel Y, v našem primeru pa je to število kupcev, vsi ostali faktorji pa so enaki nič. V tej tabeli je ta vrednost 58,04.

Vrednost na presečišču grafa "Spremenljivka X1" in "kvote" prikazuje stopnjo odvisnosti Y od X. V našem primeru je to stopnja odvisnosti števila kupcev trgovine od temperature. Koeficient 1,31 velja za precej visok kazalnik vpliva.

Kot lahko vidite, je z uporabo Microsoft Excela zelo enostavno ustvariti tabelo regresijske analize. Toda le usposobljena oseba lahko dela z izhodnimi podatki in razume njihovo bistvo.

Najnovejši materiali v razdelku:

Valovne dolžine svetlobe.  Valovna dolžina.  Rdeča barva je spodnja meja vidnega spektra Območje valovnih dolžin vidnega sevanja v metrih
Valovne dolžine svetlobe. Valovna dolžina. Rdeča barva je spodnja meja vidnega spektra Območje valovnih dolžin vidnega sevanja v metrih

Ustreza nekaterim monokromatskim sevanjem. Odtenki, kot so roza, bež ali vijolična, nastanejo le kot posledica mešanja...

Nikolaj Nekrasov - Dedek: Verzi
Nikolaj Nekrasov - Dedek: Verzi

Nikolaj Aleksejevič Nekrasov Leto pisanja: 1870 Žanr dela: pesem Glavni junaki: deček Saša in njegov dekabristični dedek Zelo na kratko glavni...

Praktično in grafično delo pri risanju b) Preprosti prerezi
Praktično in grafično delo pri risanju b) Preprosti prerezi

riž. 99. Naloge za grafično delo št. 4 3) Ali so v delu kakšne luknje? Če da, kakšno geometrijsko obliko ima luknja? 4) Poiščite na...