A regresszióanalízis egy statisztikai módszer egy valószínűségi változó változóktól való függésének tanulmányozására. Regresszió Excelben: egyenlet, példák

A regresszióanalízis célja egy függő változó és egy (páronkénti regressziós elemzés) vagy több (több) független változó közötti kapcsolat mérése. A független változókat faktoriálisnak, magyarázónak, determinánsnak, regresszornak és prediktornak is nevezik.

A függő változót néha definiált, magyarázott vagy "válasz" változónak nevezik. A regresszióanalízis rendkívül elterjedt alkalmazása az empirikus kutatásokban nem csak annak köszönhető, hogy kényelmes eszköz a hipotézisek tesztelésére. A regresszió, különösen a többszörös regresszió hatékony modellezési és előrejelzési technika.

Kezdjük elmagyarázni a regresszióanalízissel végzett munka elveit egy egyszerűbb módszerrel - a páros módszerrel.

Páronkénti regressziós elemzés

A regresszióanalízis első lépései szinte azonosak lesznek a korrelációs együttható számítása során tettekkel. A Pearson-módszerrel végzett korrelációelemzés hatékonyságának három fő feltétele - a változók normális eloszlása, a változók intervallummérése, a változók közötti lineáris kapcsolat - a többszörös regresszió szempontjából is releváns. Ennek megfelelően az első szakaszban szóródási diagramokat készítenek, elvégzik a változók statisztikai és leíró elemzését, és kiszámítják a regressziós egyenest. A korrelációs elemzéshez hasonlóan a regressziós egyenesek a legkisebb négyzetek módszerével készülnek.

A két adatelemzési módszer közötti különbségek világosabb szemléltetésére térjünk át a már vizsgált példára az „SPS-támogatás” és a „vidéki lakosság aránya” változókkal. Az eredeti adatok megegyeznek. A szórásdiagramok különbsége az lesz, hogy a regressziós elemzésben helyes a függő változót - esetünkben az "SPS támogatást" - az Y tengely mentén ábrázolni, míg a korrelációs elemzésben ez nem számít. A kiugró értékek tisztítása után a szórásdiagram így néz ki:

A regressziós elemzés alapötlete, hogy a változók általános trendjével - regressziós egyenes formájában - megjósolható a függő változó értéke, a független értékeivel.

Képzeljünk el egy közönséges matematikai lineáris függvényt. Az euklideszi tér bármely vonala leírható a következő képlettel:

ahol a egy konstans, amely az y tengely mentén történő eltolást határozza meg; b - együttható, amely meghatározza a vonal szögét.

A meredekség és a konstans ismeretében bármely x-re kiszámíthatja (jósolhatja) y értékét.

Ez a legegyszerűbb függvény képezte a regresszióanalízis modell alapját azzal a megkötéssel, hogy y értékét nem pontosan, hanem egy bizonyos konfidenciaintervallumon belül fogjuk megjósolni, pl. hozzávetőlegesen, körülbelül.

A konstans a regressziós egyenes és az y tengely metszéspontja (az F-metszéspont, amelyet általában "elfogónak" neveznek a statisztikai csomagokban). Példánkban, amikor az SPS-re szavazunk, annak kerekített értéke 10,55 lesz. A b meredekségi együttható körülbelül -0,1 lesz (mint a korrelációs elemzésben, az előjel a kapcsolat típusát mutatja - közvetlen vagy inverz). Így a kapott modell így fog kinézni: SP C = -0,1 x Sel. minket. + 10,55.

Tehát az "Adygeai Köztársaság" esetében, ahol a vidéki lakosság aránya 47%, a becsült érték 5,63 lesz:

ATP = -0,10 x 47 + 10,55 \u003d 5,63.

Az eredeti és a megjósolt értékek közötti különbséget maradéknak nevezzük (ezt a statisztika szempontjából alapvető kifejezést már találkoztuk a kontingenciatáblázatok elemzésekor). Tehát az Adygeai Köztársaság esetében a maradék 3,92 - 5,63 = -1,71 lesz. Minél nagyobb a maradék modulo értéke, annál kevésbé jósolható meg az érték.

Minden esetre kiszámítjuk a várható értékeket és maradékokat:
Esemény Ült. minket. Kösz

(eredeti)

Kösz

(jósolt)

Maradványok
Adygea Köztársaság 47 3,92 5,63 -1,71 -
Altáj Köztársaság 76 5,4 2,59 2,81
Baskír Köztársaság 36 6,04 6,78 -0,74
A Burját Köztársaság 41 8,36 6,25 2,11
A Dagesztáni Köztársaság 59 1,22 4,37 -3,15
Ingus Köztársaság 59 0,38 4,37 3,99
Stb.

A kezdeti és előrejelzett értékek arányának elemzése a kapott modell minőségének, előrejelző képességének felmérésére szolgál. A regressziós statisztikák egyik fő mutatója az R többszörös korrelációs együttható - a függő változó eredeti és előrejelzett értéke közötti korrelációs együttható. A páros regressziós analízisben ez megegyezik a szokásos Pearson-korrelációs együtthatóval a függő és a független változó között, esetünkben - 0,63. A többszörös R értelmes értelmezéséhez determinációs együtthatóvá kell konvertálni. Ez ugyanúgy történik, mint a korrelációelemzésnél - a négyzetesítésnél. Az R-négyzet (R 2) determinációs együttható a függő változóban a független (független) változók által megmagyarázott eltérések arányát mutatja.

Esetünkben R 2 = 0,39 (0,63 2); ez azt jelenti, hogy a "vidéki lakosság aránya" változó mintegy 40%-át magyarázza a "CPS támogatása" változó eltéréseinek. Minél nagyobb a determinációs együttható értéke, annál jobb a modell minősége.

A modell minőségének másik mértéke a becslés standard hibája. Ez annak mértéke, hogy a pontok mennyire vannak "szórva" a regressziós egyenes körül. Az intervallumváltozók diszperziójának mértéke a szórás. Ennek megfelelően a becslés standard hibája a maradékok eloszlásának szórása. Minél nagyobb az értéke, annál nagyobb a szórás és annál rosszabb a modell. Esetünkben a standard hiba 2,18. Ennyivel fog modellünk „átlagosan hibázni” az „SPS support” változó értékének előrejelzésekor.

A regressziós statisztikák a varianciaanalízist is magukban foglalják. Segítségével megtudjuk: 1) a függő változó variációjának (szórásának) mekkora hányadát magyarázza a független változó; 2) a függő változó szórásának mekkora részét teszik ki a maradékok (megmagyarázhatatlan rész); 3) mi ennek a két értéknek az aránya (/ "-arány). A diszperziós statisztika különösen fontos a mintavizsgálatoknál - megmutatja, hogy mekkora valószínűséggel van kapcsolat a független és a függő változók között az általános sokaságban. , folyamatos vizsgálatoknál (mint a példánkban) a vizsgálat Ebben az esetben azt ellenőrzik, hogy a feltárt statisztikai mintázatot véletlenszerű körülmények egybeesése okozza-e, mennyire jellemző az adott feltételrendszerre, amelyben a vizsgált populáció elhelyezkedik. , azaz megállapítható, hogy a kapott eredmény nem valamilyen kiterjedtebb általános aggregátumra igaz, hanem annak szabályszerűségének, véletlenszerű hatásoktól való mentességének fokára.

Esetünkben a varianciastatisztika elemzése a következő:

SS df KISASSZONY F jelentése
Visszafejlődés. 258,77 1,00 258,77 54,29 0.000000001
Többi 395,59 83,00 L,11
Teljes 654,36

Az 54,29-es F-arány 0,0000000001 szinten jelentős. Ennek megfelelően nyugodtan elvethetjük a nullhipotézist (hogy a talált összefüggés véletlenszerű).

Hasonló funkciót lát el a t ismérv, de a regressziós együtthatók (szög- és F-keresztezések) tekintetében. A / kritérium segítségével teszteljük azt a hipotézist, hogy a regressziós együtthatók az általános sokaságban egyenlők nullával. Esetünkben ismét magabiztosan elvethetjük a nullhipotézist.

Többszörös regressziós elemzés

A többszörös regressziós modell majdnem azonos a páros regressziós modellel; az egyetlen különbség az, hogy a lineáris függvényben egymás után több független változó is szerepel:

Y = b1X1 + b2X2 + …+ bpXp + a.

Ha kettőnél több független változó van, akkor ezek kapcsolatát nem tudjuk vizuálisan ábrázolni, ebből a szempontból a többszörös regresszió kevésbé „látható”, mint a páros regresszió. Ha két független változó van, akkor hasznos lehet az adatokat 3D szórásdiagramban megjeleníteni. A professzionális statisztikai szoftvercsomagokban (például Statistica) lehetőség van egy háromdimenziós diagram elforgatására, amely lehetővé teszi az adatstruktúra jó vizuális megjelenítését.

Ha többszörös regresszióval dolgozunk, a páros regresszióval ellentétben meg kell határozni az elemzési algoritmust. A standard algoritmus tartalmazza az összes rendelkezésre álló prediktort a végső regressziós modellben. A lépésenkénti algoritmus független változók szekvenciális felvételét (kizárását) feltételezi, azok magyarázó „súlya” alapján. A lépésenkénti módszer akkor jó, ha sok független változó van; "megtisztítja" a modellt a gyenge előrejelzőktől, így tömörebbé és tömörebbé teszi.

A többszörös regresszió helyességének további feltétele (az intervallum, a normalitás és a linearitás mellett) a multikollinearitás hiánya - a független változók közötti erős korrelációk jelenléte.

A többszörös regressziós statisztikák értelmezése magában foglalja mindazokat az elemeket, amelyeket a páros regresszió esetében figyelembe vettünk. Emellett a többszörös regressziós elemzés statisztikájában további fontos összetevők is találhatók.

A munkát többszörös regresszióval illusztráljuk olyan hipotézisek tesztelésének példáján, amelyek megmagyarázzák az oroszországi régiók választási aktivitási szintjének különbségeit. Konkrét empirikus tanulmányok azt sugallják, hogy a választási részvételt a következők befolyásolják:

Nemzeti tényező ("orosz lakosság" változó; az orosz lakosságnak az Orosz Föderációt alkotó egységekben való részesedéseként operacionalizálva). Feltételezések szerint az orosz lakosság arányának növekedése a választói részvétel csökkenéséhez vezet;

Urbanizációs faktor ("városi lakosság" változó; operacionalizálva a városi lakosság aránya az Orosz Föderációt alkotó egységekben, ezzel a tényezővel már dolgoztunk a korrelációs elemzés részeként). Feltételezések szerint a városi lakosság arányának növekedése a választói részvétel csökkenéséhez is vezet.

A függő változó - "a választási aktivitás intenzitása" ("aktív") az 1995-2003 közötti szövetségi választásokon a régiókra vonatkozó átlagos részvételi adatokon keresztül operacionalizálódik. A két független és egy függő változó kezdeti adattáblázata a következő formátumú lesz. :

Esemény Változók
Eszközök. Gor. minket. Rus. minket.
Adygea Köztársaság 64,92 53 68
Altáj Köztársaság 68,60 24 60
A Burját Köztársaság 60,75 59 70
A Dagesztáni Köztársaság 79,92 41 9
Ingus Köztársaság 75,05 41 23
Kalmük Köztársaság 68,52 39 37
Karacsáj-Cserkes Köztársaság 66,68 44 42
Karéliai Köztársaság 61,70 73 73
Komi Köztársaság 59,60 74 57
Mari El Köztársaság 65,19 62 47

Stb. (a károsanyag-kibocsátás megtisztítása után 88 esetből 83 maradt)

A modell minőségét leíró statisztikák:

1. Többszörös R = 0,62; L-négyzet = 0,38. Ezért a nemzeti tényező és az urbanizációs tényező együttesen a „választási aktivitás” változó ingadozásának mintegy 38%-át magyarázzák.

2. Az átlagos hiba 3,38. Így „átlagosan” téved a felépített modell a részvételi arány előrejelzésében.

3. A magyarázott és megmagyarázhatatlan eltérés /l-aránya 25,2 0,000000003 szinten. A feltárt összefüggések véletlenszerűségére vonatkozó nullhipotézist elvetjük.

4. A "városi lakosság" és az "orosz lakosság" változók állandó és regressziós együtthatóinak / kritériuma 0,0000001 szinten szignifikáns; 0,00005 és 0,007. Az együtthatók véletlenszerűségére vonatkozó nullhipotézist elvetjük.

A függő változó kezdeti és előrejelzett értékeinek arányának elemzéséhez további hasznos statisztikák a Mahalanobis-távolság és a Cook-távolság. Az első az eset egyediségének mértéke (megmutatja, hogy egy adott esetben az összes független változó értékeinek kombinációja mennyivel tér el az összes független változó egyidejű átlagértékétől). A második az ügy hatásának mértéke. A különböző megfigyelések különböző módon befolyásolják a regressziós egyenes meredekségét, és a Cook-távolságot felhasználva e mutató szerint összehasonlíthatja őket. Ez hasznos a kiugró értékek eltávolításakor (a kiugró értéket túlzottan befolyásoló esetnek tekinthetjük).

Példánkban Dagesztán az egyik egyedülálló és befolyásos eset.

Esemény A kezdeti

értékeket

Predska

értékeket

Maradványok Távolság

Mahalanobis

Távolság
Adygea 64,92 66,33 -1,40 0,69 0,00
Altáj Köztársaság 68,60 69.91 -1,31 6,80 0,01
A Burját Köztársaság 60,75 65,56 -4,81 0,23 0,01
A Dagesztáni Köztársaság 79,92 71,01 8,91 10,57 0,44
Ingus Köztársaság 75,05 70,21 4,84 6,73 0,08
Kalmük Köztársaság 68,52 69,59 -1,07 4,20 0,00

A tényleges regressziós modell a következő paraméterekkel rendelkezik: Y-metszet (konstans) = 75,99; b (Hor. sat.) \u003d -0,1; b (rus. nas.) = -0,06. Végső képlet:

Aaktív, = -0,1 x Hor. sat.n+- 0,06 x Rus. sat.n + 75,99.

Összehasonlíthatjuk-e a prediktorok "magyarázó erejét" a 61-es együttható értéke alapján? Ebben az esetben igen, mivel mindkét független változónak azonos a százalékos formátuma. A többszörös regresszió azonban leggyakrabban különböző skálákon mért változókkal foglalkozik (például rubelben kifejezett jövedelemszint és években az életkor). Ezért általános esetben helytelen a változók prediktív képességeit a regressziós együtthatóval összehasonlítani. A többszörös regressziós statisztikákban erre a célra egy speciális béta-együttható (B), amelyet minden független változóra külön számítanak ki. Ez a faktor és a válasz részleges (az összes többi prediktor hatásának figyelembevételével számított) korrelációs együtthatója, és megmutatja a faktor független hozzájárulását a válaszértékek előrejelzéséhez. A páronkénti regressziós elemzésben a béta együttható érthető módon egyenlő a függő és független változó közötti páronkénti korrelációs együtthatóval.

Példánkban béta (Hor. nas.) = -0,43, béta (orosz nas.) = -0,28. Így mindkét tényező negatívan befolyásolja a választási aktivitás szintjét, miközben az urbanizációs tényező jelentősége lényegesen nagyobb, mint az országos tényezőé. A két tényező együttes hatása a „választási aktivitás” változó variációjának körülbelül 38%-át határozza meg (lásd az L-négyzet értéket).

Regresszió analízis

regresszió (lineáris) elemzés- statisztikai módszer egy vagy több független változó függő változóra gyakorolt ​​hatásának tanulmányozására. A független változókat másképpen regresszoroknak vagy prediktoroknak, a függő változókat pedig kritériumoknak nevezik. Terminológia függőés független A változók csak a változók matematikai függőségét tükrözik ( lásd: Hamis korreláció), nem pedig ok-okozati összefüggést.

A regresszióanalízis céljai

  1. A kritérium (függő) változó variációja determinizmus fokának meghatározása prediktorokkal (független változók)
  2. A függő változó értékének előrejelzése a független változó(k) segítségével
  3. Az egyes független változók hozzájárulásának meghatározása a függő változásához

A regressziós elemzéssel nem lehet megállapítani, hogy van-e kapcsolat a változók között, mivel az ilyen kapcsolat megléte az elemzés alkalmazásának előfeltétele.

A regresszió matematikai meghatározása

A szigorúan regresszív függőséget a következőképpen határozhatjuk meg. Legyen , adott közös valószínűségi eloszlású valószínűségi változók. Ha minden értékkészlethez feltételes elvárás van meghatározva

(általános regressziós egyenlet),

akkor a függvényt meghívjuk regresszió Y értékek érték szerint, és grafikonja - regressziós egyenes, vagy regressziós egyenlet.

A függőség az Y átlagértékeinek változásában nyilvánul meg változáskor. Bár minden rögzített értékhalmaz esetében a mennyiség egy bizonyos szórású valószínűségi változó marad.

Annak a kérdésnek a tisztázása érdekében, hogy a regressziós elemzés mennyire pontosan becsüli meg az Y változását a változással, az Y szórásának átlagos értékét használjuk különböző értékkészletekre (valójában a szóródás mértékéről beszélünk függő változó a regressziós egyenes körül).

Legkisebb négyzetek módszere (együtthatók kiszámítása)

A gyakorlatban a regressziós egyenest leggyakrabban olyan lineáris függvényként (lineáris regresszióként) keresik, amely a legjobban közelíti a kívánt görbét. Ez a legkisebb négyzetek módszerével történik, amikor a ténylegesen megfigyelt becslésektől való négyzetes eltéréseinek összege minimálisra csökken (vagyis a kívánt regressziós függést reprezentáló egyenes vonal segítségével történő becsléseket):

(M - mintanagyság). Ez a megközelítés azon a jól ismert tényen alapul, hogy a fenti kifejezésben megjelenő összeg pontosan arra az esetre veszi fel a minimális értéket, amikor .

A legkisebb négyzetek módszerével végzett regresszióelemzés problémájának megoldására bevezetjük a koncepciót maradék funkciók:

A maradék függvény minimumának feltétele:

A kapott rendszer egy lineáris egyenletrendszer ismeretlenekkel

Ha az egyenletek bal oldalának szabad tagjait a mátrixszal ábrázoljuk

és a mátrix jobb oldalán lévő ismeretlenek együtthatói

akkor megkapjuk a mátrixegyenletet: , amely könnyen megoldható a Gauss-módszerrel. A kapott mátrix a regressziós egyenes egyenlet együtthatóit tartalmazó mátrix lesz:

A legjobb becslések eléréséhez teljesíteni kell az LSM előfeltételeit (Gauss–Markov feltételek). Az angol szakirodalomban az ilyen becsléseket KÉK-nek (Best Linear Unbiased Estimators) hívják – ez a legjobb lineáris elfogulatlan becslés.

Regressziós paraméterek értelmezése

A paraméterek parciális korrelációs együtthatók; A fennmaradó prediktorok befolyásának rögzítésével magyarázott Y variancia arányaként értelmezhető, azaz az Y magyarázatához való egyéni hozzájárulást méri. A korrelált prediktorok esetében a becslésekben a bizonytalanság problémája van , amelyek attól válnak függővé, hogy a prediktorok milyen sorrendben szerepelnek a modellben. Ilyen esetekben szükséges a korrelációelemzés és a lépésenkénti regresszióanalízis módszereinek alkalmazása.

Ha a regresszióanalízis nemlineáris modelljeiről beszélünk, fontos odafigyelni arra, hogy független változók nemlinearitásáról (formális szempontból könnyen lineáris regresszióra redukálható), vagy a becsült paraméterek nemlinearitásáról beszélünk. (komoly számítási nehézségeket okozva). Az első típusú nemlinearitásnál értelmes szempontból fontos kiemelni a , forma tagjainak megjelenését a modellben, jelezve a jellemzők közötti interakciók jelenlétét stb. (lásd Multikollinearitás).

Lásd még

Linkek

  • www.kgafk.ru - Előadás a "Regressziós elemzésről"
  • www.basegroup.ru - módszerek a változók kiválasztására regressziós modellekben

Irodalom

  • Norman Draper, Harry Smith Alkalmazott regressziós elemzés. Többszörös regresszió = Alkalmazott regressziós elemzés. - 3. kiadás - M .: "Dialektika", 2007. - S. 912. - ISBN 0-471-17082-8
  • Statisztikai modellek becslésének fenntartható módszerei: Monográfia. - K. : PP "Sansparelle", 2005. - S. 504. - ISBN 966-96574-0-7, UDC: 519.237.5:515.126.2, LBC 22.172 + 22.152
  • Radchenko Stanislav Grigorievich, Regressziós elemzés módszertana: Monográfia. - K. : "Korniychuk", 2011. - S. 376. - ISBN 978-966-7599-72-0

Wikimédia Alapítvány. 2010 .

A 4. fejezet anyagának tanulmányozása eredményeként a hallgatónak:

tudni

  • a regresszióanalízis alapfogalmai;
  • becslési módszerek és a legkisebb négyzetek módszerének becslési tulajdonságai;
  • az egyenlet és a regressziós együtthatók szignifikanciavizsgálatának és intervallumbecslésének alapvető szabályai;

képesnek lenni

  • mintaadatokból becsléseket találni a regressziós egyenletek kétdimenziós és többszörös modelljei paramétereire, elemezni tulajdonságaikat;
  • ellenőrizze az egyenlet és a regressziós együtthatók jelentőségét;
  • megtalálja a jelentős paraméterek intervallumbecsléseit;

saját

  • a kétdimenziós és többszörös regressziós egyenletek paramétereinek statisztikai becslésének készsége; a regressziós modellek megfelelőségének ellenőrzésére vonatkozó készségek;
  • az összes jelentős együtthatóval rendelkező regressziós egyenlet analitikai szoftver segítségével történő előállításához szükséges készségek.

Alapfogalmak

A korrelációelemzés elvégzése után, amikor a változók közötti statisztikailag szignifikáns összefüggések meglétét azonosították és azok szorosságának mértékét felmérték, általában regresszióanalízis módszerekkel folytatják a függőségek típusának matematikai leírását. Ebből a célból kiválasztunk egy függvényosztályt, amely összekapcsolja a hatékony jelzőt nál nélés argumentumok“ kiszámítják a kényszeregyenlet paramétereinek becsléseit, és elemzik az eredményül kapott egyenlet pontosságát.

Az effektív jellemző feltételes átlagértékének függését leíró függvény| nál nél az argumentumok megadott értékeiből hívják meg regressziós egyenlet.

A "regresszió" kifejezés (lat. regresszió- visszavonulás, visszatérés valamihez) F. Galton angol pszichológus és antropológus vezette be, és egyik első példájához kapcsolódik, amelyben Galton a növekedés öröklődésének kérdésével kapcsolatos statisztikai adatokat feldolgozva megállapította, hogy ha a magasság az apák eltérnek az összes apa átlagos magasságától x hüvelyk, akkor fiaik magassága kevesebbel tér el az összes fia átlagos magasságától x hüvelyk Az azonosított trendet ún regresszió az átlaghoz.

A "regresszió" kifejezést széles körben használják a statisztikai irodalomban, bár sok esetben nem jellemzi pontosan a statisztikai függőséget.

A regressziós egyenlet pontos leírásához ismerni kell az effektív mutató eloszlásának feltételes törvényét y. A statisztikai gyakorlatban általában lehetetlen ilyen információhoz jutni, ezért a függvény megfelelő közelítésére korlátozódnak. f(x u x 2, .... l *), a jelenség előzetes érdemi elemzése vagy az eredeti statisztikai adatok alapján.

Egyedi modellfeltevések keretein belül a mutatók vektorának eloszlási típusára vonatkozóan<) может быть получен общий вид regressziós egyenletek, ahol. Például feltéve, hogy a vizsgált mutatók halmaza a ()-dimenziós normális eloszlás törvényének engedelmeskedik a matematikai elvárások vektorával.

Hol és a kovariancia mátrix segítségével,

hol van a szórás y,

A regressziós egyenletnek (feltételes várakozásnak) van formája

Így ha egy többváltozós valószínűségi változó ()

betartja a ()-dimenziós normális eloszlás törvényét, majd az effektív mutató regressziós egyenletét nál nél magyarázó változókban lineáris be van x Kilátás.

A statisztikai gyakorlatban azonban az embernek általában arra kell szorítkoznia, hogy megfelelő közelítéseket találjon az ismeretlen valódi regressziós függvényre. f(x), mivel a vizsgált teljesítménymutató valószínűségi eloszlásának feltételes törvényéről a kutató nem rendelkezik pontos ismeretekkel nál nél az argumentumok adott értékeihez X.

Tekintsük az igaz-, a modell- és a regressziós becslések közötti kapcsolatot. Legyen a teljesítménymutató nál nél az érvhez kapcsolódik x hányados

ahol ráadásul normális eloszlási törvényű valószínűségi változó. A valódi regressziós függvény ebben az esetben az

Tegyük fel, hogy nem ismerjük a valódi regressziós egyenlet pontos formáját, de kilenc megfigyelésünk van egy kétdimenziós valószínűségi változóról, amelyet az 1. ábrán látható összefüggések kapcsolnak össze. 4.1.

Rizs. 4.1. Az igaz relatív helyzetef(x) és elméletiAztaregressziós modellek

ábra pontjainak elhelyezkedése. A 4.1 lehetővé teszi, hogy az alak lineáris függőségének osztályára szorítkozzunk

A legkisebb négyzetek módszerével becslést találunk a regressziós egyenletre.

Összehasonlításképpen az ábrán. A 4.1. ábra a valódi regressziós függvény és az elméleti közelítő regressziós függvény grafikonját mutatja. A regressziós egyenlet becslése valószínűségben az utóbbihoz konvergál Azta a minta méretének korlátlan növelésével ().

Mivel tévedésből lineáris regressziós függvényt választottunk a valódi regressziós függvény helyett, ami sajnos elég gyakori a statisztikai kutatások gyakorlatában, ezért statisztikai következtetéseink és becsléseink nem rendelkeznek a konzisztencia tulajdonsággal, pl. bármennyire növeljük is a megfigyelések mennyiségét, a mintabecslésünk nem fog konvergálni a valódi regressziós függvényhez

Ha helyesen választottuk ki a regressziós függvények osztályát, akkor a leírás pontatlansága a használatával Azta csak a minta korlátozottságával magyarázható, és ezért tetszőlegesen kicsinyíthető

Az effektív mutató feltételes értékének és az ismeretlen regressziós függvénynek a kiindulási statisztikai adatokból történő legjobb visszaállítása érdekében leggyakrabban a következőket alkalmazzák: megfelelőségi kritériumok veszteségfüggvények.

1. Legkisebb négyzet módszer, amely szerint az effektív mutató megfigyelt értékeinek négyzetes eltérése a modellértékektől minimálisra csökken, ahol a regressziós egyenlet együtthatói; az argumentumvektor értékei "-M megfigyelésben" :

A vektor becslésének megtalálása folyamatban van. Az így kapott regressziót ún átlagos négyzet.

2. A legkisebb modulok módszere, amely szerint az effektív mutató megfigyelt értékeinek a moduláris értékektől való abszolút eltéréseinek összege minimálisra csökken, pl.

Az így kapott regressziót ún abszolútot jelent(középső).

3. minimax módszer az effektív mutató megfigyelt értékének maximális eltérési moduljának minimalizálására csökken y, a modellértékből, azaz.

Az így kapott regressziót ún minimax.

A gyakorlati alkalmazásokban gyakran adódnak problémák a valószínűségi változó tanulmányozása során y, a változók bizonyos halmazától és az ismeretlen paraméterektől függően. A ()-t mint (k + 1)-dimenziós általános sokaság, amelyből véletlenszerű térfogatminta P, ahol () a /-edik megfigyelés eredménye,. Ismeretlen paraméterek becslése szükséges a megfigyelések eredményei alapján. A fent leírt feladat a regresszióanalízis feladataira vonatkozik.

regresszió analízis nevezzük a valószínűségi változó függésének statisztikai elemzésének módszerét nál nél a regressziós elemzésben nem véletlenszerű változóknak tekintett változókon, függetlenül a valódi eloszlási törvénytől

A statisztikai modellezésben a regressziós elemzés a változók közötti kapcsolat értékelésére szolgáló tanulmány. Ez a matematikai módszer számos más módszert is tartalmaz több változó modellezésére és elemzésére, amikor a hangsúly egy függő változó és egy vagy több független változó közötti kapcsolaton van. Pontosabban, a regressziós elemzés segít megérteni, hogyan változik a függő változó tipikus értéke, ha az egyik független változó megváltozik, miközben a többi független változó állandó marad.

A célpontszám minden esetben a független változók függvénye, és ezt regressziós függvénynek nevezzük. A regresszióanalízis során az is érdekes, hogy a függő változó változását a regresszió függvényében jellemezzük, ami egy valószínűségi eloszlással írható le.

A regresszióanalízis feladatai

Ezt a statisztikai kutatási módszert széles körben alkalmazzák előrejelzésre, ahol jelentős előnye van ennek alkalmazása, de esetenként illúzióhoz vagy téves összefüggésekhez vezethet, ezért érdemes körültekintően alkalmazni ebben a kérdésben, hiszen pl. a korreláció nem jelent okozati összefüggést.

A regresszióanalízis elvégzésére számos módszert fejlesztettek ki, például lineáris és közönséges legkisebb négyzetes regressziót, amelyek paraméteresek. Lényegük az, hogy a regressziós függvényt véges számú ismeretlen paraméterrel határozzuk meg, amelyeket az adatokból becsülünk meg. A nem-paraméteres regresszió lehetővé teszi, hogy funkciója egy bizonyos függvényhalmazban feküdjön, amely lehet végtelen dimenziós.

Statisztikai kutatási módszerként a regresszióelemzés a gyakorlatban az adatgenerálási folyamat formájától és a regressziós megközelítéshez való viszonyától függ. Mivel az adatfolyamat generálás valódi formája jellemzően egy ismeretlen szám, az adatregressziós elemzés gyakran bizonyos mértékig függ a folyamattal kapcsolatos feltételezésektől. Ezek a feltételezések néha tesztelhetők, ha elegendő adat áll rendelkezésre. A regressziós modellek gyakran akkor is hasznosak, ha a feltételezéseket mérsékelten sértik, bár előfordulhat, hogy nem teljesítenek a legjobban.

Szűkebb értelemben a regresszió kifejezetten a folytonos válaszváltozók becslésére utalhat, szemben az osztályozásnál használt diszkrét válaszváltozókkal. A folytonos kimeneti változó esetét metrikus regressziónak is nevezik, hogy megkülönböztessük a kapcsolódó problémáktól.

Sztori

A regresszió legkorábbi formája a jól ismert legkisebb négyzetek módszere. Legendre 1805-ben, Gauss 1809-ben adta ki. Legendre és Gauss a módszert a Nap körüli testek (főleg üstökösök, de később újonnan felfedezett kisbolygók) csillagászati ​​megfigyelésekből történő meghatározására alkalmazta. Gauss 1821-ben publikálta a legkisebb négyzetek elméletének továbbfejlesztését, beleértve a Gauss-Markov-tétel egy változatát.

A "regresszió" kifejezést Francis Galton alkotta meg a 19. században egy biológiai jelenség leírására. A lényeg az volt, hogy a leszármazottak növekedése az ősök növekedéséből általában visszaszorul a normál átlagra. Galton számára a regressziónak csak ez a biológiai jelentése volt, de később Udni Yoley és Karl Pearson átvették munkáját, és általánosabb statisztikai kontextusba helyezték. Yule és Pearson munkájában a válasz- és magyarázóváltozók együttes eloszlását Gauss-félenek tekintik. Ezt a feltevést Fischer 1922-ben és 1925-ben visszautasította. Fisher azt javasolta, hogy a válaszváltozó feltételes eloszlása ​​Gauss-féle, de az együttes eloszlásnak nem kell annak lennie. E tekintetben Fisher javaslata közelebb áll Gauss 1821-es megfogalmazásához. 1970 előtt néha akár 24 órát is igénybe vett a regressziós elemzés eredményének megszerzése.

A regresszióelemzési módszerek továbbra is az aktív kutatás területét képezik. Az elmúlt évtizedekben új módszereket fejlesztettek ki a robusztus regresszióra; korrelált válaszokat magában foglaló regressziók; regressziós módszerek, amelyek különféle típusú hiányzó adatokat kezelnek; nem paraméteres regresszió; Bayes-féle regressziós módszerek; regressziók, amelyekben a prediktor változókat hibával mérik; regressziók több előrejelzővel, mint megfigyeléssel, és oksági következtetések regresszióval.

Regressziós modellek

A regressziós elemzési modellek a következő változókat tartalmazzák:

  • Ismeretlen paraméterek, bétaként jelölve, amelyek lehetnek skalárok vagy vektorok.
  • Független változók, X.
  • Függő változók, Y.

A tudomány különböző területein, ahol regresszióanalízist alkalmaznak, a függő és független változók helyett más kifejezéseket használnak, de a regressziós modell minden esetben Y-t X és β függvényéhez köti.

A közelítést általában a következőképpen fogalmazzák meg: E (Y | X) = F (X, β). A regresszióanalízis elvégzéséhez meg kell határozni az f függvény alakját. Ritkábban az Y és X közötti kapcsolatra vonatkozó tudáson alapul, amely nem támaszkodik adatokra. Ha ilyen ismeretek nem állnak rendelkezésre, akkor egy rugalmas vagy kényelmes F formát választanak.

Függő Y változó

Tegyük fel most, hogy az ismeretlen paraméterek β vektorának k hossza. A regressziós elemzés elvégzéséhez a felhasználónak információt kell adnia az Y függő változóról:

  • Ha N darab (Y, X) alakú adatpont figyelhető meg, ahol N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Ha pontosan N = K figyelhető meg, és az F függvény lineáris, akkor az Y = F(X, β) egyenlet pontosan megoldható, nem megközelítőleg. Ez annyit jelent, hogy meg kell oldani egy N-egyenletet N-ismeretlenekkel (β elemekkel), amelynek egyedi megoldása van mindaddig, amíg X lineárisan független. Ha F nemlineáris, akkor lehet, hogy nem létezik megoldás, vagy sok megoldás létezik.
  • A legáltalánosabb helyzet az, amikor az adatokhoz N > pont tartozik. Ebben az esetben elegendő információ van az adatokban ahhoz, hogy megbecsüljük β egyedi értékét, amely a legjobban illeszkedik az adatokhoz, és az adatokra alkalmazva a regressziós modell felülírt rendszernek tekinthető β-ban.

Az utóbbi esetben a regressziós elemzés eszközöket biztosít a következőkhöz:

  • Megoldás keresése ismeretlen β paraméterekre, amelyek például minimalizálják Y mért és előre jelzett értéke közötti távolságot.
  • Bizonyos statisztikai feltételezések mellett a regressziós elemzés többletinformációt használ, hogy statisztikai információt nyújtson az ismeretlen β paraméterekről és az Y függő változó előrejelzett értékeiről.

Szükséges számú független mérés

Tekintsünk egy regressziós modellt, amelynek három ismeretlen paramétere van: β 0, β 1 és β 2. Tegyük fel, hogy a kísérletező 10 mérést végez az X vektor független változójának azonos értékében. Ebben az esetben a regressziós elemzés nem ad egyedi értékkészletet. A legjobb, amit tehet, ha megbecsüli az Y függő változó átlagát és szórását. Hasonlóképpen X két különböző értékének mérésével elegendő adatot kaphat két ismeretlennel való regresszióhoz, de három vagy több ismeretlenre nem.

Ha a kísérletező méréseit az X független vektorváltozó három különböző értékén végezné, akkor a regressziós elemzés egyedi becsléseket adna a három ismeretlen paraméterre β-ban.

Általános lineáris regresszió esetén a fenti állítás egyenértékű azzal a követelménnyel, hogy az X T X mátrix invertálható.

Statisztikai feltevések

Ha az N mérések száma nagyobb, mint a k ismeretlen paraméterek száma és a mérési hibák ε i, akkor általában a mérésekben lévő többletinformációt szétosztják és felhasználják az ismeretlen paraméterekre vonatkozó statisztikai előrejelzésekhez. Ezt az információtöbbletet a regresszió szabadsági fokának nevezzük.

Mögöttes feltételezések

A regressziós elemzés klasszikus feltételezései a következők:

  • A mintavétel a következtetések előrejelzését reprezentálja.
  • A hiba egy véletlenszerű változó, amelynek átlagértéke nulla, ami feltétele a magyarázó változóknak.
  • A független változók mérése hiba nélkül történik.
  • Független változóként (prediktorként) lineárisan függetlenek, vagyis nem lehet egyetlen prediktort sem kifejezni a többi lineáris kombinációjaként.
  • A hibák nem korreláltak, azaz az átlók és minden nem nulla elem hibakovariancia mátrixa a hiba varianciája.
  • A hibavariancia a megfigyelések között állandó (homoscedaszticitás). Ha nem, akkor súlyozott legkisebb négyzetek vagy más módszerek használhatók.

Ezek az elégséges feltételek a legkisebb négyzetek becsléséhez rendelkeznek a szükséges tulajdonságokkal, különösen ezek a feltételezések azt jelentik, hogy a paraméterbecslések objektívek, következetesek és hatékonyak lesznek, különösen, ha figyelembe vesszük a lineáris becslések osztályában. Fontos megjegyezni, hogy a tényleges adatok ritkán felelnek meg a feltételeknek. Vagyis a módszert akkor is alkalmazzák, ha a feltételezések nem helyesek. A feltételezésektől való eltérések néha a modell hasznosságának mérésére használhatók. Ezen feltételezések közül sok korszerűbb módszerekkel enyhíthető. A statisztikai elemzési jelentések jellemzően a mintaadatokkal végzett tesztek elemzését és a modell hasznosságát vizsgáló módszertant tartalmazzák.

Ezenkívül a változók bizonyos esetekben pontokon mért értékekre vonatkoznak. A statisztikai feltételezéseket sértő változókban térbeli trendek és térbeli autokorrelációk lehetnek. A földrajzi súlyozott regresszió az egyetlen módszer, amely ilyen adatokkal foglalkozik.

A lineáris regresszióban az a jellemző, hogy a függő változó, amely Y i, paraméterek lineáris kombinációja. Például az egyszerű lineáris regresszióban az n-pontos modellezés egy független változót, x i-t, és két paramétert, β 0 és β 1 használ.

A többszörös lineáris regresszióban több független változó vagy ezek függvénye van.

Ha véletlenszerűen mintát veszünk egy populációból, annak paraméterei lehetővé teszik egy lineáris regressziós modell mintájának előállítását.

Ebből a szempontból a legkisebb négyzetek módszere a legnépszerűbb. Olyan paraméterbecsléseket biztosít, amelyek minimalizálják a maradékok négyzetösszegét. Ennek a függvénynek ez a fajta minimalizálása (amely a lineáris regresszióra jellemző) egy normál egyenlethalmazhoz és egy paraméteres lineáris egyenlethez vezet, amelyeket megoldva paraméterbecsléseket kapunk.

Feltételezve továbbá, hogy a populációs hiba általában terjed, a kutató felhasználhatja ezeket a standard hibákra vonatkozó becsléseket konfidenciaintervallumok létrehozására és hipotézisek tesztelésére a paramétereivel kapcsolatban.

Nemlineáris regressziós elemzés

Egy példa, ahol a függvény nem lineáris a paraméterekhez képest, azt jelzi, hogy a négyzetek összegét iteratív eljárással minimalizálni kell. Ez számos komplikációt vezet be, amelyek meghatározzák a lineáris és a nemlineáris legkisebb négyzetek módszerei közötti különbségeket. Következésképpen a regressziós analízis eredménye nemlineáris módszer alkalmazásakor esetenként megjósolhatatlan.

A teljesítmény és a minta méretének kiszámítása

Itt általában nincsenek konzisztens módszerek a megfigyelések és a modell független változóinak számához képest. Az első szabályt Dobra és Hardin javasolta, és a következőképpen néz ki: N = t^n, ahol N a minta mérete, n a magyarázó változók száma, és t a kívánt pontosság eléréséhez szükséges megfigyelések száma, ha a modell rendelkezik csak egy magyarázó változó. Például egy kutató lineáris regressziós modellt hoz létre egy 1000 beteget (N) tartalmazó adatkészlet felhasználásával. Ha a kutató úgy dönt, hogy az (m) egyenes pontos meghatározásához öt megfigyelésre van szükség, akkor a modell által támogatott magyarázó változók maximális száma 4.

Egyéb módszerek

Bár a regressziós modell paramétereit általában a legkisebb négyzetek módszerével becsülik meg, vannak más módszerek is, amelyeket sokkal ritkábban használnak. Például ezek a következő módszerek:

  • Bayesi módszerek (például a lineáris regresszió bayesi módszere).
  • Százalékos regresszió, amelyet olyan helyzetekben használnak, amikor a százalékos hibák csökkentése megfelelőbb.
  • A legkisebb abszolút eltérések, ami robusztusabb a kvantilis regresszióhoz vezető kiugró értékek jelenlétében.
  • Nem-paraméteres regresszió, amely nagyszámú megfigyelést és számítást igényel.
  • A tanulási metrika távolsága, amelyet az adott beviteli térben egy értelmes távolságmérő keresése során tanulunk meg.

Szoftver

Minden nagyobb statisztikai szoftvercsomagot a legkisebb négyzetek regressziós elemzésével hajtanak végre. Az egyszerű lineáris regressziós és többszörös regressziós elemzés használható néhány táblázatkezelő alkalmazásban, valamint néhány számológépben. Míg számos statisztikai szoftvercsomag képes különféle nemparaméteres és robusztus regressziót végrehajtani, ezek a módszerek kevésbé szabványosak; különböző szoftvercsomagok különböző módszereket valósítanak meg. Speciális regressziós szoftvert fejlesztettek ki olyan területekre, mint a felméréselemzés és a neuroimaging.

A regresszióanalízis a statisztikai kutatások egyik legnépszerűbb módszere. Segítségével meghatározható a független változók befolyásának mértéke a függő változóra. A Microsoft Excel funkcionalitása rendelkezik az ilyen típusú elemzések elvégzésére tervezett eszközökkel. Nézzük meg, mik ezek, és hogyan kell használni őket.

De a regressziós elemzést lehetővé tevő funkció használatához először is aktiválnia kell az Elemzőcsomagot. Csak ezután jelennek meg az ehhez az eljáráshoz szükséges eszközök az Excel szalagon.


Most, ha a lapra megyünk "Adat", az eszköztár szalagján "Elemzés" egy új gombot fogunk látni - "Adatelemzés".

A regresszióanalízis típusai

A regressziónak többféle típusa van:

  • parabolikus;
  • erő;
  • logaritmikus;
  • exponenciális;
  • demonstráció;
  • hiperbolikus;
  • lineáris regresszió.

Az utolsó típusú regressziós elemzés Excelben való megvalósításáról a későbbiekben részletesebben szólunk.

Lineáris regresszió Excelben

Az alábbiakban példaként egy táblázat látható, amely az utca átlagos napi levegőhőmérsékletét és az üzletek vásárlóinak számát mutatja az adott munkanapon. Nézzük meg regressziós elemzés segítségével, hogy az időjárási viszonyok a levegő hőmérséklete formájában pontosan hogyan befolyásolhatják egy kiskereskedelmi egység látogatottságát.

Az általános lineáris regressziós egyenlet így néz ki: Y = a0 + a1x1 + ... + axk. Ebben a képletben Y azt a változót jelenti, amelynek hatását vizsgálni próbáljuk. Esetünkben ez a vásárlók száma. Jelentése x a változót befolyásoló különféle tényezők. Lehetőségek a a regressziós együtthatók. Vagyis meghatározzák egy adott tényező jelentőségét. Index k ugyanazon tényezők teljes számát jelöli.


Elemzési eredmények elemzése

A regressziós elemzés eredményei táblázat formájában jelennek meg a beállításokban megadott helyen.

Az egyik fő mutató az R-négyzet. Ez jelzi a modell minőségét. Esetünkben ez az együttható 0,705 vagy körülbelül 70,5%. Ez egy elfogadható minőségi szint. A 0,5-nél kisebb kapcsolat rossz.

Egy másik fontos mutató a vonal metszéspontjában található cellában található "Y kereszteződés"és oszlop "együtthatók". Itt látható, hogy Y mekkora értéke lesz, esetünkben ez a vásárlók száma, minden más tényező nullával. Ebben a táblázatban ez az érték 58,04.

Érték a grafikon metszéspontjában "X1 változó"és "együtthatók" mutatja Y függésének mértékét X-től. Esetünkben ez a bolti vásárlók számának hőmérséklettől való függésének mértéke. Az 1,31-es együttható a befolyás meglehetősen magas mutatója.

Amint látja, meglehetősen könnyű regressziós elemzési táblázatot létrehozni a Microsoft Excel segítségével. A kimeneten kapott adatokkal azonban csak képzett személy dolgozhat, és értheti meg azok lényegét.

Friss cikkek a rovatban:

Kontinensek és kontinensek A kontinensek javasolt elhelyezkedése
Kontinensek és kontinensek A kontinensek javasolt elhelyezkedése

Kontinens (lat. continens, genitivus eset continentis) - a földkéreg nagy tömege, amelynek jelentős része a szint felett helyezkedik el ...

Haplocsoport E1b1b1a1 (Y-DNS) Haplocsoport e
Haplocsoport E1b1b1a1 (Y-DNS) Haplocsoport e

Az E1b1b1 nemzetség (snp M35) a Föld összes emberének körülbelül 5%-át egyesíti, és körülbelül 700 nemzedéke van egy közös ősnek. Az E1b1b1 nemzetség őse...

Klasszikus (magas) középkor
Klasszikus (magas) középkor

Aláírta a Magna Cartát - egy dokumentumot, amely korlátozza a királyi hatalmat, és később az egyik fő alkotmányos aktussá vált ...