Analiza regresji to statystyczna metoda badania zależności zmiennej losowej od zmiennych. Regresja w Excelu: równanie, przykłady

Celem analizy regresji jest pomiar związku pomiędzy zmienną zależną a jedną (analiza regresji parami) lub większą liczbą (wielu) zmiennych niezależnych. Zmienne niezależne nazywane są także zmiennymi czynnikowymi, objaśniającymi, determinantami, regresorami i predyktorami.

Zmienna zależna jest czasami nazywana zmienną ustaloną, wyjaśnioną lub zmienną „odpowiedzi”. Niezwykle powszechne zastosowanie analizy regresji w badaniach empirycznych wynika nie tylko z faktu, że jest ona wygodnym narzędziem do testowania hipotez. Regresja, zwłaszcza regresja wielokrotna, jest skuteczną metodą modelowania i prognozowania.

Wyjaśnienie zasad pracy z analizą regresji zacznijmy od prostszej metody – metody par.

Analiza regresji sparowanej

Pierwsze kroki przy zastosowaniu analizy regresji będą niemal identyczne z tymi, które wykonaliśmy przy obliczaniu współczynnika korelacji. Trzy główne warunki efektywności analizy korelacji metodą Pearsona – rozkład normalny zmiennych, pomiar przedziałowy zmiennych, liniowa zależność między zmiennymi – mają znaczenie również dla regresji wielokrotnej. W związku z tym w pierwszym etapie konstruowane są wykresy rozrzutu, przeprowadzana jest analiza statystyczna i opisowa zmiennych oraz obliczana jest linia regresji. Podobnie jak w przypadku analizy korelacji, linie regresji konstruowane są metodą najmniejszych kwadratów.

Aby jaśniej zobrazować różnice pomiędzy obydwoma metodami analizy danych, przejdźmy do omówionego już przykładu ze zmiennymi „wsparcie z SPJ” i „udział ludności wiejskiej”. Dane źródłowe są identyczne. Różnica w wykresach rozrzutu będzie taka, że ​​w analizie regresji prawidłowo będzie wykreślić zmienną zależną – w naszym przypadku „wsparcie SPS” na osi Y, podczas gdy w analizie korelacji nie ma to znaczenia. Po oczyszczeniu wartości odstających wykres rozrzutu wygląda następująco:

Podstawową ideą analizy regresji jest to, że mając ogólny trend dla zmiennych – w postaci linii regresji – można przewidzieć wartość zmiennej zależnej, biorąc pod uwagę wartości zmiennej niezależnej.

Wyobraźmy sobie zwykłą matematyczną funkcję liniową. Dowolną linię prostą w przestrzeni euklidesowej można opisać wzorem:

gdzie a jest stałą określającą przemieszczenie wzdłuż osi rzędnych; b jest współczynnikiem określającym kąt nachylenia linii.

Znając nachylenie i stałą, możesz obliczyć (przewidywać) wartość y dla dowolnego x.

Ta najprostsza funkcja stała się podstawą modelu analizy regresji, z zastrzeżeniem, że nie przewidzimy wartości y dokładnie, ale w określonym przedziale ufności, tj. około.

Stała jest punktem przecięcia linii regresji i osi y (przecięcie F, zwykle oznaczane w pakietach statystycznych jako „przechwytywacz”). W naszym przykładzie głosowania na Związek Sił Prawicy jego zaokrąglona wartość wyniesie 10,55. Współczynnik kątowy b będzie wynosić w przybliżeniu -0,1 (ponieważ w analizie korelacji znak wskazuje rodzaj połączenia - bezpośrednie lub odwrotne). Zatem powstały model będzie miał postać SP C = -0,1 x Sel. nas. + 10,55.

Zatem dla przypadku „Republiki Adygei” z udziałem ludności wiejskiej na poziomie 47% przewidywana wartość wyniesie 5,63:

ATP = -0,10 x 47 + 10,55 = 5,63.

Różnicę pomiędzy wartościami pierwotnymi i przewidywanymi nazywamy resztą (z tym fundamentalnym dla statystyki terminem spotkaliśmy się już przy analizie tablic kontyngencji). Zatem dla przypadku „Republiki Adygei” reszta będzie wynosić 3,92 – 5,63 = -1,71. Im większa wartość modułowa reszty, tym mniej skutecznie przewidywana wartość.

Obliczamy przewidywane wartości i reszty dla wszystkich przypadków:
Wydarzenie Usiadł. nas. dzięki

(oryginalny)

dzięki

(przewidywany)

Resztki
Republika Adygei 47 3,92 5,63 -1,71 -
Republika Ałtaju 76 5,4 2,59 2,81
Republika Baszkortostanu 36 6,04 6,78 -0,74
Republika Buriacji 41 8,36 6,25 2,11
Republika Dagestanu 59 1,22 4,37 -3,15
Republika Inguszetii 59 0,38 4,37 3,99
Itp.

Analiza stosunku wartości początkowych i przewidywanych służy ocenie jakości otrzymanego modelu i jego zdolności predykcyjnej. Jednym z głównych wskaźników statystyki regresji jest współczynnik korelacji wielokrotnej R - współczynnik korelacji między pierwotnymi i przewidywanymi wartościami zmiennej zależnej. W analizie regresji parami jest on równy zwykłemu współczynnikowi korelacji Pearsona między zmiennymi zależnymi i niezależnymi, w naszym przypadku - 0,63. Aby sensownie zinterpretować wielokrotne R, należy je przekształcić w współczynnik determinacji. Odbywa się to analogicznie jak w analizie korelacji – poprzez podniesienie do kwadratu. Współczynnik determinacji R-kwadrat (R 2) pokazuje proporcję zmienności zmiennej zależnej, która jest wyjaśniona przez zmienną(-y) niezależną(-e).

W naszym przypadku R 2 = 0,39 (0,63 2); oznacza to, że zmienna „udział ludności wiejskiej” wyjaśnia około 40% zmienności zmiennej „wsparcie z SPJ”. Im większy współczynnik determinacji, tym wyższa jakość modelu.

Kolejnym wskaźnikiem jakości modelu jest błąd standardowy oszacowania. Jest to miara tego, jak szeroko punkty są „rozproszone” wokół linii regresji. Miarą rozrzutu zmiennych przedziałowych jest odchylenie standardowe. W związku z tym błąd standardowy oszacowania jest odchyleniem standardowym rozkładu reszt. Im wyższa jego wartość, tym większy rozrzut i gorszy model. W naszym przypadku błąd standardowy wynosi 2,18. To właśnie o tę kwotę nasz model będzie „średnio błądzić” przy przewidywaniu wartości zmiennej „wsparcie SPS”.

Statystyki regresji obejmują również analizę wariancji. Za jego pomocą dowiadujemy się: 1) jaka część zmienności (rozproszenia) zmiennej zależnej jest wyjaśniona przez zmienną niezależną; 2) jaką część wariancji zmiennej zależnej odpowiadają reszty (część niewyjaśniona); 3) jaki jest stosunek tych dwóch wielkości (stosunek /"). Statystyka rozproszenia jest szczególnie ważna w przypadku badań reprezentacyjnych - pokazuje, jak prawdopodobne jest, że istnieje związek pomiędzy zmiennymi niezależnymi i zależnymi w populacji. Jednak dla badania ciągłe (jak w naszym przykładzie) nieprzydatne są wyniki badań analizy wariancji. W tym przypadku sprawdzają, czy zidentyfikowany wzór statystyczny jest spowodowany splotem losowych okoliczności, jak charakterystyczny jest dla zespołu warunków, w których występuje badana populacja jest zlokalizowana, tj. ustala się, że uzyskany wynik nie dotyczy jakiegoś szerszego agregatu ogólnego, ale stopnia jego regularności, braku wpływów przypadkowych.

W naszym przypadku statystyki ANOVA przedstawiają się następująco:

SS zm SM F oznaczający
Regres. 258,77 1,00 258,77 54,29 0.000000001
Reszta 395,59 83,00 L,11
Całkowity 654,36

Współczynnik F wynoszący 54,29 jest znaczący na poziomie 0,0000000001. W związku z tym możemy z całą pewnością odrzucić hipotezę zerową (że odkryta przez nas zależność jest dziełem przypadku).

Kryterium t pełni podobną funkcję, ale w odniesieniu do współczynników regresji (przecięcie kątowe i F). Stosując kryterium / testujemy hipotezę, że w populacji ogólnej współczynniki regresji są równe zeru. W naszym przypadku ponownie możemy z całą pewnością odrzucić hipotezę zerową.

Analiza regresji wielokrotnej

Model regresji wielokrotnej jest prawie identyczny z modelem regresji sparowanej; jedyna różnica polega na tym, że do funkcji liniowej włącza się kolejno kilka zmiennych niezależnych:

Y = b1X1 + b2X2 + …+ bpXp + a.

Jeśli istnieją więcej niż dwie zmienne niezależne, nie jesteśmy w stanie uzyskać wizualnego obrazu ich związku; pod tym względem regresja wielokrotna jest mniej „wizualna” niż regresja parami. Jeśli masz dwie niezależne zmienne, przydatne może być wyświetlenie danych na wykresie rozrzutu 3D. W profesjonalnych pakietach oprogramowania statystycznego (np. Statistica) istnieje możliwość obracania trójwymiarowego wykresu, co pozwala dobrze wizualnie przedstawić strukturę danych.

Podczas pracy z regresją wielokrotną, w przeciwieństwie do regresji parami, konieczne jest określenie algorytmu analizy. Standardowy algorytm uwzględnia wszystkie dostępne predyktory w ostatecznym modelu regresji. Algorytm krok po kroku polega na sekwencyjnym włączaniu (wykluczaniu) zmiennych niezależnych na podstawie ich „wagi wyjaśniającej”. Metoda krokowa jest dobra, gdy istnieje wiele zmiennych niezależnych; „oczyszcza” model ze szczerze mówiąc słabych predyktorów, czyniąc go bardziej zwartym i zwięzłym.

Dodatkowym warunkiem poprawności regresji wielokrotnej (wraz z przedziałem, normalnością i liniowością) jest brak wielowspółliniowości – występowanie silnych korelacji pomiędzy zmiennymi niezależnymi.

Interpretacja statystyk regresji wielokrotnej uwzględnia wszystkie elementy, które rozważaliśmy w przypadku regresji parami. Ponadto istnieją inne ważne elementy statystyki analizy regresji wielokrotnej.

Pracę z regresją wielokrotną zilustrujemy na przykładzie testowania hipotez wyjaśniających różnice w poziomie aktywności wyborczej pomiędzy regionami Rosji. Specyficzne badania empiryczne sugerują, że na poziom frekwencji wyborczej wpływają:

Czynnik narodowy (zmienna „ludność rosyjska”; operacjonalizowany jako udział ludności rosyjskiej w podmiotach Federacji Rosyjskiej). Zakłada się, że wzrost udziału ludności rosyjskiej prowadzi do spadku frekwencji wyborczej;

Czynnik urbanizacji (zmienna „ludność miejska”; operacjonalizowana jako udział ludności miejskiej w podmiotach Federacji Rosyjskiej; z tym czynnikiem pracowaliśmy już w ramach analizy korelacji). Zakłada się, że wzrost udziału ludności miejskiej prowadzi także do spadku frekwencji wyborczej.

Zmienną zależną „intensywność aktywności wyborczej” („aktywność”) operacjonalizuje się na podstawie danych dotyczących średniej frekwencji według regionów w wyborach federalnych w latach 1995–2003. Początkowa tabela danych dla dwóch zmiennych niezależnych i jednej zależnej będzie wyglądać następująco:

Wydarzenie Zmienne
Aktywa. Gor. nas. Rus. nas.
Republika Adygei 64,92 53 68
Republika Ałtaju 68,60 24 60
Republika Buriacji 60,75 59 70
Republika Dagestanu 79,92 41 9
Republika Inguszetii 75,05 41 23
Republika Kałmucji 68,52 39 37
Republika Karaczajo-Czerkieska 66,68 44 42
Republika Karelii 61,70 73 73
Republika Komi 59,60 74 57
Republika Mari El 65,19 62 47

Itp. (po oczyszczeniu emisji pozostają 83 z 88 przypadków)

Statystyki opisujące jakość modelu:

1. Wielokrotność R = 0,62; L-kwadrat = 0,38. W rezultacie czynnik narodowy i czynnik urbanizacji wyjaśniają łącznie około 38% zmienności zmiennej „aktywność wyborcza”.

2. Średni błąd wynosi 3,38. Dokładnie tak „przeciętnie błędny” jest skonstruowany model w przewidywaniu poziomu frekwencji.

3. Stosunek /l zmienności wyjaśnionej i niewyjaśnionej wynosi 25,2 na poziomie 0,000000003. Hipotezę zerową o losowości zidentyfikowanych zależności odrzuca się.

4. Kryterium / dla współczynników stałych i regresji zmiennych „ludność miejska” i „ludność rosyjska” jest istotne na poziomie 0,0000001; Odpowiednio 0,00005 i 0,007. Hipoteza zerowa mówiąca o losowości współczynników została odrzucona.

Dodatkowymi statystykami przydatnymi w analizie zależności pomiędzy pierwotnymi i przewidywanymi wartościami zmiennej zależnej są odległość Mahalanobisa i odległość Cooka. Pierwsza jest miarą jednoznaczności przypadku (pokazuje, jak bardzo kombinacja wartości wszystkich zmiennych niezależnych dla danego przypadku odbiega od wartości średniej dla wszystkich zmiennych niezależnych jednocześnie). Druga jest miarą wpływu sprawy. Różne obserwacje mają różny wpływ na nachylenie linii regresji, a odległość Cooka można wykorzystać do porównania ich w tym wskaźniku. Może to być przydatne podczas usuwania wartości odstających (wartość odstającą można uznać za przypadek o zbyt dużym wpływie).

W naszym przykładzie do wyjątkowych i wpływowych przypadków zalicza się Dagestan.

Wydarzenie Oryginalny

wartości

Predska

wartości

Resztki Dystans

Mahalanobisa

Dystans
Adygea 64,92 66,33 -1,40 0,69 0,00
Republika Ałtaju 68,60 69.91 -1,31 6,80 0,01
Republika Buriacji 60,75 65,56 -4,81 0,23 0,01
Republika Dagestanu 79,92 71,01 8,91 10,57 0,44
Republika Inguszetii 75,05 70,21 4,84 6,73 0,08
Republika Kałmucji 68,52 69,59 -1,07 4,20 0,00

Sam model regresji ma następujące parametry: Przecięcie Y (stała) = 75,99; b (poziomo) = -0,1; Kommersant (rosyjski nas.) = -0,06. Ostateczna formuła:

Aktywny, = -0,1 x Hor. us.n+- 0,06 x Rus. us.n + 75,99.

Czy możemy porównać „moc wyjaśniającą” predyktorów w oparciu o wartość współczynnika 61. W tym przypadku tak, ponieważ obie zmienne niezależne mają ten sam format procentowy. Najczęściej jednak regresja wielokrotna dotyczy zmiennych mierzonych w różnych skalach (np. poziom dochodów w rublach i wiek w latach). Dlatego w ogólnym przypadku niepoprawne jest porównywanie możliwości predykcyjnych zmiennych za pomocą współczynnika regresji. W statystykach regresji wielokrotnej służy do tego specjalny współczynnik beta (B), obliczany oddzielnie dla każdej zmiennej niezależnej. Reprezentuje częściowy (obliczony po uwzględnieniu wpływu wszystkich pozostałych predyktorów) współczynnik korelacji między czynnikiem a odpowiedzią i pokazuje niezależny wkład czynnika w predykcję wartości odpowiedzi. W analizie regresji parami współczynnik beta jest, co zrozumiałe, równy współczynnikowi korelacji parami między zmienną zależną i niezależną.

W naszym przykładzie beta (populacja górska) = -0,43, beta (populacja rosyjska) = -0,28. Obydwa czynniki wpływają zatem negatywnie na poziom aktywności wyborczej, przy czym znaczenie czynnika urbanizacyjnego jest znacząco wyższe od znaczenia czynnika narodowego. Łączny wpływ obu czynników wyznacza około 38% zmienności zmiennej „aktywność wyborcza” (patrz wartość L-kwadrat).

Analiza regresji

Regresja (liniowy) analiza- statystyczna metoda badania wpływu jednej lub większej liczby zmiennych niezależnych na zmienną zależną. Zmienne niezależne nazywane są inaczej regresorami lub predyktorami, a zmienne zależne nazywane są zmiennymi kryterialnymi. Terminologia zależny I niezależny zmienne odzwierciedlają jedynie matematyczną zależność zmiennych ( zobacz Fałszywa korelacja), a nie związki przyczynowo-skutkowe.

Cele analizy regresji

  1. Określanie stopnia determinacji zmienności zmiennej kryterialnej (zależnej) przez predyktory (zmienne niezależne)
  2. Przewidywanie wartości zmiennej zależnej przy użyciu zmiennych niezależnych
  3. Wyznaczanie udziału poszczególnych zmiennych niezależnych w zmienności zmiennej zależnej

Za pomocą analizy regresji nie można określić, czy istnieje związek między zmiennymi, gdyż istnienie takiego związku jest warunkiem zastosowania analizy.

Matematyczna definicja regresji

Zależność ściśle regresyjną można zdefiniować w następujący sposób. Niech , będą zmiennymi losowymi o zadanym łącznym rozkładzie prawdopodobieństwa. Jeśli dla każdego zestawu wartości zdefiniowano warunkowe oczekiwanie matematyczne

(równanie regresji w postaci ogólnej),

następnie wywoływana jest funkcja regresja wartości Y według wartości, a jego wykres to linia regresji przez lub równanie regresji.

Zależność od przejawia się zmianą średnich wartości Y wraz ze zmianą . Chociaż dla każdego ustalonego zestawu wartości wartość pozostaje zmienną losową z pewnym rozproszeniem.

Aby wyjaśnić kwestię, jak dokładnie analiza regresji szacuje zmianę Y przy zmianie, stosuje się średnią wartość rozproszenia Y dla różnych zbiorów wartości (w rzeczywistości mówimy o mierze rozproszenia zmiennej zależnej wokół linii regresji).

Metoda najmniejszych kwadratów (obliczanie współczynników)

W praktyce najczęściej poszukuje się linii regresji w postaci funkcji liniowej (regresja liniowa), która najlepiej przybliża pożądaną krzywą. Odbywa się to przy użyciu metody najmniejszych kwadratów, gdy minimalizuje się sumę kwadratów odchyleń faktycznie zaobserwowanych od ich szacunków (co oznacza szacunki wykorzystujące linię prostą, która ma przedstawiać pożądaną zależność regresji):

(M - wielkość próbki). Podejście to opiera się na dobrze znanym fakcie, że kwota występująca w powyższym wyrażeniu przyjmuje wartość minimalną właśnie dla przypadku, gdy .

Aby rozwiązać problem analizy regresji metodą najmniejszych kwadratów, wprowadzono koncepcję funkcje resztkowe:

Warunek minimalny funkcji resztowej:

Powstały układ jest układem równań liniowych z niewiadomymi

Jeśli przedstawimy wolne terminy po lewej stronie równań jako macierz

a współczynniki niewiadomych po prawej stronie to macierz

wówczas otrzymujemy równanie macierzowe: , które można łatwo rozwiązać metodą Gaussa. Otrzymana macierz będzie macierzą zawierającą współczynniki równania linii regresji:

Aby uzyskać najlepsze szacunki, konieczne jest spełnienie warunków wstępnych OLS (warunki Gaussa–Markowa). W literaturze angielskiej takie szacunki nazywane są BLUE (Best Linear Unbiased Estimators).

Interpretacja parametrów regresji

Parametry są częściowymi współczynnikami korelacji; interpretuje się jako proporcję wariancji Y wyjaśnionej poprzez ustalenie wpływu pozostałych predyktorów, czyli mierzy indywidualny wkład w wyjaśnienie Y. W przypadku predyktorów skorelowanych pojawia się problem niepewności oszacowań, które stają się zależne od kolejności uwzględniania predyktorów w modelu. W takich przypadkach konieczne jest zastosowanie metod analizy korelacyjnej i regresji krokowej.

Mówiąc o nieliniowych modelach analizy regresji, należy zwrócić uwagę, czy mówimy o nieliniowości zmiennych niezależnych (z formalnego punktu widzenia łatwo sprowadzić do regresji liniowej), czy też o nieliniowości estymowanych parametrów (powodującej poważne trudności obliczeniowe). W przypadku nieliniowości pierwszego typu, z merytorycznego punktu widzenia istotne jest podkreślenie pojawienia się w modelu członów postaci , wskazujących na obecność interakcji pomiędzy cechami itp. (patrz Wielokolinearność).

Zobacz też

Spinki do mankietów

  • www.kgafk.ru - Wykład na temat „Analiza regresji”
  • www.basegroup.ru - metody selekcji zmiennych w modelach regresji

Literatura

  • Normana Drapera, Harry’ego Smitha Stosowana analiza regresji. Regresja wielokrotna = stosowana analiza regresji. - wyd. 3. - M.: „Dialektyka”, 2007. - s. 912. - ISBN 0-471-17082-8
  • Solidne metody estymacji modeli statystycznych: Monografia. - K.: PP "Sansparel", 2005. - s. 504. - ISBN 966-96574-0-7, UDC: 519.237.5:515.126.2, BBK 22.172+22.152
  • Radczenko Stanisław Grigoriewicz, Metodologia analizy regresji: Monografia. - K.: "Korniychuk", 2011. - s. 376. - ISBN 978-966-7599-72-0

Fundacja Wikimedia. 2010.

W wyniku przestudiowania materiału z rozdziału 4 student powinien:

wiedzieć

  • podstawowe pojęcia analizy regresji;
  • metody estymacji i właściwości estymacji metodą najmniejszych kwadratów;
  • podstawowe zasady badania istotności i estymacji przedziałowej równań i współczynników regresji;

móc

  • wykorzystać przykładowe dane do znalezienia estymatorów parametrów modeli równań dwuwymiarowych i modeli regresji wielokrotnej oraz przeanalizować ich właściwości;
  • sprawdzić znaczenie równania i współczynników regresji;
  • znaleźć szacunki przedziałowe istotnych parametrów;

własny

  • umiejętność statystycznej estymacji parametrów równań regresji dwuwymiarowej i wielokrotnej; umiejętność sprawdzania adekwatności modeli regresji;
  • umiejętność otrzymywania równania regresji ze wszystkimi istotnymi współczynnikami z wykorzystaniem programów analitycznych.

Podstawowe koncepcje

Po przeprowadzeniu analizy korelacji, gdy zidentyfikowano występowanie istotnych statystycznie zależności pomiędzy zmiennymi i oceniono stopień ich bliskości, zazwyczaj przystępuje się do matematycznego opisu rodzaju zależności metodami analizy regresji. W tym celu wybiera się klasę funkcji, która wiąże efektywny wskaźnik Na i argumenty „obliczają szacunki parametrów równania sprzężenia i analizują dokładność otrzymanego równania.

Funkcja|, opisująca zależność warunkowej wartości średniej wynikowej charakterystyki Na z podanych wartości argumentów wywoływana jest równanie regresji.

Termin „regresja” (od łac. regresja – wycofać się, wrócić do czegoś) został wprowadzony przez angielskiego psychologa i antropologa F. Galtona i kojarzony jest z jednym z jego pierwszych przykładów, w którym Galton przetwarzając dane statystyczne związane z kwestią dziedziczności wzrostu stwierdził, że jeśli wysokość ojców odbiega od średniego wzrostu wszystkich ojców X cali, wówczas wzrost ich synów odbiega od średniego wzrostu wszystkich synów o mniej niż X cale. Zidentyfikowany trend nazwano regresja do średniej.

Termin „regresja” jest szeroko stosowany w literaturze statystycznej, chociaż w wielu przypadkach nie opisuje dokładnie zależności statystycznej.

Aby dokładnie opisać równanie regresji, należy znać prawo rozkładu warunkowego efektywnego wskaźnika ty W praktyce statystycznej zwykle nie ma możliwości uzyskania takich informacji, dlatego ograniczają się one do poszukiwania odpowiednich przybliżeń dla funkcji f(x ty X 2,... l*), na podstawie wstępnej merytorycznej analizy zjawiska lub wstępnych danych statystycznych.

W ramach poszczególnych założeń modelu o rodzaju rozkładu wektora wskaźników<) может быть получен общий вид równania regresji, Gdzie. Przykładowo, przy założeniu, że badany zbiór wskaźników spełnia ()wymiarowe prawo rozkładu normalnego z wektorem oczekiwań matematycznych

Gdzie i macierz kowariancji,

gdzie jest rozproszenie y,

Równanie regresji (warunkowe oczekiwanie matematyczne) ma postać

Zatem, jeśli wielowymiarowa zmienna losowa ()

przestrzega ()-wymiarowego prawa rozkładu normalnego, a następnie równania regresji efektywnego wskaźnika Na w zmiennych objaśniających jest liniowy X pogląd.

Jednak w praktyce statystycznej zwykle trzeba ograniczyć się do znalezienia odpowiednich przybliżeń dla nieznanej prawdziwej funkcji regresji f(x), ponieważ badacz nie posiada dokładnej wiedzy na temat prawa rozkładu prawdopodobieństwa warunkowego analizowanego wskaźnika wydajności Na dla podanych wartości argumentów X.

Przyjrzyjmy się zależnościom pomiędzy szacunkami prawdziwymi, modelowymi i regresyjnymi. Niech skuteczny wskaźnik Na związane z argumentacją X stosunek

gdzie jest zmienną losową mającą rozkład normalny, oraz i. Prawdziwa funkcja regresji ma w tym przypadku postać

Załóżmy, że nie jest nam znana dokładna postać prawdziwego równania regresji, ale mamy dziewięć obserwacji dwuwymiarowej zmiennej losowej powiązanej relacjami przedstawionymi na ryc. 4.1.

Ryż. 4.1. Względna pozycja prawdyk(x) i teoretyczneupsmodele regresji

Położenie punktów na rys. 4.1 pozwala nam ograniczyć się do klasy liniowych zależności postaci

Metodą najmniejszych kwadratów znajdujemy estymację równania regresji.

Dla porównania na ryc. 4.1 pokazuje wykresy prawdziwej funkcji regresji i teoretycznej funkcji regresji aproksymującej. Oszacowanie równania regresji zbiega się z prawdopodobieństwem do tego drugiego ups z nieograniczonym wzrostem wielkości próby ().

Ponieważ błędnie wybraliśmy funkcję regresji liniowej zamiast prawdziwej funkcji regresji, co niestety jest dość powszechne w praktyce badań statystycznych, nasze wnioski i szacunki statystyczne nie będą miały właściwości spójności, tj. Bez względu na to, jak zwiększymy liczbę obserwacji, nasze oszacowanie próbki nie będzie zbieżne z prawdziwą funkcją regresji

Gdybyśmy poprawnie dobrali klasę funkcji regresji, to niedokładność w opisie za pomocą ups można by wytłumaczyć jedynie ograniczoną próbą, w związku z czym można ją przeprowadzić tak małą, jak to pożądane

Aby jak najlepiej odtworzyć wartość warunkową wskaźnika wydajności i nieznaną funkcję regresji z wyjściowych danych statystycznych, najczęściej stosuje się: kryteria adekwatności funkcje straty.

1. metoda najmniejszych kwadratów, zgodnie z którym minimalizowane jest kwadratowe odchylenie obserwowanych wartości efektywnego wskaźnika, od wartości modelu, gdzie współczynniki równania regresji; są wartościami wektora argumentów w „-M obserwacja:

Problem znalezienia estymaty wektora został rozwiązany. Wynikową regresję nazywa się Średnia kwadratowa.

2. Metoda najmniejszych modułów, zgodnie z którym minimalizowana jest suma bezwzględnych odchyleń obserwowanych wartości wskaźnika efektywnego od wartości modułowych, tj.

Wynikową regresję nazywa się oznacza absolutne(mediana).

3. Metoda Minimaxa sprowadza się do minimalizacji maksymalnego modułu odchylenia obserwowanej wartości skutecznego wskaźnika y, od wartości modelu, tj.

Wynikową regresję nazywa się minimaks.

W zastosowaniach praktycznych często pojawiają się problemy podczas badania zmiennej losowej y, w zależności od pewnego zestawu zmiennych i nieznanych parametrów. Rozważymy () jako (k + 1)-wymiarowa populacja ogólna, z której losowa próba P, gdzie () jest wynikiem i-tej obserwacji. Wymagane jest oszacowanie nieznanych parametrów na podstawie wyników obserwacji. Opisane powyżej zadanie dotyczy problemów analizy regresji.

Analiza regresji nazywa się metodą analizy statystycznej zależności zmiennej losowej Na na zmiennych uznawanych w analizie regresji za wartości nielosowe, niezależnie od prawdziwego prawa dystrybucji

W modelowaniu statystycznym analiza regresji jest badaniem stosowanym do oceny związku między zmiennymi. Ta metoda matematyczna obejmuje wiele innych metod modelowania i analizowania wielu zmiennych, w których nacisk kładzie się na związek między zmienną zależną a jedną lub większą liczbą zmiennych niezależnych. Mówiąc dokładniej, analiza regresji pomaga nam zrozumieć, jak zmienia się typowa wartość zmiennej zależnej, jeśli zmienia się jedna ze zmiennych niezależnych, podczas gdy inne zmienne niezależne pozostają niezmienne.

We wszystkich przypadkach estymacja docelowa jest funkcją zmiennych niezależnych i nazywa się ją funkcją regresji. W analizie regresji interesujące jest również scharakteryzowanie zmiany zmiennej zależnej jako funkcji regresji, którą można opisać za pomocą rozkładu prawdopodobieństwa.

Problemy analizy regresji

Ta metoda badań statystycznych jest szeroko stosowana w prognozowaniu, gdzie jej zastosowanie ma znaczną przewagę, ale czasami może prowadzić do złudzeń lub fałszywych zależności, dlatego zaleca się ostrożne stosowanie jej w tej materii, gdyż np. korelacja nie oznacza związek przyczynowy.

Opracowano wiele metod analizy regresji, takich jak regresja liniowa i zwykła metoda najmniejszych kwadratów, które są parametryczne. Ich istota polega na tym, że funkcję regresji definiuje się w kategoriach skończonej liczby nieznanych parametrów, które są estymowane na podstawie danych. Regresja nieparametryczna pozwala, aby jej funkcja mieściła się w określonym zestawie funkcji, który może być nieskończenie wymiarowy.

Jako metoda badań statystycznych, analiza regresji w praktyce zależy od formy procesu generowania danych i jego powiązania z podejściem regresyjnym. Ponieważ prawdziwa forma generowania procesu danych jest zwykle nieznaną liczbą, analiza regresji danych często zależy w pewnym stopniu od założeń dotyczących procesu. Założenia te można czasami przetestować, jeśli dostępna jest wystarczająca ilość danych. Modele regresji są często przydatne nawet wtedy, gdy założenia są umiarkowanie naruszone, chociaż mogą nie działać z maksymalną wydajnością.

W węższym sensie regresja może odnosić się konkretnie do estymacji ciągłych zmiennych odpowiedzi, w przeciwieństwie do dyskretnych zmiennych odpowiedzi stosowanych w klasyfikacji. Przypadek ciągłej zmiennej wyjściowej nazywany jest także regresją metryczną, aby odróżnić ją od problemów pokrewnych.

Fabuła

Najwcześniejszą formą regresji jest dobrze znana metoda najmniejszych kwadratów. Została opublikowana przez Legendre'a w 1805 r. i Gaussa w 1809 r. Legendre i Gauss zastosowali tę metodę do problemu wyznaczania na podstawie obserwacji astronomicznych orbit ciał wokół Słońca (głównie komet, ale później także nowo odkrytych mniejszych planet). Gauss opublikował dalszy rozwój teorii najmniejszych kwadratów w 1821 r., włączając wersję twierdzenia Gaussa – Markowa.

Termin „regresja” został ukuty przez Francisa Galtona w XIX wieku w celu opisania zjawiska biologicznego. Pomysł polegał na tym, że wzrost potomków w stosunku do wzrostu ich przodków ma tendencję do zmniejszania się w kierunku normalnej średniej. Dla Galtona regresja miała wyłącznie biologiczne znaczenie, ale później Udney Yoley i Karl Pearson kontynuowali jego pracę i przenieśli ją do bardziej ogólnego kontekstu statystycznego. W pracach Yule'a i Pearsona zakłada się, że łączny rozkład zmiennych odpowiedzi i objaśniających jest rozkładem Gaussa. Założenie to zostało odrzucone przez Fischera w artykułach z lat 1922 i 1925. Fisher zasugerował, że rozkład warunkowy zmiennej odpowiedzi jest gaussowski, ale rozkład łączny nie musi być. Pod tym względem propozycja Fischera jest bliższa sformułowaniu Gaussa z 1821 r. Przed rokiem 1970 uzyskanie wyniku analizy regresji zajmowało czasami nawet 24 godziny.

Metody analizy regresji pozostają obszarem aktywnych badań. W ostatnich dziesięcioleciach opracowano nowe metody solidnej regresji; regresje obejmujące skorelowane odpowiedzi; metody regresji uwzględniające różne typy brakujących danych; regresja nieparametryczna; Metody regresji bayesowskiej; regresje, w których zmienne predykcyjne są mierzone z błędem; regresja z większą liczbą predyktorów niż obserwacji oraz wnioskowanie przyczynowo-skutkowe za pomocą regresji.

Modele regresji

Modele analizy regresji obejmują następujące zmienne:

  • Nieznane parametry, oznaczona beta, która może być skalarem lub wektorem.
  • Zmienne niezależne, X.
  • Zmienne zależne, Y.

Różne dziedziny nauki, w których stosowana jest analiza regresji, używają różnych terminów zamiast zmiennych zależnych i niezależnych, ale we wszystkich przypadkach model regresji wiąże Y z funkcją X i β.

Przybliżenie jest zwykle zapisywane jako E(Y | X) = F(X, β). Aby przeprowadzić analizę regresji, należy określić rodzaj funkcji f. Rzadziej opiera się na wiedzy o relacji pomiędzy Y i X, która nie opiera się na danych. Jeżeli taka wiedza nie jest dostępna, wybiera się elastyczną lub wygodną formę F.

Zmienna zależna Y

Załóżmy teraz, że wektor o nieznanych parametrach β ma długość k. Aby przeprowadzić analizę regresji, użytkownik musi podać informację o zmiennej zależnej Y:

  • Jeśli zaobserwowano N punktów danych w postaci (Y, X), gdzie N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Jeśli zostanie zaobserwowane dokładnie N = K, a funkcja F jest liniowa, wówczas równanie Y = F(X, β) można rozwiązać dokładnie, a nie w przybliżeniu. Sprowadza się to do rozwiązania zestawu N-równań z N-niewiadomymi (elementami β), które mają unikalne rozwiązanie, o ile X jest liniowo niezależne. Jeżeli F jest nieliniowe, rozwiązanie może nie istnieć lub może istnieć wiele rozwiązań.
  • Najczęstszą sytuacją jest obserwowanie N > punktów danych. W tym przypadku dane zawierają wystarczającą ilość informacji, aby oszacować unikalną wartość β, która najlepiej pasuje do danych, oraz model regresji, w którym zastosowanie do danych można postrzegać jako nadokreślony system w β.

W tym drugim przypadku analiza regresji dostarcza narzędzi pozwalających na:

  • Znalezienie rozwiązania dla nieznanych parametrów β, które np. zminimalizuje odległość pomiędzy zmierzoną i przewidywaną wartością Y.
  • Przy pewnych założeniach statystycznych analiza regresji wykorzystuje nadmiar informacji w celu dostarczenia informacji statystycznych o nieznanych parametrach β i przewidywanych wartościach zmiennej zależnej Y.

Wymagana liczba niezależnych pomiarów

Rozważmy model regresji, który ma trzy nieznane parametry: β 0 , β 1 i β 2 . Załóżmy, że eksperymentator dokonuje 10 pomiarów tej samej wartości wektora zmiennej niezależnej X. W tym przypadku analiza regresji nie daje jednoznacznego zestawu wartości. Najlepsze, co możesz zrobić, to oszacować średnią i odchylenie standardowe zmiennej zależnej Y. Podobnie, mierząc dwie różne wartości X, możesz uzyskać wystarczającą ilość danych do regresji z dwiema niewiadomymi, ale nie z trzema lub większą liczbą niewiadomych.

Jeżeli pomiary eksperymentatora zostały wykonane przy trzech różnych wartościach wektora zmiennej niezależnej X, to analiza regresji dostarczy unikalnego zestawu oszacowań dla trzech nieznanych parametrów w β.

W przypadku ogólnej regresji liniowej powyższe stwierdzenie jest równoznaczne z wymogiem, aby macierz X T X była odwracalna.

Założenia statystyczne

Gdy liczba pomiarów N jest większa od liczby nieznanych parametrów k i błędów pomiaru ε i, wówczas z reguły nadwyżka informacji zawarta w pomiarach jest następnie rozpowszechniana i wykorzystywana do predykcji statystycznych dotyczących nieznanych parametrów. Nadmiar informacji nazywany jest stopniem swobody regresji.

Podstawowe założenia

Klasyczne założenia analizy regresji obejmują:

  • Próbkowanie jest reprezentatywne dla przewidywania wnioskowania.
  • Człon błędu jest zmienną losową ze średnią zerową, która jest uzależniona od zmiennych objaśniających.
  • Zmienne niezależne mierzone są bez błędów.
  • Jako zmienne niezależne (predyktory) są one liniowo niezależne, to znaczy nie można wyrazić żadnego predyktora jako liniowej kombinacji pozostałych.
  • Błędy są nieskorelowane, to znaczy macierz kowariancji błędów przekątnych, a każdy niezerowy element jest wariancją błędu.
  • Wariancja błędu jest stała we wszystkich obserwacjach (homoscedastyczność). Jeśli nie, można zastosować ważoną metodę najmniejszych kwadratów lub inne metody.

Te warunki wystarczające do estymacji metodą najmniejszych kwadratów mają wymagane właściwości, w szczególności założenia te powodują, że estymacje parametrów będą obiektywne, spójne i efektywne, zwłaszcza gdy zostaną uwzględnione w klasie estymatorów liniowych. Należy zauważyć, że dowody rzadko spełniają określone warunki. Oznacza to, że metodę stosuje się nawet wtedy, gdy założenia nie są prawidłowe. Odchylenia od założeń można czasami wykorzystać jako miarę użyteczności modelu. Wiele z tych założeń można złagodzić, stosując bardziej zaawansowane metody. Raporty z analizy statystycznej zazwyczaj obejmują analizę testów na przykładowych danych i metodologii pod kątem przydatności modelu.

Dodatkowo zmienne w niektórych przypadkach odnoszą się do wartości zmierzonych w lokalizacjach punktowych. W zmiennych mogą występować trendy przestrzenne i autokorelacje przestrzenne, które naruszają założenia statystyczne. Regresja geograficzna ważona jest jedyną metodą, która pozwala na wykorzystanie takich danych.

Cechą regresji liniowej jest to, że zmienna zależna, czyli Yi, jest liniową kombinacją parametrów. Na przykład prosta regresja liniowa wykorzystuje jedną zmienną niezależną xi i dwa parametry β 0 i β 1 do modelowania n-punktów.

W wielokrotnej regresji liniowej istnieje wiele niezależnych zmiennych lub ich funkcji.

Kiedy z populacji pobierana jest losowa próba, jej parametry pozwalają na otrzymanie przykładowego modelu regresji liniowej.

W tym aspekcie najbardziej popularna jest metoda najmniejszych kwadratów. Służy do uzyskania estymatorów parametrów, które minimalizują sumę kwadratów reszt. Ten rodzaj minimalizacji (typowy dla regresji liniowej) tej funkcji prowadzi do układu równań normalnych i układu równań liniowych z parametrami, które rozwiązuje się w celu uzyskania estymatorów parametrów.

Przy dalszym założeniu, że błąd populacji jest ogólnie propagowany, badacz może wykorzystać te szacunki błędu standardowego do utworzenia przedziałów ufności i przeprowadzenia testów hipotez dotyczących jego parametrów.

Analiza regresji nieliniowej

Przykład, w którym funkcja nie jest liniowa względem parametrów, wskazuje, że sumę kwadratów należy minimalizować za pomocą procedury iteracyjnej. Wprowadza to wiele komplikacji, które definiują różnice pomiędzy liniowymi i nieliniowymi metodami najmniejszych kwadratów. W rezultacie wyniki analizy regresji przy zastosowaniu metody nieliniowej są czasami nieprzewidywalne.

Obliczanie mocy i wielkości próbki

Generalnie nie ma spójnych metod dotyczących liczby obserwacji w funkcji liczby zmiennych niezależnych w modelu. Pierwsza reguła została zaproponowana przez Dobra i Hardina i wygląda następująco: N = t^n, gdzie N to liczebność próby, n to liczba zmiennych niezależnych, a t to liczba obserwacji potrzebnych do osiągnięcia pożądanej dokładności, gdyby model miał tylko jedna zmienna niezależna. Na przykład badacz buduje model regresji liniowej, korzystając ze zbioru danych obejmującego 1000 pacjentów (N). Jeżeli badacz uzna, że ​​do dokładnego zdefiniowania prostej (m) potrzeba pięciu obserwacji, wówczas maksymalna liczba zmiennych niezależnych, które model może obsłużyć, wynosi 4.

Inne metody

Chociaż parametry modelu regresji są zwykle szacowane metodą najmniejszych kwadratów, istnieją inne metody, które są stosowane znacznie rzadziej. Są to na przykład następujące metody:

  • Metody bayesowskie (np. regresja liniowa bayesowska).
  • Regresja procentowa stosowana w sytuacjach, w których za bardziej odpowiednie uważa się zmniejszenie błędów procentowych.
  • Najmniejsze odchylenia bezwzględne, które są bardziej odporne w obecności wartości odstających, co prowadzi do regresji kwantylowej.
  • Regresja nieparametryczna, która wymaga dużej liczby obserwacji i obliczeń.
  • Metryka uczenia się na odległość, która uczy się znajdować znaczącą metrykę odległości w danej przestrzeni wejściowej.

Oprogramowanie

Wszystkie główne pakiety oprogramowania statystycznego wykonują analizę regresji metodą najmniejszych kwadratów. Prostą regresję liniową i analizę regresji wielokrotnej można stosować w niektórych aplikacjach arkuszy kalkulacyjnych, a także w niektórych kalkulatorach. Chociaż wiele pakietów oprogramowania statystycznego może wykonywać różne typy nieparametrycznej i solidnej regresji, metody te są mniej ujednolicone; różne pakiety oprogramowania wdrażają różne metody. Opracowano specjalistyczne oprogramowanie do regresji do stosowania w takich obszarach, jak analiza badań i neuroobrazowanie.

Analiza regresji jest jedną z najpopularniejszych metod badań statystycznych. Można go wykorzystać do ustalenia stopnia wpływu zmiennych niezależnych na zmienną zależną. Microsoft Excel posiada narzędzia przeznaczone do wykonywania tego typu analiz. Przyjrzyjmy się, czym są i jak z nich korzystać.

Aby jednak skorzystać z funkcji umożliwiającej wykonanie analizy regresji, należy najpierw aktywować Pakiet Analiz. Dopiero wtedy na wstążce Excela pojawią się narzędzia niezbędne do tej procedury.


Teraz kiedy przejdziemy do zakładki "Dane", na wstążce w przyborniku "Analiza" zobaczymy nowy przycisk - "Analiza danych".

Rodzaje analizy regresji

Istnieje kilka rodzajów regresji:

  • paraboliczny;
  • stateczny;
  • logarytmiczny;
  • wykładniczy;
  • wskazujący;
  • hiperboliczny;
  • regresja liniowa.

Bardziej szczegółowo o wykonaniu ostatniego rodzaju analizy regresji w Excelu porozmawiamy później.

Regresja liniowa w Excelu

Poniżej dla przykładu znajduje się tabela przedstawiająca średnią dobową temperaturę powietrza na zewnątrz oraz liczbę klientów sklepu w danym dniu roboczym. Przekonajmy się, korzystając z analizy regresji, jak dokładnie warunki pogodowe w postaci temperatury powietrza mogą wpływać na frekwencję w placówce handlowej.

Ogólne równanie regresji liniowej jest następujące: Y = a0 + a1x1 +…+ akhk. W tej formule Y oznacza zmienną, wpływ czynników, na podstawie których staramy się badać. W naszym przypadku jest to liczba kupujących. Oznaczający X to różne czynniki wpływające na zmienną. Opcje A są współczynnikami regresji. Oznacza to, że to oni określają znaczenie danego czynnika. Indeks k oznacza całkowitą liczbę tych samych czynników.


Analiza wyników analizy

Wyniki analizy regresji wyświetlane są w formie tabeli w miejscu określonym w ustawieniach.

Jednym z głównych wskaźników jest Plac R. Świadczy to o jakości modelu. W naszym przypadku współczynnik ten wynosi 0,705, czyli około 70,5%. Jest to akceptowalny poziom jakości. Zależność mniejsza niż 0,5 jest zła.

Kolejny ważny wskaźnik znajduje się w komórce na przecięciu linii „Przecięcie Y” i kolumna "Szanse". Wskazuje to, jaką wartość będzie miało Y, a w naszym przypadku jest to liczba kupujących, przy wszystkich pozostałych czynnikach równych zero. W tej tabeli wartość ta wynosi 58,04.

Wartość na przecięciu wykresu „Zmienna X1” I "Szanse" pokazuje poziom zależności Y od X. W naszym przypadku jest to poziom zależności liczby klientów sklepu od temperatury. Współczynnik 1,31 jest uważany za dość wysoki wskaźnik wpływu.

Jak widać, korzystając z programu Microsoft Excel, utworzenie tabeli analizy regresji jest dość łatwe. Ale tylko przeszkolona osoba może pracować z danymi wyjściowymi i zrozumieć ich istotę.

Najnowsze materiały w dziale:

Schematy elektryczne za darmo
Schematy elektryczne za darmo

Wyobraźcie sobie zapałkę, która po uderzeniu w pudełko zapala się, ale nie zapala. Co dobrego jest w takim meczu? Przyda się w teatralnych...

Jak wytworzyć wodór z wody Wytwarzanie wodoru z aluminium metodą elektrolizy
Jak wytworzyć wodór z wody Wytwarzanie wodoru z aluminium metodą elektrolizy

„Wodór jest wytwarzany tylko wtedy, gdy jest potrzebny, więc możesz wyprodukować tylko tyle, ile potrzebujesz” – wyjaśnił Woodall na uniwersytecie…

Sztuczna grawitacja w Sci-Fi W poszukiwaniu prawdy
Sztuczna grawitacja w Sci-Fi W poszukiwaniu prawdy

Problemy z układem przedsionkowym to nie jedyna konsekwencja długotrwałego narażenia na mikrograwitację. Astronauci, którzy spędzają...