L'analisi di regressione è un metodo statistico per studiare la dipendenza di una variabile casuale dalle variabili. Regressione in Excel: equazione, esempi

Lo scopo dell'analisi di regressione è misurare la relazione tra una variabile dipendente e una (analisi di regressione a coppie) o più variabili indipendenti (multiple). Le variabili indipendenti sono anche chiamate variabili fattoriali, esplicative, determinanti, regressori e predittive.

La variabile dipendente è talvolta chiamata variabile determinata, spiegata o “risposta”. L’uso estremamente diffuso dell’analisi di regressione nella ricerca empirica non è dovuto solo al fatto che si tratta di uno strumento utile per verificare le ipotesi. La regressione, in particolare la regressione multipla, è un metodo efficace per la modellazione e la previsione.

Iniziamo a spiegare i principi del lavoro con l'analisi di regressione con uno più semplice: il metodo della coppia.

Analisi di regressione accoppiata

I primi passi quando si utilizza l'analisi di regressione saranno quasi identici a quelli che abbiamo seguito per calcolare il coefficiente di correlazione. Le tre condizioni principali per l'efficacia dell'analisi di correlazione utilizzando il metodo Pearson - distribuzione normale delle variabili, misurazione dell'intervallo delle variabili, relazione lineare tra le variabili - sono rilevanti anche per la regressione multipla. Di conseguenza, nella prima fase vengono costruiti grafici a dispersione, viene effettuata un'analisi statistica e descrittiva delle variabili e viene calcolata una linea di regressione. Come nel quadro dell'analisi di correlazione, le linee di regressione vengono costruite utilizzando il metodo dei minimi quadrati.

Per illustrare più chiaramente le differenze tra i due metodi di analisi dei dati, rivolgiamoci all’esempio già discusso con le variabili “sostegno RPS” e “quota di popolazione rurale”. I dati di origine sono identici. La differenza nei grafici a dispersione sarà che nell'analisi di regressione è corretto tracciare la variabile dipendente - nel nostro caso, il "supporto SPS" sull'asse Y, mentre nell'analisi di correlazione ciò non ha importanza. Dopo aver pulito i valori anomali, il grafico a dispersione appare così:

L'idea fondamentale dell'analisi di regressione è che, avendo un andamento generale delle variabili – sotto forma di retta di regressione – è possibile prevedere il valore della variabile dipendente, dati i valori di quella indipendente.

Immaginiamo una normale funzione lineare matematica. Qualsiasi linea retta nello spazio euclideo può essere descritta dalla formula:

dove a è una costante che specifica lo spostamento lungo l'asse delle ordinate; b è un coefficiente che determina l'angolo di inclinazione della linea.

Conoscendo la pendenza e la costante, puoi calcolare (prevedere) il valore di y per qualsiasi x.

Questa funzione più semplice ha costituito la base del modello di analisi di regressione con l'avvertenza che non prediremo il valore di y esattamente, ma entro un certo intervallo di confidenza, cioè circa.

La costante è il punto di intersezione della linea di regressione e dell'asse y (intersezione F, solitamente denominata “intercettore” nei pacchetti statistici). Nel nostro esempio, votando per l'Unione delle Forze di Destra, il suo valore arrotondato sarà 10,55. Il coefficiente angolare b sarà di circa -0,1 (come nell'analisi di correlazione, il segno mostra il tipo di connessione: diretta o inversa). Pertanto, il modello risultante avrà la forma SP C = -0,1 x Sel. noi. +10,55.

Pertanto, nel caso della “Repubblica di Adighezia” con una quota di popolazione rurale del 47%, il valore previsto sarà 5,63:

ATP = -0,10 x 47 + 10,55 = 5,63.

La differenza tra il valore iniziale e quello previsto si chiama resto (abbiamo già incontrato questo termine, fondamentale per la statistica, analizzando le tabelle di contingenza). Quindi, per il caso della “Repubblica di Adighezia” il resto sarà pari a 3,92 - 5,63 = -1,71. Maggiore è il valore modulare del resto, minore sarà il successo del valore previsto.

Calcoliamo i valori previsti e i residui per tutti i casi:
Sta accadendo Seduto. noi. grazie

(originale)

grazie

(previsto)

Avanzi
Repubblica di Adighezia 47 3,92 5,63 -1,71 -
Repubblica dell'Altai 76 5,4 2,59 2,81
Repubblica del Baschiria 36 6,04 6,78 -0,74
La Repubblica di Buriazia 41 8,36 6,25 2,11
La Repubblica del Daghestan 59 1,22 4,37 -3,15
La Repubblica di Inguscezia 59 0,38 4,37 3,99
Eccetera.

L'analisi del rapporto tra i valori iniziali e quelli previsti serve a valutare la qualità del modello risultante e la sua capacità predittiva. Uno dei principali indicatori delle statistiche di regressione è il coefficiente di correlazione multipla R - il coefficiente di correlazione tra i valori originali e quelli previsti della variabile dipendente. Nell'analisi di regressione accoppiata, è uguale al consueto coefficiente di correlazione di Pearson tra le variabili dipendenti e indipendenti, nel nostro caso - 0,63. Per interpretare in modo significativo più R, è necessario convertirlo in un coefficiente di determinazione. Questo viene fatto allo stesso modo dell'analisi di correlazione: mediante quadratura. Il coefficiente di determinazione R-quadrato (R 2) mostra la proporzione di variazione nella variabile dipendente spiegata dalla/e variabile/i indipendente/i.

Nel nostro caso, R 2 = 0,39 (0,63 2); ciò significa che la variabile “quota di popolazione rurale” spiega circa il 40% della variazione della variabile “sostegno RPS”. Maggiore è il coefficiente di determinazione, maggiore è la qualità del modello.

Un altro indicatore della qualità del modello è l’errore standard di stima. Questa è una misura di quanto ampiamente i punti sono “sparsi” attorno alla linea di regressione. La misura dello spread per le variabili di intervallo è la deviazione standard. Di conseguenza, l'errore standard della stima è la deviazione standard della distribuzione dei residui. Più alto è il suo valore, maggiore è la dispersione e peggiore è il modello. Nel nostro caso, l’errore standard è 2.18. È di questo importo che il nostro modello “errerà in media” nel prevedere il valore della variabile “supporto SPS”.

Le statistiche di regressione includono anche l'analisi della varianza. Con il suo aiuto scopriamo: 1) quale proporzione della variazione (dispersione) della variabile dipendente è spiegata dalla variabile indipendente; 2) quale proporzione della varianza della variabile dipendente è rappresentata dai residui (parte non spiegata); 3) qual è il rapporto tra queste due quantità (rapporto /"). Le statistiche di dispersione sono particolarmente importanti per gli studi sui campioni: mostrano quanto è probabile che esista una relazione tra le variabili indipendenti e dipendenti nella popolazione. Tuttavia, per studi continui (come nel nostro esempio) i risultati dello studio dell'analisi della varianza non sono utili. In questo caso, controllano se il modello statistico identificato è causato da una combinazione di circostanze casuali, quanto è caratteristico per il complesso di condizioni in cui il si trova la popolazione esaminata, ad es. si stabilisce che il risultato ottenuto non è vero per un aggregato generale più ampio, ma per il grado della sua regolarità, libertà da influenze casuali.

Nel nostro caso, le statistiche ANOVA sono le seguenti:

SS df SM F Senso
Regredire. 258,77 1,00 258,77 54,29 0.000000001
Resto 395,59 83,00 L,11
Totale 654,36

Il rapporto F di 54,29 è significativo al livello 0,0000000001. Di conseguenza, possiamo rifiutare con sicurezza l’ipotesi nulla (che la relazione che abbiamo scoperto sia dovuta al caso).

Il criterio t svolge una funzione simile, ma in relazione ai coefficienti di regressione (angolare e intersezione F). Utilizzando il criterio /, testiamo l'ipotesi che nella popolazione generale i coefficienti di regressione siano pari a zero. Anche nel nostro caso possiamo rifiutare con sicurezza l’ipotesi nulla.

Analisi di regressione multipla

Il modello di regressione multipla è quasi identico al modello di regressione accoppiata; l'unica differenza è che diverse variabili indipendenti sono incluse in sequenza nella funzione lineare:

Y = b1X1 + b2X2 + …+ bpXp + a.

Se le variabili indipendenti sono più di due, non siamo in grado di avere un’idea visiva della loro relazione; a questo proposito, la regressione multipla è meno “visiva” della regressione a coppie. Quando si hanno due variabili indipendenti, può essere utile visualizzare i dati in un grafico a dispersione 3D. Nei pacchetti software statistici professionali (ad esempio Statistica) c'è un'opzione per ruotare un grafico tridimensionale, che consente di rappresentare visivamente bene la struttura dei dati.

Quando si lavora con la regressione multipla, invece che con la regressione a coppie, è necessario determinare l'algoritmo di analisi. L'algoritmo standard include tutti i predittori disponibili nel modello di regressione finale. L’algoritmo passo-passo prevede l’inclusione (esclusione) sequenziale di variabili indipendenti in base al loro “peso” esplicativo. Il metodo graduale è utile quando sono presenti molte variabili indipendenti; “ripulisce” il modello dai predittori francamente deboli, rendendolo più compatto e conciso.

Una condizione aggiuntiva per la correttezza della regressione multipla (insieme a intervallo, normalità e linearità) è l'assenza di multicollinearità, ovvero la presenza di forti correlazioni tra variabili indipendenti.

L'interpretazione delle statistiche di regressione multipla include tutti gli elementi che abbiamo considerato per il caso di regressione a coppie. Inoltre, ci sono altri componenti importanti nelle statistiche dell'analisi di regressione multipla.

Illustreremo il lavoro con regressione multipla utilizzando l’esempio del test di ipotesi che spiegano le differenze nel livello di attività elettorale nelle regioni russe. Studi empirici specifici hanno suggerito che i livelli di affluenza alle urne sono influenzati da:

Fattore nazionale (variabile “popolazione russa”; reso operativo come quota della popolazione russa nelle entità costituenti della Federazione Russa). Si presume che un aumento della quota della popolazione russa porti ad una diminuzione dell'affluenza alle urne;

Fattore di urbanizzazione (la variabile “popolazione urbana”; operativa come quota della popolazione urbana nelle entità costituenti della Federazione Russa; abbiamo già lavorato con questo fattore come parte dell’analisi di correlazione). Si presuppone che un aumento della quota della popolazione urbana porti anche ad una diminuzione dell’affluenza alle urne.

La variabile dipendente - "intensità dell'attività elettorale" ("attiva") è resa operativa attraverso i dati sull'affluenza media alle urne per regione alle elezioni federali dal 1995 al 2003. La tabella dei dati iniziale per due variabili indipendenti e una dipendente sarà la seguente:

Sta accadendo Variabili
Risorse. Gor. noi. Rus. noi.
Repubblica di Adighezia 64,92 53 68
Repubblica dell'Altai 68,60 24 60
La Repubblica di Buriazia 60,75 59 70
La Repubblica del Daghestan 79,92 41 9
La Repubblica di Inguscezia 75,05 41 23
Repubblica di Calmucchia 68,52 39 37
Repubblica di Karačaj-Circassia 66,68 44 42
Repubblica di Carelia 61,70 73 73
Repubblica dei Komi 59,60 74 57
Mari El Repubblica 65,19 62 47

Eccetera. (dopo aver eliminato le emissioni, rimangono 83 casi su 88)

Statistiche che descrivono la qualità del modello:

1. R multiplo = 0,62; L-quadrato = 0,38. Di conseguenza, il fattore nazionale e il fattore urbanizzazione spiegano insieme circa il 38% della variazione della variabile “attività elettorale”.

2. L'errore medio è 3,38. Questo è esattamente quanto “sbagliato in media” è il modello costruito quando si prevede il livello di affluenza alle urne.

3. Il rapporto /l tra variazione spiegata e inspiegata è 25,2 al livello 0,000000003. Si rifiuta l’ipotesi nulla circa la casualità delle relazioni individuate.

4. Il criterio / per la costante e i coefficienti di regressione delle variabili “popolazione urbana” e “popolazione russa” è significativo al livello di 0,0000001; 0,00005 e 0,007 rispettivamente. Si rifiuta l’ipotesi nulla che i coefficienti siano casuali.

Ulteriori statistiche utili per analizzare la relazione tra i valori originali e quelli previsti della variabile dipendente sono la distanza di Mahalanobis e la distanza di Cook. Il primo è una misura dell'unicità del caso (mostra quanto la combinazione dei valori di tutte le variabili indipendenti per un dato caso si discosta dal valore medio di tutte le variabili indipendenti contemporaneamente). Il secondo è una misura dell'influenza del caso. Osservazioni diverse hanno effetti diversi sulla pendenza della retta di regressione e la distanza di Cook può essere utilizzata per confrontarli su questo indicatore. Ciò può essere utile quando si eliminano i valori anomali (un valore anomalo può essere considerato un caso eccessivamente influente).

Nel nostro esempio, casi unici e influenti includono il Daghestan.

Sta accadendo Originale

valori

Predska

valori

Avanzi Distanza

Mahalanobis

Distanza
Adighezia 64,92 66,33 -1,40 0,69 0,00
Repubblica dell'Altai 68,60 69.91 -1,31 6,80 0,01
La Repubblica di Buriazia 60,75 65,56 -4,81 0,23 0,01
La Repubblica del Daghestan 79,92 71,01 8,91 10,57 0,44
La Repubblica di Inguscezia 75,05 70,21 4,84 6,73 0,08
Repubblica di Calmucchia 68,52 69,59 -1,07 4,20 0,00

Il modello di regressione stesso ha i seguenti parametri: intersezione Y (costante) = 75,99; b (orizzontale) = -0,1; Kommersant (nas russo) = -0,06. Formula finale:

Aattivo, = -0,1 x Or. us.n+- 0,06 x Rus. us.n + 75,99.

Possiamo confrontare il “potere esplicativo” dei predittori in base al valore del coefficiente 61. In questo caso sì, poiché entrambe le variabili indipendenti hanno lo stesso formato percentuale. Tuttavia, molto spesso la regressione multipla si occupa di variabili misurate su scale diverse (ad esempio, il livello di reddito in rubli e l’età in anni). Pertanto, nel caso generale, non è corretto confrontare le capacità predittive delle variabili utilizzando un coefficiente di regressione. Nelle statistiche di regressione multipla esiste a questo scopo uno speciale coefficiente beta (B), calcolato separatamente per ciascuna variabile indipendente. Rappresenta il coefficiente di correlazione parziale (calcolato dopo aver tenuto conto dell'influenza di tutti gli altri predittori) tra il fattore e la risposta e mostra il contributo indipendente del fattore alla previsione dei valori di risposta. Nell'analisi di regressione a coppie, il coefficiente beta è comprensibilmente uguale al coefficiente di correlazione a coppie tra la variabile dipendente e quella indipendente.

Nel nostro esempio, beta (popolazione delle Highlands) = -0,43, beta (popolazione russa) = -0,28. Pertanto, entrambi i fattori influiscono negativamente sul livello dell’attività elettorale, mentre l’importanza del fattore urbanizzazione è significativamente superiore all’importanza del fattore nazionale. L’influenza combinata di entrambi i fattori determina circa il 38% della variazione della variabile “attività elettorale” (vedi valore del quadrato L).

Analisi di regressione

Regressione (lineare) analisi- un metodo statistico per studiare l'influenza di una o più variabili indipendenti su una variabile dipendente. Le variabili indipendenti sono altrimenti chiamate regressori o predittori, mentre le variabili dipendenti sono chiamate variabili criterio. Terminologia dipendente E indipendente variabili riflette solo la dipendenza matematica delle variabili ( vedi Falsa correlazione), piuttosto che relazioni di causa-effetto.

Obiettivi dell'analisi di regressione

  1. Determinazione del grado di determinazione della variazione di una variabile criterio (dipendente) da parte di predittori (variabili indipendenti)
  2. Predire il valore di una variabile dipendente utilizzando la(e) variabile(i) indipendente(i)
  3. Determinazione del contributo delle singole variabili indipendenti alla variazione della variabile dipendente

L'analisi di regressione non può essere utilizzata per determinare se esiste una relazione tra le variabili, poiché la presenza di tale relazione è un prerequisito per l'applicazione dell'analisi.

Definizione matematica di regressione

Una relazione strettamente di regressione può essere definita come segue. Sia , variabili casuali con una data distribuzione di probabilità congiunta. Se per ogni insieme di valori viene definita un'aspettativa matematica condizionale

(equazione di regressione in forma generale),

quindi viene chiamata la funzione regressione valori di Y per valori e il suo grafico è retta di regressione da , o equazione di regressione.

La dipendenza da si manifesta nella variazione dei valori medi di Y con una variazione di . Sebbene, per ogni insieme fisso di valori, il valore rimanga una variabile casuale con una certa dispersione.

Per chiarire la questione su quanto accuratamente l'analisi di regressione stima la variazione di Y al variare , viene utilizzato il valore medio della dispersione di Y per diversi insiemi di valori (in effetti, stiamo parlando della misura della dispersione della variabile dipendente attorno alla retta di regressione).

Metodo dei minimi quadrati (calcolo dei coefficienti)

In pratica, la retta di regressione viene spesso ricercata sotto forma di una funzione lineare (regressione lineare), che si avvicina al meglio alla curva desiderata. Ciò viene fatto utilizzando il metodo dei minimi quadrati, quando la somma dei quadrati delle deviazioni di quelle effettivamente osservate dalle loro stime è ridotta al minimo (ovvero le stime utilizzano una linea retta che pretende di rappresentare la relazione di regressione desiderata):

(M - dimensione del campione). Questo approccio si basa sul noto fatto che l'importo riportato nell'espressione di cui sopra assume un valore minimo proprio nel caso in cui .

Per risolvere il problema dell'analisi di regressione utilizzando il metodo dei minimi quadrati, viene introdotto il concetto funzioni residue:

Condizione minima per la funzione residua:

Il sistema risultante è un sistema di equazioni lineari con incognite

Se rappresentiamo i termini liberi sul lato sinistro delle equazioni come una matrice

e i coefficienti per le incognite sul lato destro sono la matrice

quindi otteniamo l'equazione di matrice: , che è facilmente risolvibile con il metodo di Gauss. La matrice risultante sarà una matrice contenente i coefficienti dell'equazione della retta di regressione:

Per ottenere le migliori stime è necessario soddisfare le precondizioni dell’OLS (condizioni di Gauss-Markov). Nella letteratura inglese tali stime sono chiamate BLUE (Best Linear Unbiased Estimators).

Interpretazione dei parametri di regressione

I parametri sono coefficienti di correlazione parziale; viene interpretato come la proporzione della varianza di Y spiegata fissando l'influenza dei rimanenti predittori, cioè misura il contributo individuale alla spiegazione di Y. Nel caso di predittori correlati si pone il problema dell'incertezza nelle stime, che diventano dipendenti dall’ordine in cui i predittori sono inclusi nel modello. In questi casi, è necessario utilizzare metodi di analisi di correlazione e di regressione graduale.

Quando si parla di modelli non lineari di analisi di regressione, è importante prestare attenzione se si parla di non linearità nelle variabili indipendenti (da un punto di vista formale, facilmente riconducibile a regressione lineare), o di non linearità nei parametri stimati (causando gravi difficoltà computazionali). In caso di nonlinearità del primo tipo, da un punto di vista sostanziale, è importante evidenziare la comparsa nel modello di termini della forma , , indicanti la presenza di interazioni tra caratteristiche , ecc. (vedi Multicollinearità).

Guarda anche

Collegamenti

  • www.kgafk.ru - Conferenza sul tema “Analisi di regressione”
  • www.basegroup.ru - metodi per selezionare le variabili nei modelli di regressione

Letteratura

  • Norman Draper, Harry Smith Analisi di regressione applicata. Regressione multipla = Analisi di regressione applicata. - 3a ed. - M.: “Dialettica”, 2007. - P. 912. - ISBN 0-471-17082-8
  • Metodi robusti per la stima di modelli statistici: Monografia. - K.: PP "Sansparel", 2005. - P. 504. - ISBN 966-96574-0-7, UDC: 519.237.5:515.126.2, BBK 22.172+22.152
  • Radchenko Stanislav Grigorievich, Metodologia dell'analisi di regressione: Monografia. - K.: "Korniychuk", 2011. - P. 376. - ISBN 978-966-7599-72-0

Fondazione Wikimedia. 2010.

Come risultato dello studio del materiale nel capitolo 4, lo studente dovrebbe:

Sapere

  • concetti base dell'analisi di regressione;
  • metodi di stima e proprietà delle stime ai minimi quadrati;
  • regole di base per testare la significatività e la stima intervallare di equazioni e coefficienti di regressione;

essere in grado di

  • utilizzare dati campione per trovare stime dei parametri di modelli di equazioni di regressione bidimensionale e multipla e analizzare le loro proprietà;
  • verificare il significato dell'equazione e dei coefficienti di regressione;
  • trovare stime intervallari di parametri significativi;

Proprio

  • competenze nella stima statistica dei parametri di equazioni di regressione bivariata e multipla; capacità di verifica dell'adeguatezza dei modelli di regressione;
  • capacità di ottenere un'equazione di regressione con tutti i coefficienti significativi utilizzando software analitico.

Concetti basilari

Dopo aver condotto un'analisi di correlazione, una volta identificata la presenza di relazioni statisticamente significative tra le variabili e valutato il grado della loro vicinanza, si procede solitamente a una descrizione matematica del tipo di dipendenze utilizzando metodi di analisi di regressione. A questo scopo viene selezionata una classe di funzioni che mette in relazione l'indicatore effettivo A e argomenti„ calcolano le stime dei parametri dell'equazione di accoppiamento e analizzano l'accuratezza dell'equazione risultante.

Funzione|, che descrive la dipendenza del valore medio condizionale della caratteristica risultante A dall'argomento dato viene chiamato il valore equazione di regressione.

Il termine "regressione" (dal lat. regressione – ritiro, ritorno a qualcosa) fu introdotto dallo psicologo e antropologo inglese F. Galton ed è associato a uno dei suoi primi esempi, in cui Galton, elaborando dati statistici relativi alla questione dell'ereditarietà dell'altezza, scoprì che se l'altezza di padri si discosta dall'altezza media di tutti i padri X pollici, l'altezza dei loro figli si discosta dall'altezza media di tutti i figli di meno di X pollici. La tendenza identificata è stata chiamata regressione alla media.

Il termine "regressione" è ampiamente utilizzato nella letteratura statistica, sebbene in molti casi non caratterizzi accuratamente la relazione statistica.

Per descrivere accuratamente l'equazione di regressione, è necessario conoscere la legge di distribuzione condizionale dell'indicatore effettivo tu. Nella pratica statistica, solitamente non è possibile ottenere tali informazioni, quindi ci si limita alla ricerca di opportune approssimazioni per la funzione f(x tu X 2,...l*), sulla base di una preliminare analisi significativa del fenomeno o su primi dati statistici.

Nell'ambito delle ipotesi del modello individuale sul tipo di distribuzione del vettore degli indicatori<) может быть получен общий вид equazioni di regressione, Dove. Ad esempio, presupponendo che l'insieme di indicatori in studio obbedisca alla legge di distribuzione normale ()-dimensionale con un vettore di aspettative matematiche

Dove, e la matrice di covarianza,

dov'è la dispersione sì,

L'equazione di regressione (aspettativa matematica condizionale) ha la forma

Pertanto, se una variabile casuale multivariata ()

obbedisce alla legge della distribuzione normale ()-dimensionale, quindi all'equazione di regressione dell'indicatore effettivo A nelle variabili esplicative è lineare in X visualizzazione.

Tuttavia, nella pratica statistica di solito ci si deve limitare a trovare approssimazioni adeguate per la vera funzione di regressione sconosciuta f(x), poiché il ricercatore non ha una conoscenza esatta della legge di distribuzione della probabilità condizionata dell'indicatore di prestazione analizzato A per determinati valori di argomento X.

Diamo un'occhiata alla relazione tra le stime vere, quelle del modello e quelle della regressione. Consideriamo l'indicatore efficace A legati all'argomento X rapporto

dove è una variabile casuale che ha una legge di distribuzione normale, e e. La vera funzione di regressione in questo caso ha la forma

Supponiamo che la forma esatta della vera equazione di regressione ci sia sconosciuta, ma abbiamo nove osservazioni di una variabile casuale bidimensionale correlata dalle relazioni presentate in Fig. 4.1.

Riso. 4.1. La posizione relativa del verof(x) e teoricoopsmodelli di regressione

Posizione dei punti in Fig. 4.1 ci permette di limitarci alla classe delle dipendenze lineari della forma

Utilizzando il metodo dei minimi quadrati, troviamo la stima dell'equazione di regressione.

Per confronto, in Fig. 4.1 mostra i grafici della vera funzione di regressione e della funzione di regressione teorica approssimata. La stima dell'equazione di regressione converge a quest'ultima in probabilità ops con un aumento illimitato della dimensione del campione ().

Poiché abbiamo erroneamente scelto una funzione di regressione lineare invece di una vera funzione di regressione, che sfortunatamente è abbastanza comune nella pratica della ricerca statistica, le nostre conclusioni e stime statistiche non avranno la proprietà di coerenza, vale a dire Non importa come aumentiamo il numero di osservazioni, la nostra stima campionaria non convergerà alla vera funzione di regressione

Se avessimo scelto correttamente la classe di regressione, allora l'inesattezza nella descrizione dell'utilizzo ops sarebbe spiegato solo dal campione limitato e, pertanto, potrebbe essere ridotto quanto desiderato

Per ripristinare al meglio il valore condizionale dell'indicatore di prestazione e la funzione di regressione sconosciuta dai dati statistici iniziali, vengono spesso utilizzati quanto segue: criteri di adeguatezza funzioni di perdita.

1. Metodo dei minimi quadrati, secondo il quale è minimizzata la deviazione quadrata dei valori osservati dell'indicatore effettivo, dai valori del modello, dove i coefficienti dell'equazione di regressione; sono i valori del vettore degli argomenti nella "-M osservazione:

Il problema di trovare una stima del vettore è risolto. Viene chiamata la regressione risultante significa quadrato.

2. Metodo dei minimi moduli, secondo il quale la somma delle deviazioni assolute dei valori osservati dell'indicatore effettivo dai valori modulari è ridotta al minimo, vale a dire

Viene chiamata la regressione risultante significa assoluto(mediano).

3. Metodo Minimax si riduce a minimizzare il modulo massimo di deviazione del valore osservato dell’indicatore effettivo sì, dal valore del modello, cioè

Viene chiamata la regressione risultante minimax.

Nelle applicazioni pratiche, ci sono spesso problemi in cui viene studiata una variabile casuale sì, a seconda di un certo insieme di variabili e parametri sconosciuti. Considereremo () come (k+ Popolazione generale 1)-dimensionale da cui viene prelevato un campione casuale di P, dove () è il risultato dell'i-esima osservazione. È necessario stimare parametri sconosciuti in base ai risultati delle osservazioni. Il compito sopra descritto riguarda i problemi di analisi di regressione.

Analisi di regressione è chiamato un metodo di analisi statistica della dipendenza di una variabile casuale A sulle variabili considerate nell'analisi di regressione come valori non casuali, indipendentemente dalla vera legge di distribuzione

Nella modellazione statistica, l'analisi di regressione è uno studio utilizzato per valutare la relazione tra le variabili. Questo metodo matematico include molti altri metodi per modellare e analizzare più variabili in cui l'attenzione è focalizzata sulla relazione tra una variabile dipendente e una o più variabili indipendenti. Più specificamente, l'analisi di regressione ci aiuta a capire come cambia il valore tipico di una variabile dipendente se una delle variabili indipendenti cambia mentre le altre variabili indipendenti rimangono fisse.

In tutti i casi, la stima target è una funzione delle variabili indipendenti ed è chiamata funzione di regressione. Nell'analisi di regressione è interessante anche caratterizzare la variazione della variabile dipendente in funzione della regressione, che può essere descritta utilizzando una distribuzione di probabilità.

Problemi di analisi di regressione

Questo metodo di ricerca statistica è ampiamente utilizzato per le previsioni, dove il suo utilizzo presenta vantaggi significativi, ma a volte può portare a illusioni o false relazioni, per cui si consiglia di utilizzarlo con attenzione in tale materia, poiché, ad esempio, correlazione non significa causa.

È stato sviluppato un gran numero di metodi per l'analisi di regressione, come la regressione lineare e quella dei minimi quadrati ordinari, che sono parametrici. La loro essenza è che la funzione di regressione è definita in termini di un numero finito di parametri sconosciuti stimati dai dati. La regressione non parametrica consente alla sua funzione di risiedere all'interno di un insieme specifico di funzioni, che può essere infinitamente dimensionale.

In quanto metodo di ricerca statistica, l'analisi di regressione dipende in pratica dalla forma del processo di generazione dei dati e da come si collega all'approccio di regressione. Poiché la vera forma del processo di generazione dei dati è solitamente un numero sconosciuto, l'analisi di regressione dei dati spesso dipende in una certa misura da ipotesi sul processo. Queste ipotesi sono talvolta verificabili se sono disponibili dati sufficienti. I modelli di regressione sono spesso utili anche quando le ipotesi vengono moderatamente violate, sebbene potrebbero non funzionare al massimo dell’efficienza.

In un senso più stretto, la regressione può riferirsi specificamente alla stima delle variabili di risposta continue, in contrapposizione alle variabili di risposta discrete utilizzate nella classificazione. Il caso della variabile di output continua è anche chiamato regressione metrica per distinguerlo dai problemi correlati.

Storia

La prima forma di regressione è il noto metodo dei minimi quadrati. Fu pubblicato da Legendre nel 1805 e Gauss nel 1809. Legendre e Gauss applicarono il metodo al problema di determinare dalle osservazioni astronomiche le orbite dei corpi attorno al Sole (principalmente comete, ma in seguito anche pianeti minori recentemente scoperti). Gauss pubblicò un ulteriore sviluppo della teoria dei minimi quadrati nel 1821, inclusa una versione del teorema di Gauss-Markov.

Il termine "regressione" fu coniato da Francis Galton nel XIX secolo per descrivere un fenomeno biologico. L'idea era che l'altezza dei discendenti da quella dei loro antenati tende a regredire verso il basso verso la media normale. Per Galton la regressione aveva solo questo significato biologico, ma in seguito il suo lavoro fu continuato da Udney Yoley e Karl Pearson e inserito in un contesto statistico più generale. Nel lavoro di Yule e Pearson, si assume che la distribuzione congiunta delle variabili di risposta e esplicative sia gaussiana. Questa ipotesi fu respinta da Fischer nei documenti del 1922 e del 1925. Fisher ha suggerito che la distribuzione condizionale della variabile di risposta è gaussiana, ma non è necessario che lo sia la distribuzione congiunta. A questo proposito la proposta di Fischer è più vicina alla formulazione di Gauss del 1821. Prima del 1970, a volte erano necessarie fino a 24 ore per ottenere il risultato di un’analisi di regressione.

I metodi di analisi di regressione continuano ad essere un’area di ricerca attiva. Negli ultimi decenni sono stati sviluppati nuovi metodi per una regressione robusta; regressioni che coinvolgono risposte correlate; metodi di regressione che accettano diversi tipi di dati mancanti; regressione non parametrica; Metodi di regressione bayesiana; regressioni in cui le variabili predittive vengono misurate con errore; regressione con più predittori che osservazioni e inferenza di causa-effetto con regressione.

Modelli di regressione

I modelli di analisi di regressione includono le seguenti variabili:

  • Parametri sconosciuti, designati beta, che possono essere uno scalare o un vettore.
  • Variabili indipendenti, X.
  • Variabili dipendenti, Y.

Diversi campi della scienza in cui viene utilizzata l'analisi di regressione utilizzano termini diversi al posto delle variabili dipendenti e indipendenti, ma in tutti i casi il modello di regressione mette in relazione Y con una funzione di X e β.

L'approssimazione è solitamente scritta come E(Y | X) = F(X, β). Per effettuare l'analisi di regressione è necessario determinare il tipo di funzione f. Meno comunemente, si basa sulla conoscenza della relazione tra Y e X, che non si basa sui dati. Se tale conoscenza non è disponibile, viene scelta la forma flessibile o conveniente F.

Variabile dipendente Y

Supponiamo ora che il vettore dei parametri incogniti β abbia lunghezza k. Per eseguire l'analisi di regressione, l'utente deve fornire informazioni sulla variabile dipendente Y:

  • Se si osservano N punti dati della forma (Y, X), dove N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Se si osservano esattamente N = K e la funzione F è lineare, allora l'equazione Y = F(X, β) può essere risolta esattamente anziché approssimativamente. Ciò equivale a risolvere un insieme di N-equazioni con N-incognite (elementi β) che ha un'unica soluzione purché X sia linearmente indipendente. Se F non è lineare, potrebbe non esserci soluzione oppure potrebbero esistere molte soluzioni.
  • La situazione più comune è quella in cui si osservano N > punti dati. In questo caso, ci sono informazioni sufficienti nei dati per stimare un valore univoco per β che meglio si adatta ai dati e un modello di regressione in cui l'applicazione ai dati può essere vista come un sistema sovradeterminato in β.

In quest’ultimo caso, l’analisi di regressione fornisce strumenti per:

  • Trovare una soluzione per i parametri sconosciuti β, che, ad esempio, minimizzerà la distanza tra il valore misurato e quello previsto di Y.
  • Sotto determinati presupposti statistici, l'analisi di regressione utilizza informazioni in eccesso per fornire informazioni statistiche sui parametri sconosciuti β e sui valori previsti della variabile dipendente Y.

Numero richiesto di misurazioni indipendenti

Considera un modello di regressione che ha tre parametri sconosciuti: β 0 , β 1 e β 2 . Supponiamo che lo sperimentatore effettui 10 misurazioni sullo stesso valore del vettore variabile indipendente X. In questo caso, l'analisi di regressione non produce un insieme unico di valori. La cosa migliore che puoi fare è stimare la media e la deviazione standard della variabile dipendente Y. Allo stesso modo, misurando due diversi valori di X, puoi ottenere dati sufficienti per la regressione con due incognite, ma non con tre o più incognite.

Se le misurazioni dello sperimentatore sono state effettuate a tre diversi valori del vettore variabile indipendente X, l'analisi di regressione fornirà un insieme unico di stime per i tre parametri sconosciuti in β.

Nel caso della regressione lineare generale, l'affermazione precedente equivale al requisito che la matrice X T X sia invertibile.

Ipotesi statistiche

Quando il numero di misurazioni N è maggiore del numero di parametri sconosciuti k e degli errori di misurazione ε i , allora, di regola, l'informazione in eccesso contenuta nelle misurazioni viene poi diffusa e utilizzata per previsioni statistiche riguardanti i parametri sconosciuti. Questo eccesso di informazione è chiamato grado di libertà di regressione.

Presupposti fondamentali

Le ipotesi classiche per l'analisi di regressione includono:

  • Il campionamento è rappresentativo della previsione dell'inferenza.
  • Il termine di errore è una variabile casuale con media pari a zero, che è condizionata alle variabili esplicative.
  • Le variabili indipendenti vengono misurate senza errori.
  • In quanto variabili indipendenti (predittori), sono linearmente indipendenti, ovvero non è possibile esprimere alcun predittore come combinazione lineare degli altri.
  • Gli errori non sono correlati, ovvero la matrice di covarianza degli errori delle diagonali e ogni elemento diverso da zero rappresenta la varianza dell'errore.
  • La varianza dell'errore è costante tra le osservazioni (omoschedasticità). In caso contrario, è possibile utilizzare i minimi quadrati ponderati o altri metodi.

Queste condizioni sufficienti per la stima dei minimi quadrati hanno le proprietà richieste, in particolare queste ipotesi significano che le stime dei parametri saranno oggettive, coerenti ed efficienti, soprattutto se prese in considerazione nella classe degli stimatori lineari. È importante notare che le prove raramente soddisfano le condizioni. Cioè, il metodo viene utilizzato anche se le ipotesi non sono corrette. La variazione rispetto alle ipotesi a volte può essere utilizzata come misura dell'utilità del modello. Molti di questi presupposti possono essere allentati con metodi più avanzati. I rapporti di analisi statistica in genere includono l'analisi dei test sui dati campione e la metodologia per l'utilità del modello.

Inoltre, in alcuni casi le variabili si riferiscono a valori misurati in punti. Potrebbero esserci tendenze spaziali e autocorrelazioni spaziali nelle variabili che violano i presupposti statistici. La regressione geografica ponderata è l'unico metodo che tratta tali dati.

Una caratteristica della regressione lineare è che la variabile dipendente, ovvero Yi, è una combinazione lineare di parametri. Ad esempio, la regressione lineare semplice utilizza una variabile indipendente, x i , e due parametri, β 0 e β 1 , per modellare n punti.

Nella regressione lineare multipla, esistono più variabili indipendenti o funzioni di esse.

Quando si preleva un campione casuale da una popolazione, i suoi parametri consentono di ottenere un modello di regressione lineare campionaria.

Sotto questo aspetto, il più popolare è il metodo dei minimi quadrati. Viene utilizzato per ottenere stime dei parametri che minimizzano la somma dei quadrati dei residui. Questo tipo di minimizzazione (tipico della regressione lineare) di questa funzione porta ad un insieme di equazioni normali e ad un insieme di equazioni lineari con parametri, che vengono risolti per ottenere stime dei parametri.

Partendo dall'ulteriore presupposto che l'errore della popolazione sia generalmente propagato, un ricercatore può utilizzare queste stime dell'errore standard per creare intervalli di confidenza e condurre test di ipotesi sui suoi parametri.

Analisi di regressione non lineare

Un esempio in cui la funzione non è lineare rispetto ai parametri indica che la somma dei quadrati dovrebbe essere minimizzata utilizzando una procedura iterativa. Ciò introduce molte complicazioni che definiscono le differenze tra i metodi dei minimi quadrati lineari e non lineari. Di conseguenza, i risultati dell'analisi di regressione quando si utilizza un metodo non lineare sono talvolta imprevedibili.

Calcolo della potenza e dimensione del campione

Generalmente non esistono metodi coerenti per quanto riguarda il numero di osservazioni rispetto al numero di variabili indipendenti nel modello. La prima regola è stata proposta da Dobra e Hardin e assomiglia a N = t^n, dove N è la dimensione del campione, n è il numero di variabili indipendenti e t è il numero di osservazioni necessarie per ottenere la precisione desiderata se il modello avesse una sola variabile indipendente. Ad esempio, un ricercatore crea un modello di regressione lineare utilizzando un set di dati che contiene 1000 pazienti (N). Se il ricercatore decide che sono necessarie cinque osservazioni per definire accuratamente la linea (m), allora il numero massimo di variabili indipendenti che il modello può supportare è 4.

Altri metodi

Sebbene i parametri del modello di regressione vengano generalmente stimati utilizzando il metodo dei minimi quadrati, esistono altri metodi utilizzati molto meno frequentemente. Ad esempio, questi sono i seguenti metodi:

  • Metodi bayesiani (ad esempio, regressione lineare bayesiana).
  • Regressione percentuale, utilizzata per situazioni in cui la riduzione degli errori percentuali è considerata più appropriata.
  • Deviazioni assolute più piccole, che sono più robuste in presenza di valori anomali che portano alla regressione quantile.
  • Regressione non parametrica, che richiede un gran numero di osservazioni e calcoli.
  • Una metrica di apprendimento a distanza appresa per trovare una metrica di distanza significativa in un dato spazio di input.

Software

Tutti i principali pacchetti software statistici eseguono analisi di regressione dei minimi quadrati. La regressione lineare semplice e l'analisi di regressione multipla possono essere utilizzate in alcune applicazioni per fogli di calcolo e in alcune calcolatrici. Sebbene molti pacchetti software statistici possano eseguire vari tipi di regressione non parametrica e robusta, questi metodi sono meno standardizzati; diversi pacchetti software implementano metodi diversi. È stato sviluppato un software di regressione specializzato da utilizzare in aree quali l'analisi degli esami e il neuroimaging.

L’analisi di regressione è uno dei metodi più diffusi di ricerca statistica. Può essere utilizzato per stabilire il grado di influenza delle variabili indipendenti sulla variabile dipendente. Microsoft Excel dispone di strumenti progettati per eseguire questo tipo di analisi. Vediamo cosa sono e come utilizzarli.

Ma, per poter utilizzare la funzione che consente di eseguire l'analisi di regressione, è necessario prima attivare il Pacchetto Analisi. Solo allora gli strumenti necessari per questa procedura appariranno sulla barra multifunzione di Excel.


Ora quando andiamo alla scheda "Dati", sulla barra multifunzione nella casella degli strumenti "Analisi" vedremo un nuovo pulsante - "Analisi dei dati".

Tipi di analisi di regressione

Esistono diversi tipi di regressioni:

  • parabolico;
  • calmare;
  • logaritmico;
  • esponenziale;
  • dimostrativo;
  • iperbolico;
  • regressione lineare.

Parleremo più dettagliatamente dell'esecuzione dell'ultimo tipo di analisi di regressione in Excel in seguito.

Regressione lineare in Excel

Di seguito, a titolo di esempio, è riportata una tabella che mostra la temperatura media giornaliera dell'aria esterna e il numero di clienti del negozio per il giorno lavorativo corrispondente. Utilizzando l'analisi di regressione, scopriamo esattamente in che modo le condizioni meteorologiche sotto forma di temperatura dell'aria possono influenzare la frequentazione di un punto vendita.

L'equazione generale della regressione lineare è la seguente: Y = a0 + a1x1 +…+ akhk. In questa formula Y significa una variabile, l'influenza dei fattori su cui si cerca di studiare. Nel nostro caso, questo è il numero di acquirenti. Senso X sono i vari fattori che influenzano una variabile. Opzioni UN sono coefficienti di regressione. Cioè, sono loro che determinano il significato di un particolare fattore. Indice K denota il numero totale di questi stessi fattori.


Analisi dei risultati dell'analisi

I risultati dell'analisi di regressione vengono visualizzati sotto forma di tabella nella posizione specificata nelle impostazioni.

Uno degli indicatori principali è R-quadrato. Indica la qualità del modello. Nel nostro caso, questo coefficiente è 0,705 ovvero circa il 70,5%. Questo è un livello di qualità accettabile. Una dipendenza inferiore a 0,5 è negativa.

Un altro indicatore importante si trova nella cella all'intersezione della linea "Intersezione a Y" e colonna "Probabilità". Ciò indica quale valore avrà Y e, nel nostro caso, questo è il numero di acquirenti, con tutti gli altri fattori pari a zero. In questa tabella, questo valore è 58,04.

Valore all'intersezione del grafico "Variabile X1" E "Probabilità" mostra il livello di dipendenza di Y da X. Nel nostro caso, questo è il livello di dipendenza del numero di clienti del negozio dalla temperatura. Un coefficiente di 1,31 è considerato un indicatore di influenza abbastanza elevato.

Come puoi vedere, utilizzando Microsoft Excel è abbastanza semplice creare una tabella di analisi di regressione. Ma solo una persona addestrata può lavorare con i dati di output e comprenderne l'essenza.

Ultimi materiali nella sezione:

Schemi elettrici gratuiti
Schemi elettrici gratuiti

Immagina un fiammifero che, dopo essere stato acceso su una scatola, si accende, ma non si accende. A cosa serve un incontro del genere? Sarà utile in ambito teatrale...

Come produrre idrogeno dall'acqua Produrre idrogeno dall'alluminio mediante elettrolisi
Come produrre idrogeno dall'acqua Produrre idrogeno dall'alluminio mediante elettrolisi

"L'idrogeno viene generato solo quando necessario, quindi puoi produrne solo quanto ti serve", ha spiegato Woodall all'università...

La gravità artificiale nella fantascienza Alla ricerca della verità
La gravità artificiale nella fantascienza Alla ricerca della verità

I problemi al sistema vestibolare non sono l'unica conseguenza dell'esposizione prolungata alla microgravità. Gli astronauti che spendono...