Asimmetria e curtosi della distribuzione di una variabile casuale. Calcolo dell'asimmetria e della curtosi di una distribuzione empirica in Excel Coefficiente di curtosi di una distribuzione normale

Coefficiente di asimmetria mostra la “asimmetria” della serie di distribuzione rispetto al centro:

dove è il momento centrale del terzo ordine;

– cubo della deviazione standard.

Per questo metodo di calcolo: se , la distribuzione è a destra (asimmetria positiva), se , la distribuzione è a sinistra (asimmetria negativa)

Oltre al momento centrale, l'asimmetria può essere calcolata utilizzando la moda o la mediana:

o , (6.69)

Per questo metodo di calcolo: se , la distribuzione è a destra (asimmetria positiva), se , la distribuzione è a sinistra (asimmetria negativa) (Fig. 4).


Riso. 4. Distribuzioni asimmetriche

Viene chiamato il valore che mostra la “ripidità” della distribuzione coefficiente di curtosi:

Se , nella distribuzione c'è acutezza – la curtosi è positiva se , si osserva nella distribuzione planarità – la curtosi è negativa (Fig. 5).

Riso. 5. Eccessi distributivi

Esempio 5. Sono disponibili dati sul numero di pecore nelle aziende agricole della regione (Tabella 9).

1. Numero medio di pecore per azienda.

3. Mediana.

4. Indicatori di variazione

· dispersione;

· deviazione standard;

· il coefficiente di variazione.

5. Indicatori di asimmetria e curtosi.

Soluzione.

1. Poiché il valore delle opzioni nell'aggregato si ripete più volte, con una certa frequenza per calcolare il valore medio utilizziamo la formula della media aritmetica ponderata:

2. Questa serie è discreta, quindi la modalità sarà l'opzione con la frequenza più alta - .

3. Questa serie è pari, in questo caso la mediana per una serie discreta si trova utilizzando la formula:

Cioè, la metà delle aziende agricole incluse nello studio possiede fino a 4,75 mila capi di pecora. e la metà sono al di sopra di questo numero.

4. Per calcolare gli indicatori di variazione redigeremo la tabella 10, nella quale calcoleremo gli scostamenti, i quadrati di questi scostamenti, il calcolo può essere effettuato utilizzando sia formule di calcolo semplici che ponderate (nell'esempio utilizziamo un semplice uno):

Tabella 10

2,00 -2,42 5,84
2,50 -1,92 3,67
2,50 -1,92 3,67
3,00 -1,42 2,01
3,00 -1,42 2,01
4,00 -0,42 0,17
5,50 1,08 1,17
5,50 1,08 1,17
5,50 1,08 1,17
6,00 1,58 2,51
6,50 2,08 4,34
7,00 2,58 6,67
Totale 53,00 0,00 34,42
Media 4,4167

Calcoliamo la varianza:

Calcoliamo la deviazione standard:

Calcoliamo il coefficiente di variazione:

5. Per calcolare gli indicatori di asimmetria e curtosi, costruiremo la tabella 11, in cui calcoleremo , ,

Tabella 11

2,00 -2,42 -14,11 34,11
2,50 -1,92 -7,04 13,50
2,50 -1,92 -7,04 13,50
3,00 -1,42 -2,84 4,03
3,00 -1,42 -2,84 4,03
4,00 -0,42 -0,07 0,03
5,50 1,08 1,27 1,38
5,50 1,08 1,27 1,38
5,50 1,08 1,27 1,38
6,00 1,58 3,97 6,28
6,50 2,08 9,04 18,84
7,00 2,58 17,24 44,53
Totale 53,00 0,00 0,11 142,98
Media 4,4167

L’asimmetria della distribuzione è:

Cioè, si osserva l'asimmetria del lato sinistro, da , che è confermato quando calcolato utilizzando la formula:

In questo caso, che per questa formula indica anche l'asimmetria del lato sinistro

La curtosi della distribuzione è pari a:

Nel nostro caso la curtosi è negativa, cioè si osserva planarità.

Esempio 6. I dati sulle retribuzioni dei lavoratori sono presentati per la famiglia (Tabella 12)

Soluzione.

Per una serie di variazioni di intervallo, la moda viene calcolata utilizzando la formula:

Dove intervallo modale – intervallo con la frequenza più alta, nel nostro caso 3600-3800, con frequenza

Limite intervallo modale minimo (3600);

Valore dell'intervallo modale (200);

Frequenza dell'intervallo che precede l'intervallo modale (25);

Frequenza dopo l'intervallo modale (29);

Frequenza dell'intervallo modale (68).

Tabella 12

Per una serie di variazioni di intervallo, la mediana viene calcolata utilizzando la formula:

Dove intervallo mediano questo è un intervallo la cui frequenza cumulativa (accumulata) è uguale o maggiore della metà della somma delle frequenze, nel nostro esempio è 3600-3800.

Limite minimo dell'intervallo mediano (3600);

Valore dell'intervallo mediano (200);

Somma delle frequenze della serie (154);

Somma delle frequenze accumulate, tutti gli intervalli precedenti la mediana (57);

– frequenza dell'intervallo mediano (68).

Esempio 7. Per tre aziende agricole in un distretto, ci sono informazioni sull’intensità di capitale della produzione (l’importo dei costi di capitale fisso per 1 rublo di prodotti fabbricati): I – 1,29 rubli, II – 1,32 rubli, III – 1,27 rubli. È necessario calcolare l'intensità media del capitale.

Soluzione. Poiché l’intensità del capitale è l’indicatore inverso della rotazione del capitale, utilizziamo la formula semplice della media armonica.

Esempio 8. Per tre aziende agricole in un distretto, sono disponibili dati sul raccolto lordo di cereali e sulla resa media (Tabella 13).

Soluzione. Calcolare la resa media utilizzando la media aritmetica è impossibile, poiché non esistono informazioni sul numero di superfici seminate, quindi utilizziamo la formula della media armonica ponderata:

Esempio 9. Sono disponibili dati sulla resa media delle patate nelle singole aree e sul numero di rincalzi (Tabella 14)

Tabella 14

Raggruppiamo i dati (Tabella 15):

Tabella 15

Raggruppamento delle aree in base al numero di diserbo

1. Calcolare la varianza totale del campione (Tabella 16).

Quando si analizzano le serie di variazioni, lo spostamento dal centro e la pendenza della distribuzione sono caratterizzati da indicatori speciali. Le distribuzioni empiriche, di regola, vengono spostate dal centro della distribuzione a destra o a sinistra e sono asimmetriche. La distribuzione normale è strettamente simmetrica rispetto alla media aritmetica, dovuta alla parità della funzione.

Asimmetria della distribuzione sorge a causa del fatto che alcuni fattori agiscono più fortemente in una direzione che in un'altra, o il processo di sviluppo del fenomeno è tale che alcune cause dominano. Inoltre, la natura di alcuni fenomeni è tale che esiste una distribuzione asimmetrica.

La misura più semplice di asimmetria è la differenza tra media aritmetica, moda e mediana:

Per determinare la direzione e l'entità dello spostamento (asimmetria) della distribuzione, viene calcolato coefficiente di asimmetria , che è un momento normalizzato del terzo ordine:

As= 3 / 3, dove  3 è il momento centrale del terzo ordine;  3 – deviazione standard al cubo. 3 = (m 3 – 3m 1 m 2 + 2m 1 3)k 3 .

Per l'asimmetria del lato sinistro coefficiente di asimmetria (COME<0), при правосторонней (As>0) .

Se la parte superiore della distribuzione viene spostata a sinistra e la parte destra del ramo risulta essere più lunga di quella sinistra, tale asimmetria è lato destro, Altrimenti Mancino .

La relazione tra moda, mediana e media aritmetica nelle serie simmetriche e asimmetriche ci consente di utilizzare un indicatore più semplice come misura di asimmetria coefficiente di asimmetria Pearson :

K a = ( –Mo)/. Se K a >0, allora l'asimmetria è destrorsa, se K a<0, то асимметрия левосторонняя, при К a =0 ряд считается симметричным.

L'asimmetria può essere determinata in modo più accurato utilizzando il momento centrale del terzo ordine:

, dove 3 = (m 3 – 3m 1 m 2 + 2m 1 3)k 3 .

Se > 0, allora l'asimmetria può essere considerata significativa se < 0,25 асимметрию можно считать не значительной.

Per caratterizzare il grado di deviazione di una distribuzione simmetrica da una distribuzione normale lungo l'ordinata, un indicatore di picco, la pendenza della distribuzione, chiamato eccesso :

Ex = ( 4 / 4) – 3, dove:  4 – momento centrale del quarto ordine.

Per una distribuzione normale, Ex = 0, cioè  4 / 4 = 3.  4 = (m 4 – 4m 3 m 1 + 6m 2 m 2 1 – 3 m 4 1)* k 4 .

Le curve con picco elevato hanno una curtosi positiva, mentre le curve con picco basso hanno una curtosi negativa (Fig. D.2).

Gli indicatori di curtosi e asimmetria sono necessari nell'analisi statistica per determinare l'eterogeneità della popolazione, l'asimmetria della distribuzione e la vicinanza della distribuzione empirica alla legge normale. Con deviazioni significative degli indicatori di asimmetria e curtosi da zero, la popolazione non può essere considerata omogenea e la distribuzione vicina alla normale. Il confronto delle curve reali con quelle teoriche consente di comprovare matematicamente i risultati statistici ottenuti, stabilire il tipo e la natura della distribuzione dei fenomeni socioeconomici e prevedere la probabilità del verificarsi degli eventi studiati.

4.7. Giustificazione della vicinanza della distribuzione empirica (effettiva) alla distribuzione normale teorica. Distribuzione normale (legge di Gauss-Laplace) e sue caratteristiche. "La regola dei tre Sigma." Criteri di bontà di adattamento (utilizzando l'esempio del criterio di Pearson o Kolgomogorov).

Puoi notare una certa connessione nel cambiamento delle frequenze e dei valori delle caratteristiche variabili. All'aumentare del valore dell'attributo le frequenze prima aumentano e poi, raggiunto un certo valore massimo, diminuiscono. Vengono chiamati tali cambiamenti regolari nelle frequenze nelle serie di variazioni modelli di distribuzione.

Per individuare un modello di distribuzione è necessario che le serie di variazione contengano un numero sufficientemente ampio di unità, e che le serie stesse rappresentino popolazioni qualitativamente omogenee.

Un poligono di distribuzione costruito sulla base di dati reali lo è curva di distribuzione empirica (effettiva)., riflettendo non solo condizioni di distribuzione oggettive (generali), ma anche soggettive (casuali) che non sono caratteristiche del fenomeno studiato.

Nel lavoro pratico, la legge di distribuzione si trova confrontando la distribuzione empirica con una di quelle teoriche e valutando il grado di differenza o corrispondenza tra di loro. Curva di distribuzione teorica riflette nella sua forma pura, senza tener conto dell'influenza di fattori casuali, il modello generale di distribuzione della frequenza (densità di distribuzione) a seconda dei valori delle diverse caratteristiche.

Vari tipi di distribuzioni teoriche sono comuni nella statistica: normale, binomiale, Poisson, ecc. Ciascuna delle distribuzioni teoriche ha le sue specificità e la sua portata.

Legge della distribuzione normale caratteristica della distribuzione di eventi ugualmente probabili che si verificano durante l'interazione di molti fattori casuali. La legge della distribuzione normale è alla base dei metodi statistici per stimare i parametri di distribuzione, la rappresentatività delle osservazioni del campione e misurare la relazione dei fenomeni di massa. Per verificare quanto la distribuzione effettiva corrisponde a quella normale, è necessario confrontare le frequenze della distribuzione effettiva con le frequenze teoriche caratteristiche della legge di distribuzione normale. Queste frequenze sono una funzione di deviazioni normalizzate. Pertanto, sulla base dei dati delle serie di distribuzione empirica, vengono calcolate le deviazioni normalizzate t. Quindi vengono determinate le frequenze teoriche corrispondenti. Ciò appiattisce la distribuzione empirica.

Distribuzione normale oppure la legge di Gauss-Laplace è descritta dall'equazione
, dove y t è l'ordinata della curva della distribuzione normale, ovvero la frequenza (probabilità) del valore x della distribuzione normale; – aspettativa matematica (valore medio) dei singoli valori x. Se i valori (x – ) misura (esprime) in termini di deviazione standard , cioè in deviazioni standardizzate (normalizzate) t = (x – )/, allora la formula assumerà la forma:
. La distribuzione normale dei fenomeni socioeconomici nella sua forma pura è rara, tuttavia, se viene mantenuta l'omogeneità della popolazione, le distribuzioni effettive sono spesso vicine alla normale. Lo schema di distribuzione delle quantità studiate viene rivelato verificando la conformità della distribuzione empirica con la legge teorica della distribuzione normale. Per fare ciò, la distribuzione effettiva viene allineata con la curva normale e calcolata criteri di consenso .

La distribuzione normale è caratterizzata da due parametri significativi che determinano il centro di raggruppamento dei singoli valori e la forma della curva: la media aritmetica e deviazione standard . Le curve di distribuzione normale differiscono nella posizione del centro di distribuzione sull'asse x e l'opzione di dispersione attorno a questo centro  (Fig. 4.1 e 4.2). Una caratteristica della curva di distribuzione normale è la sua simmetria rispetto al centro della distribuzione: su entrambi i lati del suo centro si formano due rami uniformemente decrescenti, che si avvicinano asintoticamente all'asse delle ascisse. Pertanto, in una distribuzione normale, media, moda e mediana coincidono: = Mo = Io.

  X

La curva di distribuzione normale ha due punti di flesso (transizione da convessità a concavità) in t = 1, cioè quando le opzioni si discostano dalla media (x – ), pari alla deviazione standard . Entro  con una distribuzione normale è 68,3%, all'interno 2 – 95,4%, entro 3 – 99,7% del numero di osservazioni o frequenze della serie di distribuzione. In pratica, non ci sono quasi deviazioni superiori a 3pertanto, la relazione data è chiamata “ regola dei tre sigma ».

Per calcolare le frequenze teoriche si utilizza la formula:

.

Grandezza
è una funzione di t o della densità della distribuzione normale, che è determinata da una tabella speciale, i cui estratti sono riportati nella tabella. 4.2.

Valori di densità di distribuzione normale Tabella 4.2

Grafico in fig. 4.3 dimostra chiaramente la vicinanza delle distribuzioni empirica (2) e normale (1).

Riso. 4.3. Distribuzione degli sportelli postali per numero

lavoratori: 1 – normale; 2 – empirico

Per dimostrare matematicamente la vicinanza della distribuzione empirica alla legge della distribuzione normale, calcolare criteri di consenso .

Criterio di Kolmogorov - un criterio di bontà di adattamento che consente di valutare il grado di vicinanza della distribuzione empirica alla normale. A. N. Kolmogorov ha proposto di utilizzare la differenza massima tra le frequenze accumulate o le frequenze di queste serie per determinare la corrispondenza tra le distribuzioni normali empiriche e teoriche. Per verificare l'ipotesi che la distribuzione empirica corrisponda alla legge della distribuzione normale, si calcola il criterio di bontà di adattamento = D/
, dove D è la differenza massima tra le frequenze empiriche e teoriche cumulative (accumulate), n è il numero di unità nella popolazione. Utilizzando una tabella speciale, viene determinata P() - la probabilità di raggiungere , il che significa che se una caratteristica variazionale è distribuita secondo una legge normale, quindi Per ragioni casuali, la massima discrepanza tra le frequenze accumulate empiriche e teoriche non sarà inferiore a quella effettivamente osservata. In base al valore di P() si traggono alcune conclusioni: se la probabilità P() è sufficientemente grande, allora l'ipotesi che la distribuzione effettiva corrisponda alla legge normale può considerarsi confermata; se la probabilità P() è piccola, allora l'ipotesi nulla viene rifiutata e le discrepanze tra la distribuzione effettiva e quella teorica sono considerate significative.

Valori di probabilità per il criterio di bontà di adattamento  Tabella 4.3

Criteri di Pearson 2 (“chi quadrato”) - criterio di bontà di adattamento che consente di valutare il grado di vicinanza della distribuzione empirica alla normale:
,dove f i, f" i sono le frequenze delle distribuzioni empiriche e teoriche in un certo intervallo. Maggiore è la differenza tra le frequenze osservate e teoriche, maggiore è il criterio  2. Per distinguere il significato delle differenze nelle frequenze delle distribuzioni empiriche e teoriche secondo il criterio  2 da differenze dovute a campioni casuali, il valore calcolato del criterio  2 calc viene confrontato con la tabella tabulata  2 con il numero appropriato di gradi di libertà e un dato livello di significatività. livello è selezionato in modo tale che P( 2 calc > 2 tab) = . Il numero di gradi di libertà è Hl, Dove H– numero di gruppi; l– il numero di condizioni che devono essere soddisfatte nel calcolo delle frequenze teoriche. Per calcolare le frequenze teoriche della curva di distribuzione normale utilizzando la formula
è necessario conoscere tre parametri , , f, quindi il numero di gradi di libertà è h–3. Se  2 calc > 2 tab, cioè  2 cade nella regione critica, allora la discrepanza tra le frequenze empiriche e teoriche è significativa e non può essere spiegata da fluttuazioni casuali nei dati del campione. In questo caso l’ipotesi nulla viene rifiutata. Se  2 calcolo  2 tabelle, cioè il criterio calcolato non supera la massima divergenza possibile di frequenze che può sorgere per caso, quindi in questo caso si accetta l'ipotesi sulla corrispondenza delle distribuzioni. Il criterio di Pearson è efficace con un numero significativo di osservazioni (n50), e le frequenze di tutti gli intervalli devono essere almeno cinque unità (con un numero inferiore, gli intervalli vengono combinati), e il numero di intervalli (gruppi) deve essere grande (h>5), poiché la stima  2 dipende dal numero di gradi di libertà.

Criterio Romanovsky - un criterio di bontà di adattamento che consente di valutare il grado di vicinanza della distribuzione empirica alla normalità. Romanovsky ha proposto di valutare la vicinanza della distribuzione empirica alla curva di distribuzione normale in relazione a:

, dove h è il numero di gruppi.

Se il rapporto è maggiore di 3, allora la discrepanza tra le frequenze della distribuzione empirica e quella normale non può essere considerata casuale e l'ipotesi di una legge di distribuzione normale dovrebbe essere rifiutata. Se il rapporto è inferiore o uguale a 3, allora possiamo accettare l'ipotesi che la distribuzione dei dati sia normale.

Per ottenere un'idea approssimativa della forma della distribuzione di una variabile casuale, viene tracciato un grafico delle sue serie di distribuzione (poligono e istogramma), funzione o densità di distribuzione. Nella pratica della ricerca statistica si incontrano distribuzioni molto diverse. Le popolazioni omogenee sono caratterizzate, di regola, da distribuzioni a vertice singolo. Multivertex indica l'eterogeneità della popolazione studiata. In questo caso è necessario raggruppare i dati in modo da individuare gruppi più omogenei.

Determinare la natura generale della distribuzione di una variabile casuale implica valutare il grado di omogeneità della sua, nonché calcolare gli indicatori di asimmetria e curtosi. In una distribuzione simmetrica, in cui l'aspettativa matematica è uguale alla mediana, cioè , si può ritenere che non vi sia asimmetria. Ma quanto più evidente è l'asimmetria, tanto maggiore è la deviazione tra le caratteristiche del centro di distribuzione: l'aspettativa matematica e la mediana.

Si può considerare il coefficiente di asimmetria più semplice della distribuzione di una variabile casuale, dove è l'aspettativa matematica, è la mediana ed è la deviazione standard della variabile casuale.

Nel caso dell'asimmetria del lato destro, asimmetria del lato sinistro. Se , l'asimmetria è considerata bassa, se - media e alta. Un'illustrazione geometrica dell'asimmetria dei lati destro e sinistro è mostrata nella figura seguente. Mostra i grafici della densità di distribuzione dei corrispondenti tipi di variabili casuali continue.

Disegno. Illustrazione dell'asimmetria destra e sinistra nei grafici di densità delle distribuzioni di variabili casuali continue.

Esiste un altro coefficiente di asimmetria della distribuzione di una variabile casuale. Si può dimostrare che un momento centrale diverso da zero di ordine dispari indica un'asimmetria nella distribuzione della variabile casuale. Nell'indicatore precedente abbiamo utilizzato un'espressione simile al momento del primo ordine. Ma di solito in quest'altro coefficiente di asimmetria viene utilizzato il momento centrale del terzo ordine , e affinché questo coefficiente diventi adimensionale, viene diviso per il cubo della deviazione standard. Il coefficiente di asimmetria risultante è: . Per questo coefficiente di asimmetria, come per il primo nel caso di asimmetria destrorsa, sinistrorso - .

Curtosi di una variabile casuale

La curtosi della distribuzione di una variabile casuale caratterizza il grado di concentrazione dei suoi valori in prossimità del centro della distribuzione: maggiore è la concentrazione, più alto e stretto sarà il grafico di densità della sua distribuzione. L'indicatore di curtosi (nitidezza) viene calcolato utilizzando la formula: , dove è il momento centrale del 4° ordine, ed è la deviazione standard elevata alla 4° potenza. Poiché le potenze del numeratore e del denominatore sono le stesse, la curtosi è una quantità adimensionale. In questo caso, si accetta come standard di assenza di curtosi, curtosi zero, la distribuzione normale. Ma si può dimostrare che per una distribuzione normale . Pertanto, nella formula per il calcolo della curtosi, da questa frazione viene sottratto il numero 3.

Pertanto, per una distribuzione normale la curtosi è zero: . Se la curtosi è maggiore di zero, ad es. , allora la distribuzione è più accentuata del normale. Se la curtosi è inferiore a zero, ad es. , allora la distribuzione ha meno picchi del normale. Il valore limite della curtosi negativa è il valore di ; l'entità della curtosi positiva può essere infinitamente grande. Nella figura viene mostrato l'aspetto dei grafici delle densità di distribuzione con picco e con sommità piatta delle variabili casuali rispetto a una distribuzione normale.

Disegno. Illustrazione delle distribuzioni di densità con picco e con sommità piatta di variabili casuali rispetto alla distribuzione normale.

L'asimmetria e la curtosi della distribuzione di una variabile casuale mostrano quanto essa si discosta dalla legge normale. Per grandi asimmetrie e curtosi, non dovrebbero essere utilizzate formule di calcolo per la distribuzione normale. Qual è il livello di ammissibilità dell'asimmetria e della curtosi per l'uso delle formule di distribuzione normale nell'analisi dei dati per una variabile casuale specifica dovrebbe essere determinato dal ricercatore in base alla sua conoscenza ed esperienza.

Definizione. Moda M 0 di una variabile casuale discreta è detto valore più probabile. Per una variabile casuale continua, la moda è il valore della variabile casuale in corrispondenza del quale la densità di distribuzione ha un massimo.

Se il poligono di distribuzione per una variabile casuale discreta o la curva di distribuzione per una variabile casuale continua ha due o più massimi, allora tale distribuzione è chiamata bimodale O multimodale.

Se una distribuzione ha un minimo ma non un massimo, viene chiamata antimodale.

Definizione. Mediano M D di una variabile casuale X è il suo valore rispetto al quale è ugualmente probabile che si ottenga un valore maggiore o minore della variabile casuale.

Geometricamente la mediana è l'ascissa del punto in cui l'area delimitata dalla curva di distribuzione è divisa a metà.

Si noti che se la distribuzione è unimodale, allora la moda e la mediana coincidono con l'aspettativa matematica.

Definizione. Il momento iniziale ordine K la variabile casuale X è l'aspettativa matematica del valore X K .

Per una variabile casuale discreta: .

.

Il momento iniziale del primo ordine è uguale all'aspettativa matematica.

Definizione. Momento centrale ordine K la variabile casuale X è l'aspettativa matematica del valore

Per una variabile casuale discreta: .

Per una variabile casuale continua: .

Il momento centrale del primo ordine è sempre zero, mentre il momento centrale del secondo ordine è uguale alla dispersione. Il momento centrale del terzo ordine caratterizza l'asimmetria della distribuzione.

Definizione. Si chiama il rapporto tra il momento centrale del terzo ordine e la deviazione standard alla terza potenza coefficiente di asimmetria.

Definizione. Per caratterizzare il picco e la piattezza della distribuzione, una quantità chiamata eccesso.

Oltre alle grandezze considerate vengono utilizzati anche i cosiddetti momenti assoluti:

Momento iniziale assoluto: .

Punto centrale assoluto: .

Quantile , corrispondente ad un dato livello di probabilità R, è il valore al quale la funzione di distribuzione assume un valore pari a R, cioè. Dove R- livello di probabilità specificato.

In altre parole quantile c'è un valore di una variabile casuale in cui

Probabilità R, specificato in percentuale, dà il nome al quantile corrispondente, ad esempio si chiama quantile del 40%.

20. Aspettativa matematica e dispersione del numero di accadimenti di un evento in esperimenti indipendenti.

Definizione. Aspettativa matematica una variabile casuale continua X, i cui possibili valori appartengono al segmento , è chiamata integrale definito

Se si considerano i possibili valori di una variabile casuale sull'intero asse numerico, l'aspettativa matematica si trova dalla formula:

In questo caso, ovviamente, si assume che l’integrale improprio converga.

Aspettativa matematica Una variabile casuale discreta è la somma dei prodotti dei suoi possibili valori e delle loro probabilità corrispondenti:

M(X) =X 1 R 1 +X 2 R 2 + … +X P R P . (7.1)

Se il numero di possibili valori di una variabile casuale è infinito, allora
, se la serie risultante converge assolutamente.

Nota 1. A volte viene chiamata l'aspettativa matematica media ponderata, poiché è approssimativamente uguale alla media aritmetica dei valori osservati della variabile casuale su un gran numero di esperimenti.

Nota 2. Dalla definizione di aspettativa matematica segue che il suo valore non è inferiore al più piccolo valore possibile di una variabile casuale e non superiore al più grande.

Nota 3. L'aspettativa matematica di una variabile casuale discreta è Non casuale(costante. Vedremo più avanti che lo stesso vale per le variabili casuali continue.

Proprietà dell'aspettativa matematica.

    L'aspettativa matematica di una costante è uguale alla costante stessa:

M(CON) =CON.(7.2)

Prova. Se consideriamo CON come variabile casuale discreta che assume un solo valore CON con probabilità R= 1, quindi M(CON) =CON·1 = CON.

    Il fattore costante può essere estratto dal segno dell'aspettativa matematica:

M(CX) =CM(X). (7.3)

Prova. Se la variabile casuale X dato dalle serie di distribuzione

X io

X N

P io

P N

quindi la serie di distribuzione per CX ha la forma:

CONX io

CONX 1

CONX 2

CONX N

P io

P N

Poi M(CX) =Cx 1 R 1 +Cx 2 R 2 + … +Cx P R P =CON(X 1 R 1 +X 2 R 2 + … +X P R P) =CM(X).

Aspettativa matematica si chiama variabile casuale continua

(7.13)

Nota 1. La definizione generale di varianza rimane la stessa per una variabile casuale continua come per una discreta (def. 7.5), e la formula per calcolarla ha la forma:

(7.14)

La deviazione standard viene calcolata utilizzando la formula (7.12).

Nota 2. Se tutti i possibili valori di una variabile casuale continua non cadono al di fuori dell'intervallo [ UN, B], allora gli integrali nelle formule (7.13) e (7.14) vengono calcolati entro questi limiti.

Teorema. La varianza del numero di occorrenze di un evento in prove indipendenti è pari al prodotto del numero di prove e delle probabilità del verificarsi e del non verificarsi di un evento in una prova: .

Prova. Sia il numero di occorrenze dell'evento in prove indipendenti. È pari alla somma delle occorrenze dell'evento in ciascuna prova: . Poiché i test sono indipendenti, le variabili casuali – sono indipendenti, quindi.

Come mostrato sopra, , e .

Allora ah .

In questo caso, come accennato in precedenza, la deviazione standard è .

Quando si analizza la distribuzione della popolazione, di notevole interesse è la valutazione della deviazione di una determinata distribuzione da quella simmetrica o, in altre parole, della sua asimmetria. Il grado di asimmetria (asimmetria) è una delle proprietà più importanti della distribuzione della popolazione. Esistono numerose statistiche progettate per calcolare l'asimmetria. Tutti soddisfano almeno due requisiti per qualsiasi indicatore di asimmetria: deve essere adimensionale e uguale a zero se la distribuzione è simmetrica.

Nella fig. 2 a, b mostrano le curve di due distribuzioni asimmetriche della popolazione, una delle quali è inclinata a sinistra e l'altra a destra. La posizione relativa della moda, della mediana e della media è mostrata qualitativamente. Si può vedere che uno dei possibili indicatori di asimmetria può essere costruito tenendo conto della distanza alla quale si trovano la media e la moda l'una dall'altra. Ma tenendo conto della complessità di determinare la moda a partire da dati empirici e, d'altra parte, della ben nota relazione (3) tra moda, mediana e media, è stata proposta la seguente formula per calcolare l'indice di asimmetria:

Da questa formula ne consegue che le distribuzioni asimmetriche a sinistra hanno un'asimmetria positiva e le distribuzioni asimmetriche a destra hanno un'asimmetria negativa. Naturalmente, per le distribuzioni simmetriche, per le quali media e mediana coincidono, l'asimmetria è zero.

Calcoliamo gli indicatori di asimmetria per i dati riportati nella tabella. 1 e 2. Per la distribuzione della durata del ciclo cardiaco abbiamo:

Pertanto, questa distribuzione è leggermente sbilanciata a sinistra. Il valore ottenuto per l'asimmetria è approssimativo e non esatto, poiché per calcolarlo sono stati utilizzati i valori calcolati in modo semplificato.

Per la distribuzione dei gruppi sulfidrilici nel siero abbiamo:

Pertanto, questa distribuzione ha un'asimmetria negativa, vale a dire inclinato a destra.

In teoria, è dimostrato che il valore determinato dalla formula 13 è compreso tra 3. Ma in pratica, questo valore raggiunge molto raramente i suoi valori limite, e per distribuzioni a vertice singolo moderatamente asimmetriche il suo valore assoluto è solitamente inferiore a uno.

L'indicatore di asimmetria può essere utilizzato non solo per una descrizione formale della distribuzione della popolazione, ma anche per un'interpretazione significativa dei dati ottenuti.

Infatti, se la caratteristica che osserviamo si forma sotto l'influenza di un gran numero di cause indipendenti l'una dall'altra, ciascuna delle quali fornisce un contributo relativamente piccolo al valore di questa caratteristica, allora, secondo alcune premesse teoriche discusse nel sezione sulla teoria della probabilità, abbiamo il diritto di aspettarci che la distribuzione della popolazione ottenuta come risultato dell'esperimento sarà simmetrica. Tuttavia, se si ottiene un valore di asimmetria significativo per i dati sperimentali (il valore numerico di As modulo è entro pochi decimi), allora si può presumere che le condizioni sopra specificate non siano soddisfatte.

In questo caso ha senso ipotizzare l'esistenza di uno o due fattori, il cui contributo alla formazione del valore osservato nell'esperimento è significativamente maggiore degli altri, oppure postulare la presenza di uno speciale meccanismo che è diverso dal meccanismo dell'influenza indipendente di molte cause sul valore della caratteristica osservata.

Quindi, ad esempio, se i cambiamenti in una quantità di nostro interesse, corrispondente all'azione di un certo fattore, sono proporzionali a questo valore stesso e all'intensità dell'azione della causa, allora la distribuzione risultante sarà sempre sbilanciata rispetto a sinistra, cioè avere un'asimmetria positiva. I biologi, ad esempio, riscontrano un meccanismo del genere quando stimano le quantità associate alla crescita di piante e animali.

Un altro modo per valutare l'asimmetria si basa sul metodo dei momenti, che sarà discusso nel capitolo 44. Secondo questo metodo, l'asimmetria viene calcolata utilizzando la somma delle deviazioni di tutti i valori di una serie di dati rispetto alla media , elevato alla terza potenza, ovvero:

La terza potenza assicura che il numeratore di questa espressione sia uguale a zero per le distribuzioni simmetriche, poiché in questo caso le somme delle deviazioni su e giù dalla media alla terza potenza saranno uguali e avranno segni opposti. La divisione per fornisce l'assenza di dimensioni per la misura di asimmetria.

La formula (14) può essere trasformata come segue. Nel paragrafo precedente sono stati introdotti valori standardizzati:

Pertanto, la misura dell’asimmetria è la media dei dati standardizzati al cubo.

Per gli stessi dati per i quali è stata calcolata l'asimmetria utilizzando la formula (13), troviamo l'indicatore utilizzando la formula (15). Abbiamo:

Naturalmente, gli indicatori di asimmetria calcolati utilizzando formule diverse differiscono tra loro in grandezza, ma indicano ugualmente la natura dell'asimmetria. Nei pacchetti applicativi per l'analisi statistica, quando si calcola l'asimmetria, viene utilizzata la formula (15) poiché fornisce valori più accurati. Per i calcoli preliminari utilizzando semplici calcolatrici, è possibile utilizzare la formula (13).

Eccesso. Abbiamo quindi esaminato tre dei quattro gruppi di indicatori con l'aiuto dei quali vengono descritte le distribuzioni della popolazione. L'ultimo di questi è un gruppo di indicatori di picco, o curtosi (dal greco - gobba). Per calcolare uno dei possibili indicatori di curtosi, viene utilizzata la seguente formula:

Utilizzando lo stesso approccio applicato trasformando la formula di asimmetria (14) è facile dimostrare che:

Teoricamente, è stato dimostrato che il valore della curtosi per una curva di distribuzione normale (gaussiana), che gioca un ruolo importante nella statistica, così come nella teoria della probabilità, è numericamente uguale a 3. Sulla base di una serie di considerazioni, la nitidezza di questa curva è presa come standard, e quindi come indicatore di curtosi utilizzare il valore:

Troviamo il valore di picco per i dati forniti nella tabella. 1. Abbiamo:

Pertanto, la curva di distribuzione della durata dei cicli cardiaci è appiattita rispetto alla curva normale, per la quale.

Nella tabella La Figura 3 mostra la distribuzione del numero di fiori marginali in una delle specie di crisantemo. Per questa distribuzione

La curtosi può assumere valori molto grandi, come si vede dall'esempio riportato, ma il suo limite inferiore non può essere inferiore a uno. Si scopre che se la distribuzione è bimodale, il valore di curtosi si avvicina al limite inferiore, quindi tende a -2. Pertanto, se dai calcoli risulta che il valore è inferiore a -1-1,4, possiamo essere sicuri che la distribuzione della popolazione a nostra disposizione è almeno bimodale. Ciò è particolarmente importante da tenere in considerazione quando i dati sperimentali, aggirando la fase di pre-elaborazione, vengono analizzati utilizzando un computer digitale e il ricercatore non ha davanti agli occhi una rappresentazione grafica diretta della distribuzione della popolazione.

La curva di distribuzione a due picchi dei dati sperimentali può verificarsi per molte ragioni. In particolare, tale distribuzione può verificarsi combinando due insiemi di dati eterogenei in un unico insieme. Per illustrare ciò, abbiamo combinato artificialmente i dati sulla larghezza delle conchiglie di due tipi di molluschi fossili in un unico set (Tabella 4, Fig. 3).

La figura mostra chiaramente la presenza di due modalità, poiché due insiemi di dati provenienti da popolazioni diverse sono mescolati. Il calcolo fornisce un valore di curtosi pari a 1,74 e quindi = -1,26. Pertanto, il valore calcolato dell'indice di picco indica, in accordo con la posizione precedentemente indicata, che la distribuzione ha due picchi.

C'è un avvertimento qui. Infatti, in tutti i casi in cui la distribuzione della popolazione ha due massimi, il valore della curtosi sarà vicino all’unità. Tuttavia, questo fatto non può portare automaticamente alla conclusione che il set di dati analizzato sia una miscela di due campioni eterogenei. In primo luogo, tale miscela, a seconda del numero dei suoi aggregati costituenti, potrebbe non avere due picchi e l'indice di curtosi sarà significativamente maggiore di uno. In secondo luogo, un campione omogeneo può avere due modalità se, ad esempio, vengono violati i requisiti per la selezione dei dati sperimentali. Pertanto, in questo come in altri casi, dopo il calcolo formale delle varie statistiche, è necessario effettuare un'analisi professionale approfondita, che consentirà di dare un'interpretazione significativa ai dati ottenuti.

Ultimi materiali nella sezione:

Elementi di batteri.  Struttura delle cellule batteriche
Elementi di batteri. Struttura delle cellule batteriche

I componenti strutturali di una cellula batterica si dividono in 2 tipologie: - strutture di base (parete cellulare, membrana citoplasmatica con i suoi derivati,...

Movimento rotatorio del corpo
Movimento rotatorio del corpo

1.8. Momento della quantità di moto di un corpo attorno ad un asse. Il momento angolare di un corpo solido rispetto ad un asse è la somma del momento angolare delle singole particelle, da...

Battaglie della seconda guerra mondiale
Battaglie della seconda guerra mondiale

A Stalingrado il corso del mondo subì una brusca svolta: nella storia militare russa, la battaglia di Stalingrado è sempre stata considerata la battaglia più eccezionale e...