Limitare l'errore della formula del valore medio. Errori di campionamento medi e marginali

Per caratterizzare l'affidabilità degli indicatori campionari, si distingue tra errori campionari medi e marginali, che sono caratteristici solo delle osservazioni campionarie. Questi indicatori riflettono la differenza tra il campione ei corrispondenti indicatori generali.

Errore medio del campioneè determinato principalmente dalla dimensione del campione e dipende dalla struttura e dal grado di variazione del tratto in studio.

Il significato dell'errore di campionamento medio è il seguente. I valori calcolati della frazione campionaria (w) e della media campionaria () sono per loro natura variabili casuali. Possono assumere valori diversi a seconda di quali specifiche unità della popolazione generale rientrano nel campione. Ad esempio, se, nel determinare l'età media dei dipendenti di un'impresa, in un campione sono inclusi più giovani e in un altro i lavoratori più anziani, le medie del campione e gli errori di campionamento saranno diversi. Errore di campionamento medioè determinato dalla formula:

(27) o - ricampionamento. (28)

Dove: μ è l'errore medio di campionamento;

σ è la deviazione standard di un tratto nella popolazione generale;

n è la dimensione del campione.

Il valore di errore μ mostra come il valore medio della caratteristica, stabilito dal campione, differisca dal valore reale della caratteristica nella popolazione generale.

Dalla formula segue che l'errore di campionamento è direttamente proporzionale alla deviazione standard e inversamente proporzionale alla radice quadrata del numero di unità nel campione. Ciò significa, ad esempio, che maggiore è la diffusione dei valori di una caratteristica nella popolazione generale, ovvero maggiore è la dispersione, maggiore dovrebbe essere la dimensione campionaria se vogliamo fidarci dei risultati di un'indagine campionaria . Viceversa, con una piccola varianza, ci si può limitare a un numero ristretto di popolazioni campione. L'errore di campionamento sarà quindi entro limiti accettabili.

Poiché la dimensione della popolazione generale N durante il campionamento diminuisce durante la selezione non ripetuta, nella formula per il calcolo dell'errore di campionamento medio è incluso un fattore aggiuntivo

(uno- ). La formula per l'errore medio di campionamento assume la forma seguente:

L'errore medio è minore per il campionamento non ripetitivo, il che lo rende più ampiamente utilizzato.

Le conclusioni pratiche richiedono una caratterizzazione della popolazione generale basata sui risultati del campione. Le medie e le proporzioni campionarie vengono applicate alla popolazione generale, tenendo conto del limite del loro possibile errore e con un livello di probabilità che lo garantisca. Dato uno specifico livello di probabilità, si sceglie il valore della deviazione normalizzata e si determina l'errore di campionamento marginale.

Affidabilità (probabilità di confidenza) della stima X per X* chiamata probabilità γ , con cui la disuguaglianza


׀Х-Х*׀< δ, (30)

dove δ è l'errore di campionamento marginale che caratterizza l'ampiezza dell'intervallo in cui si trova il valore del parametro studiato della popolazione generale con probabilità γ.

Fidato nominare l'intervallo (X* - δ; X* + δ) che copre il parametro X indagato (cioè il valore del parametro X è all'interno di questo intervallo) con una data affidabilità γ.

Di solito, l'affidabilità della stima è fissata in anticipo e un numero vicino a uno è preso come γ: 0,95; 0,99 o 0,999.

L'errore limite δ è correlato all'errore medio μ come segue: , (31)

dove: t è il fattore di confidenza, dipendente dalla probabilità P, con il quale si può argomentare che l'errore marginale δ non supererà l'errore medio t volte μ (è anche chiamato punti critici o quantili della distribuzione di Student).

Come risulta dal rapporto, l'errore marginale è direttamente proporzionale all'errore medio di campionamento e al coefficiente di confidenza, che dipende dal dato livello di affidabilità della stima.

Dalla formula dell'errore medio di campionamento e dal rapporto tra gli errori marginali e medi si ottiene:

Tenendo conto della probabilità di confidenza, questa formula assumerà la forma.

Come è noto, in statistica esistono due modalità di osservazione dei fenomeni di massa, a seconda della completezza della copertura dell'oggetto: continua e non continua. Una variazione dell'osservazione discontinua è l'osservazione selettiva.

Sotto osservazione selettiva è intesa come un'osservazione non continua, in cui le unità della popolazione studiata, selezionate casualmente, sono sottoposte ad esame statistico (osservazione).

L'osservazione selettiva si pone il compito di caratterizzare l'intera popolazione di unità per la parte esaminata, fatte salve tutte le regole ei principi dell'osservazione statistica e del lavoro scientificamente organizzato sulla selezione delle unità.

Di solito viene chiamato l'insieme di unità selezionate per il sondaggio nelle statistiche popolazione campione , e viene chiamato l'insieme di unità da cui viene effettuata la selezione popolazione generale . Le principali caratteristiche della popolazione generale e del campione sono presentate nella Tabella 1.

Tabella 1 - Le principali caratteristiche della popolazione generale e campionaria
IndiceDesignazione o formula
Popolazione Popolazione campione
Numero di unità N n
Il numero di unità che hanno una caratteristica M m
Proporzione di unità con questa caratteristica p = M/N ω = m/n
Proporzione di unità che non hanno questo tratto q = 1 - p 1 - w
Valore medio cartello
Dispersione cartello
Dispersione di una caratteristica alternativa (dispersione di una quota) pq ω (1 - ω)

Quando si esegue l'osservazione selettiva, si verificano errori sistematici e casuali. Si verificano errori sistematici a causa della violazione delle regole per la selezione delle unità nel campione. Modificando le regole di selezione, tali errori possono essere eliminati.

Errori casuali sorgono a causa della natura discontinua dell'indagine. Altrimenti, sono chiamati errori di rappresentatività (rappresentatività). Gli errori casuali sono divisi in errori di campionamento medi e marginali, che vengono determinati sia durante il calcolo della caratteristica che nel calcolo della quota.

Gli errori medi e limite sono correlati dalla seguente relazione :Δ = tμ, dove Δ è l'errore di campionamento marginale, μ è l'errore di campionamento medio, t è il fattore di confidenza determinato in funzione del livello di probabilità. La tabella 2 mostra alcuni valori di t presi dalla teoria della probabilità.

Il valore dell'errore di campionamento medio viene calcolato in modo differenziale a seconda del metodo di selezione e della procedura di campionamento. Le principali formule per il calcolo degli errori di campionamento sono presentate nella tabella 3.

Tabella 3 - Formule di base per il calcolo degli errori di campionamento nella selezione ripetitiva e non ripetuta
IndiceDesignazione e formula
Popolazione Popolazione campione
Errore di funzionalità medio per il ricampionamento casuale
Errore di condivisione medio per ricampionamento casuale
Limitare l'errore di una funzione in caso di ri-selezione casuale
Errore di condivisione marginale nella riselezione casuale
Errore medio di una funzione per la selezione casuale non ripetitiva
Errore di condivisione media nel campionamento casuale non ripetitivo
Limitare l'errore di una funzione con una selezione casuale non ripetitiva
Errore di condivisione marginale per selezione casuale non ripetitiva

Il calcolo degli errori di campionamento medi e marginali consente di determinare i possibili limiti in cui saranno le caratteristiche della popolazione generale .

Ad esempio, per una media campionaria, tali limiti sono fissati in base alle seguenti relazioni:

Limiti della quota del tratto nella popolazione generale p.

Esempi di risoluzione di problemi sull'argomento "Osservazione del campionamento nelle statistiche"

Compito 1 . Ci sono informazioni sulla produzione di prodotti (lavori, servizi) ottenute sulla base di un'osservazione campionaria del 10% delle imprese nella regione:

Determinare: 1) per le imprese incluse nel campione: a) la dimensione media della produzione per impresa; b) dispersione del volume di produzione; c) la quota di imprese con un volume di produzione superiore a 400 mila rubli; 2) per la regione nel suo insieme, con probabilità 0,954, i limiti entro i quali ci si può aspettare: a) il volume medio di produzione per impresa; b) la quota di imprese con un volume di produzione superiore a 400 mila rubli; 3) il volume totale della produzione nella regione.

Soluzione

Per risolvere il problema, espandiamo la tabella proposta.

1) Per le imprese incluse nel campione, la dimensione media della produzione per impresa

110800/400 = 277 mila rubli

Calcoliamo la dispersione del volume di produzione in modo semplificato σ 2 = 35640000/400 - 277 2 = 89100 - 76229 = 12371.

Il numero di imprese il cui volume di produzione supera i 400 mila rubli. è uguale a 36+12 = 48 e la loro quota è pari a ω = 48:400 = 0,12 = 12%.

2) Dalla teoria della probabilità è noto che con una probabilità P=0,954 il fattore di confidenza t=2. Errore di campionamento marginale

2√12371:400 = 11,12 mila rubli

Definiamo i limiti della media generale: 277-11,12 ≤Xav ≤ 277+11,12; 265,88 ≤Xav ≤ 288,12

Errore di campionamento marginale della quota di imprese

2√0,12*0,88/400 = 0,03

Definiamo i limiti della quota generale: 0,12-0,03≤ p ≤0,12+0,03; 0,09≤ p≤0,15

3) Poiché il gruppo di imprese considerato è il 10% del numero totale di imprese nella regione, ci sono 4.000 imprese nella regione nel suo complesso. Quindi il volume totale di produzione nella regione è compreso tra 265,88×4000≤Q≤288,12×4000; 1063520 ≤ Q ≤ 1152480

Compito 2 . Secondo i risultati di una verifica di controllo da parte dell'Agenzia delle Entrate su 400 strutture aziendali, 140 di esse non indicano nella propria dichiarazione dei redditi il ​​reddito soggetto a tassazione. Determinare nella popolazione generale (per l'intera regione) la quota di strutture aziendali che hanno nascosto parte delle proprie entrate fiscali con una probabilità di 0,954.

Soluzione

Secondo la condizione del problema, il numero di unità nella popolazione campionaria è n=400, il numero di unità con la caratteristica considerata è m=140, la probabilità è P=0,954.

Dalla teoria della probabilità è noto che con la probabilità P=0,954 il fattore di confidenza t=2.

La proporzione di unità che hanno l'attributo indicato è determinata dalla formula: p=w+∆p, dove w = m/n=140/400=0,35=35%,
e l'errore limite della caratteristica ∆p si ottiene dalla formula: ∆p= t √w(1-w)/n = 2√0.35×0.65/400 ≈ 0.5 = 5%

Allora p = 35±5%.

Risposta : La quota di strutture aziendali che hanno nascosto parte del proprio reddito fiscale con una probabilità di 0,954 è del 35±5%.

Il concetto di osservazione selettiva.

Selettivo si chiama tale osservazione in cui la caratteristica dell'intero insieme di unità è data secondo alcune loro parti, selezionate in ordine casuale.

Ragioni per l'utilizzo dell'osservazione selettiva:

1. Risparmio di materiale, manodopera, risorse finanziarie e tempo.

2. L'osservazione selezionata porta spesso ad un aumento dell'accuratezza dei dati, poiché una diminuzione del numero di unità di osservazione riduce drasticamente gli errori nella registrazione dei valori di un segno (errori di stampa, conteggio insufficiente, doppio conteggio ...).

3. L'osservazione selettiva è l'unica possibile se l'osservazione è accompagnata da un danno completo o parziale degli oggetti osservati (qualità dei lotti di uova, forza dei tessuti, ecc.).

Di solito viene chiamata quella parte delle unità selezionate per l'osservazione popolazione campione o semplicemente campionamento e l'intero insieme di unità da cui viene effettuata la selezione - popolazione generale.

È stato adottato il seguente sistema di designazione degli indicatori per la popolazione selezionata e generale.

A seconda dell'applicazione della tecnica di selezione, il campione è suddiviso in seriale (nidificato) e tipologico.

· Quando tipologico campionamento, la popolazione generale viene suddivisa in tipologie (gruppi, distretti), quindi viene effettuata una selezione casuale di unità per ciascuna tipologia.

· In seriale il campione è scelto non per unità, ma per determinate serie, gruppi, aree all'interno delle quali si effettua l'osservazione continua.

Esistono due modi per selezionare le unità in un campione:

- riselezione

ogni unità del campione viene restituita alla popolazione generale e ha la possibilità di essere ricampionata.

- selezione non ripetitiva

l'unità selezionata non viene restituita alla popolazione ed è più probabile che le unità rimanenti vengano incluse nel campione. Il campionamento non ripetitivo fornisce risultati più accurati, ma a volte non è possibile (ricerca sulla domanda dei consumatori).

La qualità dei risultati del campionamento dipende dalla misura in cui la composizione del campione rappresenta la popolazione generale, ovvero da quanto il campione rappresentante(rappresentante). Per garantire la rappresentatività del campione, è necessario osservare il principio della selezione casuale delle unità.

Errore di campionamento

Il concetto ei tipi di errori di campionamento

Poiché la popolazione statistica oggetto di studio è costituita da unità con caratteristiche variabili, la composizione della popolazione campione può differire in una certa misura dalla composizione della popolazione generale.

La discrepanza tra le caratteristiche del campione e la popolazione generale è errore di campionamento.

Tipi di errori di campionamento

Il compito principale del metodo di campionamento è studiare gli errori casuali di rappresentatività.

Errore di campionamento medio

L'errore casuale di rappresentatività dipende dai seguenti fatti (si presume che non vi siano errori di registrazione):

1. Maggiore è la dimensione del campione, ceteris paribus, minore è l'errore di campionamento, ad es. errore di campionamento è inversamente proporzionale alla sua dimensione.

2. Minore è la variazione dell'attributo, minore è l'errore di campionamento. Se il segno non varia affatto e, di conseguenza, la varianza è zero, non ci sarà alcun errore di campionamento, perché qualsiasi unità della popolazione caratterizzerà accuratamente l'intera popolazione su questa base. Pertanto, l'errore di campionamento è direttamente proporzionale all'entità della varianza.

Nella statistica matematica, è dimostrato che il valore dell'errore medio di un ricampionamento casuale può essere determinato dalla formula

Tuttavia, va tenuto presente che l'entità della dispersione nella popolazione generale s2 non lo sappiamo, perché osservazione selettiva. Possiamo solo calcolare la varianza nella popolazione campione S2. Il rapporto tra le varianze della popolazione generale e quella campionaria è espresso dalla formula:

(6.2)

Se una n grande, quindi

s2 = S2

E la formula per l'errore medio di ricampionamento (6.1.) assumerà la forma:

Ma qui abbiamo considerato solo l'errore di campionamento per il valore medio della caratteristica di interesse. C'è anche un indicatore della proporzione di unità con una caratteristica di interesse. Il calcolo dell'errore di questo indicatore ha le sue caratteristiche.

La varianza per l'indicatore di quota caratteristico è determinata dalla formula:

S 2 \u003d w (1-w) (6.4)

Allora l'errore medio di campionamento per la misura della quota della caratteristica sarà pari a:

(6.5)

La dimostrazione delle formule (6.3) e (6.5) parte dallo schema di ricampionamento. Di solito, il campione è organizzato in modo non ripetitivo. Perché con selezione non ripetitiva, la dimensione della popolazione generale N viene abbreviato nel codice di campionamento, quindi viene incluso un fattore aggiuntivo nelle formule dell'errore di campionamento , e le formule assumono la forma:

(6.6)

(6.7)

Esempio 1. Determiniamo quanto differiscono il campione e gli indicatori generali in base ai dati di un campione non ripetuto del 10% delle prestazioni degli studenti.

Calcolo dell'errore di non ricampionamento per la media:

n= 100 N= 1000

Trova la varianza campionaria usando la formula:

Qui non è noto il valore, che può essere trovato come media ponderata ordinaria:

In questo modo,

Quelli. possiamo dire che il punteggio medio di tutti gli studenti () è 3,65 ± 0,07

Ora calcoliamo la proporzione di studenti nella popolazione generale che studia per "4" e "5".

Sulla base del campione, troveremo la percentuale di studenti che hanno ricevuto i voti "4" e "5".

(o 64%)

Il calcolo dell'errore di mancato ricampionamento per la quota viene effettuato secondo la formula:

(o 4,5%)

Pertanto, la quota di studenti iscritti ai "4" e "5" nella popolazione generale ( P) è 0,64±0,045 (o 64%±4,5%).

Errore di campionamento marginale

Il fatto che la media generale e la quota generale non vadano oltre certi limiti può essere affermato non con assoluta certezza, ma solo con un certo grado di probabilità.

Nella statistica matematica, è dimostrato che le caratteristiche generali si discostano da quelle campionarie per l'entità dell'errore di campionamento (± m), solo con una probabilità di 0,683. Per quanto riguarda gli studi campionari si intende che i valori dei limiti possono essere garantiti solo in 683 casi su 1000. Nei restanti 317 casi i valori di tali limiti saranno diversi.

La probabilità di giudizio può essere aumentata ampliando i limiti di deviazione prendendo come misura l'errore medio di campionamento, aumentato di t una volta.

Quelli. con un certo grado di probabilità si può asserire che le deviazioni delle caratteristiche campionarie da quelle generali non supereranno un certo valore, che si chiama errore marginale di campionamento D (delta):

dove t– fattore di confidenza (fattore di molteplicità degli errori), determinato in funzione del livello di confidenza con cui è necessario garantire i risultati di uno studio campionario.

In pratica, vengono utilizzate tabelle in cui vengono calcolate le probabilità per vari valori t. Diamo un'occhiata ad alcuni di loro.

t Probabilità t Probabilità
0,5 0,383 2,0 0,954
1,0 0,683 2,5 0,988
1,5 0,866 3,0 0,997

Ad esempio, se nel nostro esempio vogliamo aumentare la probabilità di giudizio a 0,954, prendiamo t= 2 e modificano così i limiti di scostamento del punteggio medio di tutti gli studenti e la proporzione degli iscritti ai punti “4” e “5”.

Cioè, (6.9)

Cioè, (6.10)

Durante l'osservazione selettiva, dovrebbe essere assicurato incidente selezione dell'unità. Ogni unità deve avere pari opportunità di essere selezionata con le altre. Questo è ciò su cui si basa il campionamento casuale.

Per campione casuale appropriato si riferisce alla selezione di unità dall'intera popolazione generale (senza suddividerla in nessun gruppo) mediante estrazione a sorte (principalmente) o qualche altro metodo simile, ad esempio utilizzando una tabella di numeri casuali. Selezione casuale Questa selezione non è casuale. Il principio di casualità suggerisce che l'inclusione o l'esclusione di un oggetto dal campione non può essere influenzata da alcun fattore diverso dal caso. Un esempio effettivamente casuale la selezione può fungere da circolazione delle vincite: dal numero totale dei biglietti emessi, una certa parte dei numeri che rappresentano le vincite viene selezionata casualmente. Inoltre, tutti i numeri hanno pari opportunità di entrare nel campione. In questo caso, il numero di unità selezionate nel set di campioni è generalmente determinato in base alla proporzione accettata del campione.

Condivisione del campione è il rapporto tra il numero di unità della popolazione campionaria e il numero di unità della popolazione generale:

Quindi, con un campione del 5% da un lotto di parti in 1000 unità. misura di prova Pè 50 unità e con un campione del 10% - 100 unità. eccetera. Con la corretta organizzazione scientifica del campionamento, gli errori di rappresentatività possono essere ridotti a valori minimi, di conseguenza, l'osservazione selettiva diventa sufficientemente accurata.

La corretta selezione casuale "nella sua forma pura" è usata raramente nella pratica dell'osservazione selettiva, ma è il punto di partenza tra tutti gli altri tipi di selezione, contiene e implementa i principi di base dell'osservazione selettiva.

Consideriamo alcune domande sulla teoria del metodo di campionamento e sulla formula dell'errore per un semplice campione casuale.

Quando si applica il metodo di campionamento nelle statistiche, vengono solitamente utilizzati due tipi principali di indicatori generalizzatori: il valore medio di una caratteristica quantitativa e il valore relativo della caratteristica alternativa(la proporzione o proporzione di unità nella popolazione statistica, che differiscono da tutte le altre unità di questa popolazione solo per la presenza del tratto oggetto di studio).

Condivisione del campione (w), o frequenza, è determinata dal rapporto tra il numero di unità che hanno la caratteristica in esame t, al numero totale di unità di campionamento P:

Ad esempio, se su 100 dettagli del campione ( n=100), 95 parti si sono rivelate standard (t=95), quindi la frazione campionaria

w=95/100=0,95 .

Per caratterizzare l'affidabilità degli indicatori campionari, ci sono mezzo e errore marginale di campionamento.

Errore di campionamento ? ovvero, in altre parole, l'errore di rappresentatività è la differenza tra il campione corrispondente e le caratteristiche generali:

*

*

L'errore di campionamento è caratteristico solo delle osservazioni selettive. Maggiore è il valore di questo errore, più gli indicatori campionari differiscono dai corrispondenti indicatori generali.

La media campionaria e la quota campionaria sono intrinsecamente variabili casuali, che possono assumere valori diversi a seconda di quali unità della popolazione sono state incluse nel campione. Pertanto, anche gli errori di campionamento sono variabili casuali e possono assumere valori diversi. Pertanto, determinare la media dei possibili errori - l'errore medio del campione.

Da cosa dipende errore di campionamento medio? Fatto salvo il principio della selezione casuale, viene determinato principalmente l'errore di campionamento medio misura di prova: maggiore è la popolazione, ceteris paribus, minore è l'errore medio di campionamento. Coprendo un'indagine campionaria con un numero crescente di unità della popolazione generale, caratterizziamo sempre più accuratamente l'intera popolazione.

Anche l'errore di campionamento medio dipende da grado di variazione tratto studiato. Il grado di variazione, come sapete, è caratterizzato dalla dispersione? 2 o w(1-w)-- per una funzione alternativa. Minore è la variazione della caratteristica, e quindi la varianza, minore è l'errore di campionamento medio e viceversa. Con dispersione zero (l'attributo non varia), l'errore di campionamento medio è zero, ovvero qualsiasi unità della popolazione generale caratterizzerà accuratamente l'intera popolazione in base a questo attributo.

La dipendenza dell'errore medio di campionamento dal suo volume e dal grado di variazione dell'attributo si riflette nelle formule che possono essere utilizzate per calcolare l'errore medio di campionamento in condizioni di osservazione del campione, quando le caratteristiche generali ( x, p) sono sconosciuti, e quindi non è possibile risalire al reale errore di campionamento direttamente dalle formule (form. 1), (form. 2).

w Con selezione casuale errori medi calcolata teoricamente con le seguenti formule:

* per il carattere quantitativo medio

* per quota (caratteristica alternativa)

Dal momento che praticamente la varianza dell'attributo nella popolazione generale? 2 non è esattamente noto, in pratica si utilizza il valore della varianza S 2 calcolato per la popolazione campionaria in base alla legge dei grandi numeri, secondo la quale la popolazione campionaria con una dimensione campionaria sufficientemente ampia riproduce fedelmente le caratteristiche della popolazione generale.

In questo modo, formule di calcolo mezzo errori di campionamento il ricampionamento casuale sarà il seguente:

* per il carattere quantitativo medio

* per quota (caratteristica alternativa)

Tuttavia, la varianza della popolazione campionaria non è uguale alla varianza della popolazione generale e, pertanto, gli errori di campionamento medi calcolati dalle formule (form. 5) e (form. 6) saranno approssimativi. Ma nella teoria della probabilità è dimostrato che la varianza generale è espressa attraverso l'elettivo dalla seguente relazione:

Perché P/(n-1) per sufficientemente grande P -- valore prossimo all'unità, si può presumere che, e quindi, nei calcoli pratici degli errori medi di campionamento, possono essere utilizzate formule (form. 5) e (form. 6). E solo nei casi di un piccolo campione (quando la dimensione del campione non supera i 30) è necessario tenere conto del coefficiente P/(n-1) e calcola errore medio di piccolo campione secondo la formula:

WX Con selezione casuale non ripetitiva nelle formule di cui sopra per calcolare gli errori medi di campionamento, è necessario moltiplicare l'espressione radice per 1-(n / N), poiché il numero di unità nella popolazione generale si riduce nel processo di campionamento non ripetitivo. Pertanto, per una selezione non ripetitiva formule di calcolo errore medio di campionamento assumerà la seguente forma:

* per il carattere quantitativo medio

* per quota (caratteristica alternativa)

. (modulo 10)

Perché P sempre meno N, quindi il fattore aggiuntivo 1-( n/n) sarà sempre meno di uno. Ne consegue che l'errore medio con selezione non ripetitiva sarà sempre inferiore rispetto a selezione ripetuta. Allo stesso tempo, con una percentuale relativamente piccola del campione, questo fattore è vicino a uno (ad esempio, con un campione del 5% è 0,95; con un campione del 2% è 0,98, ecc.). Pertanto, a volte in pratica, le formule (moduli 5) e (moduli 6) vengono utilizzate per determinare l'errore di campionamento medio senza il moltiplicatore specificato, sebbene il campione sia organizzato come non ripetuto. Ciò si verifica quando il numero di unità della popolazione generale N è sconosciuto o illimitato, o quando P molto poco rispetto a N, e in sostanza, l'introduzione di un fattore aggiuntivo, di valore prossimo a uno, non influirà praticamente sul valore dell'errore medio di campionamento.

Campionamento meccanico consiste nel fatto che la selezione delle unità del campione dal generale, divise da un criterio neutro in intervalli uguali (gruppi), è effettuata in modo tale che per ciascuno di tali gruppi del campione sia selezionata una sola unità. Per evitare errori sistematici, è necessario selezionare l'unità che si trova al centro di ogni gruppo.

Quando si organizza la selezione meccanica, le unità della popolazione sono predisposte (di solito in un elenco) in un certo ordine (ad esempio, in ordine alfabetico, per posizione, in ordine crescente o decrescente dei valori di qualsiasi indicatore non associato con l'immobile oggetto di studio, ecc.). ecc.), dopo di che viene selezionato meccanicamente un determinato numero di unità, ad un certo intervallo. In questo caso, la dimensione dell'intervallo nella popolazione generale è uguale al reciproco della quota campionaria. Quindi, con un campione del 2%, ogni 50 unità (1: 0,02) viene selezionata e verificata, con un campione del 5%, ogni 20 unità (1: 0,05), ad esempio, dettaglio discendente dalla macchina.

Con una popolazione sufficientemente ampia, la selezione meccanica in termini di accuratezza dei risultati è quasi casuale. Pertanto, per determinare l'errore medio di un campione meccanico, si utilizzano le formule per il campionamento auto-casuale non ripetitivo (form. 9), (form. 10).

Per selezionare le unità da una popolazione eterogenea, il cosiddetto campione tipico , che viene utilizzato nei casi in cui tutte le unità della popolazione generale possono essere suddivise in più gruppi qualitativamente omogenei e simili in base alle caratteristiche che influenzano gli indicatori studiati.

Quando si esaminano le imprese, tali gruppi possono essere, ad esempio, l'industria e il sottosettore, forme di proprietà. Quindi, da ciascun gruppo tipico, viene effettuata una selezione individuale di unità nel campione da un campione casuale o meccanico.

Un campione tipico viene solitamente utilizzato nello studio di popolazioni statistiche complesse. Ad esempio, in un'indagine campionaria sui bilanci familiari dei lavoratori e dei dipendenti in determinati settori dell'economia, la produttività del lavoro dei lavoratori di un'impresa, rappresentata da gruppi di competenze distinti.

Un campione tipico fornisce risultati più accurati rispetto ad altri metodi di selezione delle unità in un set di campioni. La tipizzazione della popolazione generale garantisce la rappresentatività di tale campione, la rappresentazione di ciascun gruppo tipologico in esso contenuto, il che consente di escludere l'influenza della dispersione intergruppo sull'errore medio campionario.

Quando si determina errore medio di un campione tipico come indicatore di variazione è la media degli scostamenti infragruppo.

L'errore medio di campionamento si trovano dalle formule:

* per il carattere quantitativo medio

(riselezione); (modulo 11)

(selezione irreversibile); (modulo 12)

* per quota (caratteristica alternativa)

(riselezione); (modulo 13)

(selezione non ripetitiva), (modulo 14)

dove è la media degli scostamenti intragruppo per la popolazione campione;

La media delle varianze infragruppo della quota (carattere alternativo) nella popolazione campione.

campionamento seriale comporta la selezione casuale dalla popolazione generale non di singole unità, ma di gruppi eguali (nidi, serie) al fine di sottoporre tutte le unità senza eccezioni all'osservazione in tali gruppi.

L'uso del campionamento seriale è dovuto al fatto che molte merci per il loro trasporto, stoccaggio e vendita sono imballate in pacchi, scatole, ecc. Pertanto, quando si controlla la qualità delle merci imballate, è più razionale controllare più pacchi (serie) piuttosto che selezionare la quantità di merce richiesta da tutti i pacchi.

Poiché all'interno dei gruppi (serie) vengono esaminate tutte le unità senza eccezioni, l'errore di campionamento medio (quando si selezionano serie uguali) dipende solo dalla varianza tra i gruppi (interserie).

w L'errore di campionamento medio per il punteggio medio durante la selezione seriale, si trovano dalle formule:

(riselezione); (modulo 15)

(selezione non ripetitiva), (modulo 16)

dove r- numero di serie selezionate; R- numero totale di episodi.

La varianza intergruppo del campione seriale è calcolata come segue:

dov'è la media io- esima serie; - la media generale dell'intera popolazione campione.

w Errore di campionamento medio per la condivisione (funzione alternativa) nella selezione seriale:

(riselezione); (modulo 17)

(selezione non ripetitiva). (modulo 18)

Intergruppo(inter-serie) varianza della quota del campione seriale determinato dalla formula:

, (modulo 19)

dove è la quota della funzione in io esima serie; - la quota totale del tratto nell'intero campione.

Nella pratica delle indagini statistiche, oltre ai metodi di selezione precedentemente considerati, viene utilizzata la loro combinazione (selezione combinata).

Il concetto di osservazione selettiva.

Con il metodo statistico di osservazione è possibile utilizzare due metodi di osservazione: continua, che copre tutte le unità della popolazione, e selettiva (non continua).

Il metodo di campionamento è inteso come un metodo di ricerca associato alla definizione di indicatori generalizzanti della popolazione per alcune sue parti basati sul metodo della selezione casuale.

Con l'osservazione selettiva, una parte relativamente piccola dell'intera popolazione (5-10%) viene sottoposta a esame.

Viene chiamata la totalità da esaminare popolazione generale.

Viene chiamata la parte delle unità selezionate dalla popolazione generale che è oggetto di indagine popolazione campione o campione.

Indicatori che caratterizzano la popolazione generale e campionaria:

1) Condivisione di una caratteristica alternativa;

A popolazione la proporzione di unità che hanno qualche caratteristica alternativa è indicata dalla lettera "P".

A cornice di campionamento la proporzione di unità che hanno qualche attributo alternativo è indicata dalla lettera "w".

2) La dimensione media del segno;

A popolazione la dimensione media di una caratteristica è indicata da una lettera (media generale).

A cornice di campionamento la dimensione media di una caratteristica è indicata da una lettera (media campionaria).

Definizione di errore di campionamento.

L'osservazione selettiva si basa sul principio dell'uguale possibilità di inserire nel campione unità della popolazione generale. Ciò evita errori di osservazione sistematici. Tuttavia, a causa del fatto che la popolazione studiata è composta da unità con caratteristiche variabili, la composizione del campione può differire dalla composizione della popolazione generale, causando discrepanze tra le caratteristiche generali e campionarie.

Tali discrepanze sono chiamate errori di rappresentatività o errori di campionamento.

La determinazione dell'errore di campionamento è il compito principale da risolvere durante l'osservazione selettiva.

In statistica matematica, è dimostrato che l'errore medio di campionamento è determinato dalla formula:

Dove m è l'errore di campionamento;

s 2 0 è la varianza della popolazione generale;

n è il numero di unità campionarie.

In pratica, la varianza della popolazione campionaria s 2 viene utilizzata per determinare l'errore di campionamento medio.

Esiste un'uguaglianza tra la varianza generale e quella campionaria:

(2).

Si può vedere dalla formula (2) che la varianza generale è maggiore della varianza campionaria del valore (). Tuttavia, per una dimensione del campione sufficientemente ampia, questo rapporto è vicino all'unità, quindi possiamo scriverlo

Tuttavia, questa formula per determinare l'errore di campionamento medio è applicabile solo al ricampionamento.

In pratica, di solito viene utilizzato selezione non ripetitiva e l'errore di campionamento medio viene calcolato in modo leggermente diverso, poiché la dimensione del campione si riduce nel corso dello studio:

(4)

dove n è la dimensione del campione;

N è la dimensione della popolazione generale;

s 2 - varianza campionaria.

Per la proporzione di una caratteristica alternativa, l'errore di campionamento medio a nessuna riselezioneè determinato dalla formula:

(5), dove

w (1-w) - l'errore medio della quota campionaria dell'attributo alternativo;

w è la quota della caratteristica alternativa della popolazione campione.

In ri-selezione l'errore medio della quota di un attributo alternativo è determinato da una formula semplificata:

(6)

Se una la dimensione del campione non supera il 5%, l'errore medio della quota campionaria e della media campionaria è determinato dalle formule semplificate (3) e (6).

La determinazione dell'errore medio della media campionaria e della quota campionaria è necessaria per stabilire i possibili valori della media generale (x) e della quota generale (P) in base alla media campionaria (x) e alla quota campionaria (w).

Uno dei possibili valori entro cui si colloca la media generale è determinato dalla formula:

Per la quota generale, questo intervallo può essere scritto come :

(8)

Le caratteristiche della quota e della media così ottenuta nella popolazione generale differiscono dal valore della quota campionaria e dalla media campionaria per il valore m. Tuttavia, ciò non può essere garantito con assoluta certezza, ma solo con un certo grado di probabilità.

Nella statistica matematica, è dimostrato che i limiti dei valori delle caratteristiche della media generale e campionaria differiscono m solo con una probabilità di 0,683. Pertanto, solo in 683 casi su 1000 la media generale è all'interno x= x m x, negli altri casi, andrà oltre questi limiti.

La probabilità dei giudizi può essere aumentata ampliando i limiti delle deviazioni prendendo come misura l'errore medio di campionamento, aumentato di t volte.

Il fattore t è chiamato fattore di confidenza. È determinato in base al livello di confidenza con cui è necessario garantire i risultati dello studio.

Il matematico A.M. Lyapushev ha calcolato vari valori di t, che di solito sono indicati in tabelle già pronte.

Articoli recenti della sezione:

Continenti e continenti Posizione proposta dei continenti
Continenti e continenti Posizione proposta dei continenti

Continente (dal lat. continens, caso genitivo continentis) - un grande massiccio della crosta terrestre, una parte significativa della quale si trova sopra il livello ...

Aplogruppo E1b1b1a1 (Y-DNA) Aplogruppo e
Aplogruppo E1b1b1a1 (Y-DNA) Aplogruppo e

Il genere E1b1b1 (snp M35) unisce circa il 5% di tutti gli uomini sulla Terra e ha circa 700 generazioni a un antenato comune. Antenato del genere E1b1b1...

Medioevo (alto) classico
Medioevo (alto) classico

Firmato la Magna Carta - un documento che limita il potere reale e in seguito divenne uno dei principali atti costituzionali ...