Mejna napaka formule za povprečno vrednost. Povprečne in mejne napake vzorčenja

Za opredelitev zanesljivosti vzorčnih kazalnikov ločimo povprečne in mejne vzorčne napake, ki so značilne samo za vzorčna opazovanja. Ti kazalniki odražajo razliko med vzorčnimi in ustreznimi splošnimi kazalci.

Povprečna napaka vzorca je določen predvsem z velikostjo vzorca in je odvisen od strukture in stopnje variacije proučevane lastnosti.

Pomen povprečne vzorčne napake je naslednji. Izračunani vrednosti vzorčnega deleža (w) in vzorčnega povprečja () sta po svoji naravi naključni spremenljivki. Lahko imajo različne vrednosti, odvisno od tega, katere specifične enote splošne populacije sodijo v vzorec. Na primer, če je pri določanju povprečne starosti zaposlenih v podjetju v enem vzorcu vključenih več mladih, v drugem pa starejših delavcev, bodo vzorčne sredine in vzorčne napake drugačne. Povprečna napaka vzorčenja se določi s formulo:

(27) ali - ponovno vzorčenje. (28)

Kjer je: μ povprečna vzorčna napaka;

σ standardni odklon lastnosti v splošni populaciji;

n je velikost vzorca.

Vrednost napake μ kaže, kako se povprečna vrednost lastnosti, ugotovljena z vzorcem, razlikuje od prave vrednosti lastnosti v splošni populaciji.

Iz formule sledi, da je vzorčna napaka premo sorazmerna s standardnim odklonom in obratno sorazmerna s kvadratnim korenom števila enot v vzorcu. To na primer pomeni, da čim večja je razpršenost vrednosti značilnosti v splošni populaciji, torej večja kot je razpršenost, večji mora biti vzorec, če želimo zaupati rezultatom vzorčne raziskave. . Nasprotno pa se lahko z majhno varianco omejimo na majhno število vzorčnih populacij. Vzorčna napaka bo takrat v sprejemljivih mejah.

Ker se velikost generalne populacije N med vzorčenjem med neponovljenim izborom zmanjša, je v formulo za izračun povprečne vzorčne napake vključen dodaten faktor

(1-). Formula za srednjo vzorčno napako ima naslednjo obliko:

Povprečna napaka je manjša pri neponavljajočem se vzorčenju, zaradi česar se bolj uporablja.

Praktični zaključki zahtevajo karakterizacijo splošne populacije na podlagi rezultatov vzorcev. Vzorčna povprečja in razmerja se uporabijo za splošno populacijo, pri čemer se upošteva meja njihove možne napake in s stopnjo verjetnosti, ki to zagotavlja. Glede na določeno stopnjo verjetnosti se izbere vrednost normaliziranega odklona in določi mejna napaka vzorčenja.

Zanesljivost (verjetnost zaupanja) ocene X po X* imenovana verjetnost γ , s katerim neenakost

׀Х-Х*׀< δ, (30)

kjer je δ mejna vzorčna napaka, ki označuje širino intervala, v katerem je vrednost proučevanega parametra splošne populacije najdena z verjetnostjo γ.

Zaupanja vreden poimenujte interval (X* - δ; X* + δ), ki pokriva preiskovani parameter X (to pomeni, da je vrednost parametra X znotraj tega intervala) z dano zanesljivostjo γ.

Običajno je zanesljivost ocene določena vnaprej, število blizu ena pa se vzame kot γ: 0,95; 0,99 ali 0,999.

Omejitveni pogrešek δ je povezan s povprečnim pogreškom μ takole: , (31)

kjer je: t faktor zaupanja, odvisen od verjetnosti P, s katerim je mogoče trditi, da mejna napaka δ ne bo presegla t-kratne povprečne napake μ (imenuje se tudi kritične točke ali kvantili Studentove porazdelitve).

Kot izhaja iz razmerja, je mejna napaka premosorazmerna s povprečno vzorčno napako in koeficientom zaupanja, ki je odvisen od dane stopnje zanesljivosti ocene.

Iz formule za povprečno vzorčno napako ter razmerja med mejno in povprečno napako dobimo:

Ob upoštevanju verjetnosti zaupanja bo ta formula prevzela obliko.

Kot je znano, v statistiki obstajata dva načina opazovanja množičnih pojavov, odvisno od popolnosti pokritosti predmeta: neprekinjeno in neprekinjeno. Različica diskontinuiranega opazovanja je selektivno opazovanje.

Spodaj selektivno opazovanje razumemo kot nekontinuirano opazovanje, pri katerem so enote proučevane populacije, naključno izbrane, podvržene statističnemu pregledu (opazovanju).

Selektivno opazovanje si zada nalogo, da označi celotno populacijo enot za preiskovani del ob upoštevanju vseh pravil in načel statističnega opazovanja in znanstveno organiziranega dela pri izboru enot.

Nabor enot, izbranih za raziskovanje v statistiki, se običajno imenuje vzorčna populacija , in pokliče se nabor enot, iz katerih poteka izbor splošna populacija . Glavne značilnosti generalne in vzorčne populacije so predstavljene v tabeli 1.

Tabela 1 - Glavne značilnosti generalne in vzorčne populacije

Kazalo	Oznaka ali formula
Kazalo	Prebivalstvo	Vzorčna populacija
Število enot	n	n
Število enot, ki imajo funkcijo	M	m
Delež enot s to funkcijo	p = M/N	ω = m/n
Delež enot, ki nimajo te lastnosti	q = 1 - str	1 - š
*Povprečna vrednost* znak
*Razpršenost* znak
Razpršenost alternativne lastnosti (razpršenost deleža)	pq	ω (1 - ω)

Pri izvajanju selektivnega opazovanja se pojavljajo sistematične in naključne napake. Sistematske napake nastanejo zaradi kršenja pravil za izbiro enot v vzorcu. S spremembo izbirnih pravil lahko takšne napake odpravimo.

Naključne napake nastanejo zaradi diskontinuirane narave raziskave. V nasprotnem primeru jih imenujemo napake reprezentativnosti (reprezentativnosti). Naključne napake delimo na povprečne in mejne vzorčne napake, ki jih ugotavljamo tako pri izračunu značilnosti kot pri izračunu deleža.

Povprečna in mejna napaka sta povezani z naslednjim razmerjem :Δ = tμ, kjer je Δ mejna vzorčna napaka, μ povprečna vzorčna napaka, t faktor zaupanja, določen glede na stopnjo verjetnosti. Tabela 2 prikazuje nekatere vrednosti t, vzete iz teorije verjetnosti.

Vrednost povprečne vzorčne napake se izračuna diferencialno glede na način izbire in postopek vzorčenja. Glavne formule za izračun vzorčnih napak so predstavljene v tabeli 3.

Tabela 3 - Osnovne formule za izračun vzorčnih napak pri ponavljajočem in neponovljenem izboru

Kazalo	Oznaka in formula
Kazalo	Prebivalstvo	Vzorčna populacija
Povprečna napaka funkcije za naključno ponovno vzorčenje
Napaka povprečnega deleža za naključno ponovno vzorčenje
Omejitev napake funkcije v primeru naključne ponovne izbire
Napaka mejnega deleža pri naključnem ponovnem izboru
Povprečna napaka funkcije za naključno neponavljajočo se izbiro
Napaka povprečnega deleža pri naključnem neponovljivem vzorčenju
Omejitev napake funkcije z naključno neponavljajočo se izbiro
Napaka mejnega deleža za naključno neponavljajočo se izbiro

Izračun povprečne in mejne vzorčne napake vam omogoča, da določite možne meje, v katerih bodo značilnosti splošne populacije .

Na primer, za vzorčno povprečje so takšne meje določene na podlagi naslednjih razmerij:

Meje deleža lastnosti v splošni populaciji str.

Primeri reševanja problemov na temo "Opazovanje vzorčenja v statistiki"

Naloga 1 . Obstajajo podatki o proizvodnji izdelkov (del, storitev), pridobljeni na podlagi 10% vzorčnega opazovanja podjetij v regiji:

Določite: 1) za podjetja, vključena v vzorec: a) povprečno velikost proizvodnje na podjetje; b) razpršenost obsega proizvodnje; c) delež podjetij z obsegom proizvodnje nad 400 tisoč rubljev; 2) za regijo kot celoto z verjetnostjo 0,954 meje, v katerih lahko pričakujemo: a) povprečni obseg proizvodnje na podjetje; b) delež podjetij z obsegom proizvodnje nad 400 tisoč rubljev; 3) skupni obseg proizvodnje v regiji.

Odločitev

Za rešitev težave razširimo predlagano tabelo.

1) Za podjetja, vključena v vzorec, povprečna velikost proizvodnje na podjetje

110800/400 = 277 tisoč rubljev

Razpršenost obsega proizvodnje izračunamo poenostavljeno σ 2 = 35640000/400 - 277 2 = 89100 - 76229 = 12371.

Število podjetij, katerih obseg proizvodnje presega 400 tisoč rubljev. je 36+12 = 48, njihov delež pa je enak ω = 48:400 = 0,12 = 12 %.

2) Iz teorije verjetnosti je znano, da je pri verjetnosti P=0,954 faktor zaupanja t=2. Mejna napaka vzorčenja

2√12371:400 = 11,12 tisoč rubljev

Postavimo meje generalne havarije: 277-11,12 ≤Xav ≤ 277+11,12; 265,88 ≤Xav ≤ 288,12

Mejna vzorčna napaka deleža podjetij

2√0,12*0,88/400 = 0,03

Določimo meje splošnega deleža: 0,12-0,03≤ p ≤0,12+0,03; 0,09≤ p≤0,15

3) Ker obravnavana skupina podjetij predstavlja 10 % celotnega števila podjetij v regiji, je v celotni regiji 4.000 podjetij. Potem je skupni obseg proizvodnje v regiji znotraj 265,88×4000≤Q≤288,12×4000; 1063520 ≤ Q ≤ 1152480

Naloga 2 . Po rezultatih kontrolnega pregleda davčnih organov 400 poslovnih struktur jih 140 v davčnih napovedih ne navede v celoti dohodkov, ki so predmet obdavčitve. V splošni populaciji (za celotno regijo) določite delež poslovnih struktur, ki so prikrile del davčnih prihodkov z verjetnostjo 0,954.

Odločitev

Glede na pogoj problema je število enot v vzorčni populaciji n=400, število enot z obravnavano lastnostjo m=140, verjetnost P=0,954.

Iz teorije verjetnosti je znano, da je pri verjetnosti P=0,954 faktor zaupanja t=2.

Delež enot, ki imajo naveden atribut, se določi po formuli: p=w+∆p, kjer je w = m/n=140/400=0,35=35%,
mejni pogrešek lastnosti ∆p pa dobimo iz formule: ∆p= t √w(1-w)/n = 2√0,35×0,65/400 ≈ 0,5 = 5%

Potem je p = 35±5%.

Odgovori : Delež poslovnih struktur, ki so prikrile del davčnih prihodkov z verjetnostjo 0,954 je 35±5 %.

Koncept selektivnega opazovanja.

Selektivno imenujemo takšno opazovanje, pri katerem je značilnost celotne množice enot podana glede na nekatere njihove dele, izbrane v naključnem vrstnem redu.

Razlogi za uporabo selektivnega opazovanja:

1. Prihranek materiala, dela, finančnih sredstev in časa.

2. Izbrano opazovanje pogosto vodi do povečanja točnosti podatkov, saj zmanjšanje števila opazovalnih enot močno zmanjša napake pri beleženju vrednosti znaka (tiskarske napake, premalo štetje, dvojno štetje ...).

3. Selektivno opazovanje je možno le, če opazovanje spremlja popolna ali delna poškodba opazovanih objektov (kakovost serij jajčec, trdnost tkiva itd.).

Običajno imenujemo tisti del enot, ki so izbrani za opazovanje vzorčna populacija ali preprosto vzorčenje, in celoten niz enot, iz katerih je narejen izbor - splošna populacija.

Sprejet je bil naslednji sistem označevanja indikatorjev za izbrano in splošno populacijo.

Glede na uporabo izbirne tehnike je vzorec razdeljen na serijski (gnezdeni) in tipološki.

· Kdaj tipološke vzorčenja se generalna populacija razdeli na tipe (skupine, okoliše), nato pa se izvede naključni izbor enot iz vsakega tipa.

· Pri serijski vzorec ni izbran po enotah, temveč po določenih serijah, skupinah, območjih, znotraj katerih se izvaja stalno opazovanje.

Enote v vzorcu lahko izberete na dva načina:

- ponovna izbira

vsaka enota v vzorcu se vrne splošni populaciji in ima možnost ponovnega vzorčenja.

- izbor brez ponavljanja

izbrana enota se ne vrne v populacijo, preostale enote pa bodo bolj verjetno vključene v vzorec. Neponavljajoče vzorčenje daje natančnejše rezultate, vendar včasih ni izvedljivo (raziskava povpraševanja potrošnikov).

Kakovost rezultatov vzorčenja je odvisna od tega, v kolikšni meri sestava vzorca predstavlja splošno populacijo, z drugimi besedami, od tega, koliko vzorec predstavnik(zastopnik). Za zagotovitev reprezentativnosti vzorca je potrebno upoštevati načelo naključnega izbora enot.

Napaka vzorčenja

Pojem in vrste vzorčnih napak

Ker preučevano statistično populacijo sestavljajo enote z različnimi značilnostmi, se lahko sestava vzorčne populacije do neke mere razlikuje od sestave splošne populacije.

Neskladje med značilnostmi vzorca in splošne populacije je napaka vzorčenja.

Vrste vzorčnih napak

Glavna naloga metode vzorčenja je preučevanje naključnih napak reprezentativnosti.

Povprečna napaka vzorčenja

Naključna napaka reprezentativnosti je odvisna od naslednjih dejstev (predpostavlja se, da napak pri registraciji ni):

1. Večja kot je velikost vzorca, ceteris paribus, manjša je vzorčna napaka, tj. vzorčna napaka je obratno sorazmerna z njegovo velikostjo.

2. Manjša kot je variacija atributa, manjša je napaka vzorčenja. Če se predznak sploh ne spreminja in je posledično varianca enaka nič, potem vzorčne napake ne bo, ker vsaka enota populacije bo na tej podlagi natančno označila celotno populacijo. Tako je vzorčna napaka neposredno sorazmerna z velikostjo variance.

V matematični statistiki je dokazano, da je vrednost povprečne napake naključnega ponovnega vzorčenja mogoče določiti s formulo

Vendar je treba upoštevati, da je obseg disperzije v splošni populaciji s2 ne vemo, ker selektivno opazovanje. Izračunamo lahko le varianco v vzorčni populaciji S2. Razmerje med variancami generalne in vzorčne populacije je izraženo s formulo:

(6.2)

če n velik, torej

s2 = S2

In formula za povprečno napako ponovnega vzorčenja (6.1.) bo imela obliko:

Toda tu smo upoštevali samo napako vzorčenja za srednjo vrednost zanimive značilnosti. Obstaja tudi indikator deleža enot z zanimivo lastnostjo. Izračun napake tega indikatorja ima svoje značilnosti.

Varianca za kazalnik značilnega deleža se določi po formuli:

S 2 \u003d w (1-w) (6.4)

Potem bo povprečna vzorčna napaka za mero deleža lastnosti enaka:

(6.5)

Dokaz formul (6.3) in (6.5) se začne s shemo ponovnega vzorčenja. Običajno je vzorec organiziran tako, da se ne ponavlja. Ker z neponavljajočo selekcijo velikost splošne populacije n je v kodi vzorčenja skrajšan, potem je dodaten faktor vključen v formule za napako vzorčenja , in formule imajo obliko:

(6.6)

(6.7)

Primer 1. Ugotovimo, koliko se vzorčni in splošni kazalniki razlikujejo glede na podatke 10-odstotnega neponovljenega vzorca uspešnosti učencev.

Izračun napake zaradi neponovnega vzorčenja za povprečje:

n= 100 n= 1000

Poiščite vzorčno varianco z uporabo formule:

Tukaj vrednost ni znana, kar je mogoče najti kot običajno tehtano povprečje:

V to smer,

Tisti. lahko rečemo, da je povprečna ocena vseh študentov () 3,65 ± 0,07

Zdaj pa izračunajmo delež študentov v splošni populaciji, ki študirajo za "4" in "5".

Na podlagi vzorca bomo ugotovili delež dijakov, ki so prejeli ocene 4 in 5.

(ali 64%)

Izračun napake neponovnega vzorčenja za delež se izvede po formuli:

(ali 4,5%)

Tako je delež študentov, vpisanih v "4" in "5" v splošni populaciji ( p) je 0,64 ± 0,045 (ali 64 % ± 4,5 %).

Mejna napaka vzorčenja

Da skupna havarija in skupni delež ne bosta presegla določenih meja, je mogoče trditi ne z absolutno gotovostjo, ampak le z določeno stopnjo verjetnosti.

V matematični statistiki je dokazano, da splošne značilnosti odstopajo od vzorčnih za višino vzorčne napake (± m), samo z verjetnostjo 0,683. Kar zadeva vzorčne študije, to pomeni, da je mogoče vrednosti omejitev zagotoviti samo v 683 primerih od 1000. V preostalih 317 primerih bodo vrednosti teh omejitev drugačne.

Verjetnost presoje se lahko poveča z razširitvijo meja odstopanja tako, da se kot merilo vzame povprečna napaka vzorčenja, povečana za t enkrat.

Tisti. z določeno stopnjo verjetnosti lahko trdimo, da odstopanja vzorčnih karakteristik od splošnih ne bodo presegla določene vrednosti, ki jo imenujemo mejna vzorčna napaka D (delta):

kje t– faktor zaupanja (faktor večkratnosti napak), določen glede na stopnjo zaupanja, s katero je treba zagotoviti rezultate vzorčne študije.

V praksi se uporabljajo tabele, kjer se izračunajo verjetnosti za različne vrednosti t. Oglejmo si jih nekaj.

t	Verjetnost	t	Verjetnost
0,5	0,383	2,0	0,954
1,0	0,683	2,5	0,988
1,5	0,866	3,0	0,997

Na primer, če želimo v našem primeru povečati verjetnost presoje na 0,954, potem vzamemo t= 2 in s tem spreminjajo meje odstopanj povprečne ocene vseh učencev in deleža vpisanih v »4« in »5«.

To je (6,9)

To je (6.10)

Med selektivnim opazovanjem je treba zagotoviti nesreča izbor enote. Vsaka enota mora imeti enake možnosti, da je izbrana kot druge. Na tem temelji naključno vzorčenje.

Za pravilen naključni vzorec se nanaša na izbor enot iz celotne splošne populacije (brez predhodne razdelitve v katere koli skupine) z žrebom (večinoma) ali na kak drug podoben način, na primer z uporabo tabele naključnih števil. Naključna izbira Ta izbor ni naključen. Načelo naključnosti nakazuje, da na vključitev ali izključitev predmeta iz vzorca ne more vplivati noben drug dejavnik kot naključje. Primer pravzaprav naključno izbira lahko služi kot kroženje dobitkov: iz skupnega števila izdanih listkov se naključno izbere določen del številk, ki predstavljajo dobitke. Poleg tega imajo vse številke enake možnosti za vstop v vzorec. V tem primeru se število izbranih enot v vzorčnem nizu običajno določi na podlagi sprejetega deleža vzorca.

Vzorčni delež je razmerje med številom enot vzorčne populacije in številom enot generalne populacije:

Torej, s 5% vzorcem iz serije delov v 1000 enotah. Velikost vzorca p je 50 enot, z 10% vzorcem pa 100 enot. itd. S pravilno znanstveno organizacijo vzorčenja lahko napake reprezentativnosti zmanjšamo na minimalne vrednosti, posledično postane selektivno opazovanje dovolj natančno.

Pravilna naključna selekcija »v svoji čisti obliki« se v praksi selektivnega opazovanja redko uporablja, je pa izhodišče med vsemi drugimi vrstami selekcije, vsebuje in uresničuje osnovne principe selektivnega opazovanja.

Razmislimo o nekaterih vprašanjih teorije metode vzorčenja in formule napake za preprost naključni vzorec.

Pri uporabi metode vzorčenja v statistiki se običajno uporabljata dve glavni vrsti generalizirajočih kazalnikov: povprečna vrednost kvantitativne lastnosti in relativno vrednost alternativne lastnosti(delež oz. delež enot v statistični populaciji, ki se od vseh drugih enot te populacije razlikujejo le po prisotnosti lastnosti, ki jo proučujemo).

Vzorčni delež (w), ali frekvenca, je določena z razmerjem števila enot, ki imajo preučevano značilnost t, na skupno število vzorčnih enot P:

Na primer, če od 100 vzorčnih podrobnosti ( n=100), se je izkazalo, da je 95 delov standardnih (t=95), nato frakcija vzorca

w=95/100=0,95 .

Za opredelitev zanesljivosti vzorčnih kazalnikov obstajajo sredina in mejna napaka vzorčenja.

Napaka vzorčenja ? ali z drugimi besedami, napaka reprezentativnosti je razlika med ustreznim vzorcem in splošnimi značilnostmi:

Vzorčna napaka je značilna samo za selektivna opazovanja. Večja kot je vrednost te napake, bolj se vzorčni kazalniki razlikujejo od ustreznih splošnih kazalcev.

Vzorčno povprečje in vzorčni delež sta inherentna naključne spremenljivke, ki lahko zavzamejo različne vrednosti glede na to, katere enote populacije so bile vključene v vzorec. Zato so tudi vzorčne napake naključne spremenljivke in lahko zavzamejo različne vrednosti. Zato določite povprečje možnih napak – povprečno napako vzorca.

Od česa je odvisno povprečna napaka vzorčenja? Po načelu naključnega izbora se primarno določi povprečna vzorčna napaka Velikost vzorca: večja kot je populacija, ceteris paribus, manjša je povprečna vzorčna napaka. Z vzorčnim raziskovanjem z vedno večjim številom enot generalne populacije vse bolj natančno karakteriziramo celotno populacijo.

Povprečna vzorčna napaka je odvisna tudi od stopnja variacije preučevana lastnost. Za stopnjo variacije, kot veste, je značilna razpršenost? 2 oz w(1-w)-- za alternativno funkcijo. Manjša ko je variacija značilnosti in s tem varianca, manjša je povprečna napaka vzorčenja in obratno. Z ničelno disperzijo (atribut se ne spreminja) je povprečna vzorčna napaka enaka nič, kar pomeni, da bo katera koli enota splošne populacije natančno označila celotno populacijo glede na ta atribut.

Odvisnost povprečne vzorčne napake od njegovega obsega in stopnje variacije atributa se odraža v formulah, ki jih je mogoče uporabiti za izračun povprečne vzorčne napake v pogojih opazovanja vzorca, ko splošne značilnosti ( x, p) so neznane, zato ni mogoče ugotoviti prave vzorčne napake neposredno iz formul (form. 1), (form. 2).

W Z naključno izbiro povprečne napake teoretično izračunano po naslednjih formulah:

* za povprečno kvantitativno lastnost

* za delež (alternativna lastnost)

Ker je praktično varianca atributa v splošni populaciji? 2 ni natančno znana, v praksi uporabljajo vrednost variance S 2, izračunano za vzorčno populacijo na podlagi zakona velikih števil, po katerem vzorčna populacija z dovolj veliko velikostjo vzorca natančno reproducira značilnosti splošna populacija.

V to smer, formule za izračun sredina vzorčne napake naključno ponovno vzorčenje bo naslednje:

* za povprečno kvantitativno lastnost

* za delež (alternativna lastnost)

Vendar pa varianca vzorčne populacije ni enaka varianci generalne populacije, zato bodo povprečne vzorčne napake, izračunane s formulama (form. 5) in (form. 6), približne. Toda v teoriji verjetnosti je dokazano, da je splošna varianca izražena skozi izbirno z naslednjim razmerjem:

Kot P/(n-1) za dovolj velike P -- vrednost blizu enote, se lahko domneva, da se lahko pri praktičnih izračunih povprečnih vzorčnih napak uporabita formuli (oblika 5) in (oblika 6). In samo v primerih majhnega vzorca (ko velikost vzorca ne presega 30) je treba upoštevati koeficient p/(n-1) in izračunajte majhna vzorčna povprečna napaka po formuli:

W X Z naključno izbiro, ki se ne ponavlja v zgornjih formulah za izračun povprečnih vzorčnih napak je treba korenski izraz pomnožiti z 1-(n / N), saj se v procesu neponovljivega vzorčenja število enot v splošni populaciji zmanjša. Zato za neponovljiv izbor formule za izračun povprečna napaka vzorčenja bo imela naslednjo obliko:

* za povprečno kvantitativno lastnost

* za delež (alternativna lastnost)

. (obrazec 10)

Kot p vedno manj n, potem dodatni faktor 1-( n/n) bo vedno manj kot ena. Iz tega sledi, da bo povprečna napaka pri neponovljivem izboru vedno manjša kot pri ponovljenem izboru. Hkrati je pri relativno majhnem odstotku vzorca ta faktor blizu ena (na primer pri 5% vzorcu je 0,95; pri 2% vzorcu je 0,98 itd.). Zato se včasih v praksi uporabljajo formule (obrazci 5) in (obrazci 6) za določanje povprečne vzorčne napake brez navedenega množitelja, čeprav je vzorec organiziran kot neponovljiv. To se zgodi, ko je število enot splošne populacije N neznano ali neomejeno ali ko p zelo malo v primerjavi z n, in v bistvu uvedba dodatnega faktorja, blizu vrednosti ena, praktično ne bo vplivala na vrednost povprečne vzorčne napake.

Mehansko vzorčenje je v tem, da se izbor enot v vzorec iz splošnega, razdeljenega po nevtralnem kriteriju na enake intervale (skupine), izvede tako, da se iz vsake take skupine v vzorcu izbere samo ena enota. Da bi se izognili sistematični napaki, je treba izbrati enoto, ki je v sredini vsake skupine.

Pri organiziranju mehanske selekcije so enote populacije vnaprej urejene (običajno na seznamu) v določenem vrstnem redu (na primer po abecedi, po lokaciji, v naraščajočem ali padajočem vrstnem redu vrednosti katerega koli indikatorja, ki ni povezan s preučevano lastnostjo itd.) itd.), nakar se mehansko v določenem intervalu izbere določeno število enot. V tem primeru je velikost intervala v generalni populaciji enaka recipročni vrednosti vzorčnega deleža. Torej, pri 2-odstotnem vzorcu se izbere in preveri vsaka 50. enota (1: 0,02), pri 5-odstotnem vzorcu vsaka 20. enota (1: 0,05), na primer padajoči detajl iz stroja.

Pri dovolj veliki populaciji je mehanski izbor v smislu točnosti rezultatov blizu prave naključnosti. Zato se za določitev povprečne napake mehanskega vzorca uporabljajo formule za samonaključno neponavljajoče se vzorčenje (form. 9), (form. 10).

Za izbor enot iz heterogene populacije, t.i tipični vzorec , ki se uporablja v primerih, ko lahko vse enote splošne populacije razdelimo na več kvalitativno homogenih, podobnih skupin glede na značilnosti, ki vplivajo na proučevane kazalnike.

Pri anketiranju podjetij so lahko take skupine na primer panoge in podsektorji, oblike lastnine. Nato se iz vsake tipične skupine z naključnim ali mehanskim vzorcem izvede posamezen izbor enot v vzorec.

Tipičen vzorec se običajno uporablja pri preučevanju kompleksnih statističnih populacij. Na primer, v vzorčnem raziskovanju družinskih proračunov delavcev in uslužbencev v določenih sektorjih gospodarstva, produktivnost dela delavcev v podjetju, predstavljena z ločenimi skupinami spretnosti.

Tipičen vzorec daje natančnejše rezultate v primerjavi z drugimi metodami izbire enot v vzorčnem nizu. Tipizacija generalne populacije zagotavlja reprezentativnost takega vzorca, zastopanost vsake tipološke skupine v njem, kar omogoča izključitev vpliva medskupinske razpršenosti na povprečno vzorčno napako.

Pri določanju povprečna napaka tipičnega vzorca kot indikator variacije je povprečje znotrajskupinskih varianc.

Povprečna vzorčna napaka najdemo po formulah:

* za povprečno kvantitativno lastnost

(ponovna izbira); (obrazec 11)

(nepovratna izbira); (obrazec 12)

* za delež (alternativna lastnost)

(ponovna izbira); (form.13)

(neponavljajoč izbor), (obraz. 14)

kjer je povprečje varianc znotraj skupine za vzorčno populacijo;

Povprečje znotrajskupinskih varianc deleža (alternativne lastnosti) v vzorčni populaciji.

serijsko vzorčenje vključuje naključno izbiro iz splošne populacije ne posameznih enot, temveč njihovih enakih skupin (gnezd, serij), da bi vse enote brez izjeme podvrgli opazovanju v takih skupinah.

Uporaba serijskega vzorčenja je posledica dejstva, da je veliko blaga za njihov prevoz, skladiščenje in prodajo pakirano v pakete, škatle itd. Zato je pri nadzoru kakovosti pakiranega blaga bolj smiselno preveriti več paketov (serij), kot pa izbrati zahtevano količino blaga iz vseh paketov.

Ker so znotraj skupin (serij) pregledane vse enote brez izjeme, je povprečna vzorčna napaka (pri izbiri enakih serij) odvisna le od medskupinske (medserijske) variance.

W Povprečna vzorčna napaka za povprečno oceno med serijsko izbiro jih najdemo po formulah:

(ponovna izbira); (form.15)

(neponavljajoč izbor), (obraz. 16)

kje r-število izbranih serij; R- skupno število epizod.

Medskupinska varianca serijskega vzorca se izračuna na naslednji način:

kje je povprečje jaz- th serija; - splošno povprečje za celotno vzorčno populacijo.

W Povprečna napaka vzorčenja za delež (alternativna funkcija) v serijski izbiri:

(ponovna izbira); (obrazec 17)

(izbor brez ponavljanja). (obrazec 18)

Medskupina(med serijami) varianca deleža serijskega vzorca določeno s formulo:

, (obrazec 19)

kje je delež funkcije v jaz th serija; - skupni delež lastnosti v celotnem vzorcu.

V praksi statističnih raziskovanj se poleg prej obravnavanih izbirnih metod uporablja tudi njihova kombinacija (kombinirani izbor).

Koncept selektivnega opazovanja.

Pri statistični metodi opazovanja je možno uporabiti dva načina opazovanja: kontinuirano, ki zajema vse enote populacije, in selektivno (nekontinuirano).

Metoda vzorčenja se razume kot raziskovalna metoda, povezana z določitvijo splošnih kazalcev populacije za nekatere njene dele na podlagi metode naključnega izbora.

Pri selektivnem opazovanju je pregledan razmeroma majhen del celotne populacije (5-10%).

Celota, ki jo je treba pregledati, se imenuje splošna populacija.

Del enot, izbranih iz generalne populacije, ki je predmet anketiranja, se imenuje vzorčna populacija ali vzorec.

Kazalniki, ki označujejo splošno in vzorčno populacijo:

1) delež alternativne funkcije;

AT prebivalstvo delež enot, ki imajo neko alternativno lastnost, je označen s črko "P".

AT vzorčni okvir delež enot, ki imajo nek alternativni atribut, je označen s črko "w".

2) povprečna velikost znaka;

AT prebivalstvo povprečna velikost lastnosti je označena s črko (splošno povprečje).

AT vzorčni okvir povprečna velikost značilnosti je označena s črko (vzorčno povprečje).

Opredelitev napake vzorčenja.

Selektivno opazovanje temelji na načelu enake možnosti uvrstitve enot generalne populacije v vzorec. S tem se izognemo sistematičnim napakam pri opazovanju. Ker pa proučevano populacijo sestavljajo enote z različnimi značilnostmi, se lahko sestava vzorca razlikuje od sestave generalne populacije, kar povzroča neskladja med splošnimi in vzorčnimi značilnostmi.

Takšna odstopanja imenujemo napake reprezentativnosti ali napake vzorčenja.

Določitev vzorčne napake je glavna naloga, ki jo je treba rešiti med selektivnim opazovanjem.

V matematični statistiki je dokazano, da je povprečna vzorčna napaka določena s formulo:

kjer je m napaka vzorčenja;

s 2 0 je varianca splošne populacije;

n je število vzorčnih enot.

V praksi se za določitev povprečne vzorčne napake uporablja varianca vzorčne populacije s 2.

Med generalno in vzorčno varianco obstaja enakost:

(2).

Iz formule (2) je razvidno, da je splošna varianca večja od vzorčne variance za vrednost (). Vendar pa je za dovolj veliko velikost vzorca to razmerje blizu enote, tako da lahko to zapišemo

Vendar je ta formula za določanje povprečne napake vzorčenja uporabna samo za ponovno vzorčenje.

V praksi se običajno uporablja izbor brez ponavljanja povprečna vzorčna napaka pa se izračuna nekoliko drugače, saj se velikost vzorca tekom študije zmanjšuje:

(4)

kjer je n velikost vzorca;

N je velikost splošne populacije;

s 2 - vzorčna varianca.

Za delež alternativne značilnosti je povprečna napaka vzorčenja pri brez ponovne izbire se določi s formulo:

(5), kjer

w (1-w) - povprečna napaka vzorčnega deleža alternativnega atributa;

w je delež alternativne značilnosti vzorčne populacije.

pri ponovni izbor povprečna napaka deleža alternativne lastnosti se določi s poenostavljeno formulo:

(6)

če velikost vzorca ne presega 5%, povprečna napaka vzorčnega deleža in vzorčne sredine je določena s poenostavljenima formulama (3) in (6).

Določitev povprečne napake vzorčnega povprečja in vzorčnega deleža je potrebna za določitev možnih vrednosti splošnega povprečja (x) in generalnega deleža (P) na podlagi vzorčnega povprečja (x) in vzorčnega deleža (w).

Ena od možnih vrednosti, znotraj katere se nahaja splošno povprečje, je določena s formulo:

Za splošni delež lahko ta interval zapišemo kot :

(8)

Značilnosti tako dobljenega deleža in povprečja v splošni populaciji se od vrednosti vzorčnega deleža in vzorčnega povprečja razlikujejo za vrednost m. Vendar tega ni mogoče zagotoviti s popolno gotovostjo, ampak le z določeno stopnjo verjetnosti.

V matematični statistiki je dokazano, da se meje vrednosti značilnosti splošne in vzorčne sredine razlikujejo za m samo z verjetnostjo 0,683. Zato je le v 683 primerih od 1000 splošno povprečje znotraj x= x m x, v drugih primerih bo presegel te meje.

Verjetnost presoje lahko povečamo tako, da razširimo meje odstopanj tako, da za merilo vzamemo povprečno vzorčno napako, povečano za t-krat.

Faktor t se imenuje faktor zaupanja. Določi se glede na stopnjo zaupanja, s katero je treba zagotoviti rezultate študije.

Matematik A.M. Lyapushev je izračunal različne vrednosti t, ki so običajno podane v že pripravljenih tabelah.