Iskrivljenost i kurtozis distribucije slučajne varijable. Izračunavanje koeficijenta i kurtozisa empirijske distribucije u Excelu Koeficijent kurtoze normalne distribucije

Koeficijent asimetrije pokazuje "iskrivljenost" serije distribucije u odnosu na centar:

gdje je centralni moment trećeg reda;

– kocka standardne devijacije.

Za ovu metodu izračuna: ako je distribucija desnostrana (pozitivna asimetrija), ako je distribucija lijevo (negativna asimetrija)

Osim centralnog momenta, asimetrija se može izračunati pomoću modusa ili medijane:

ili , (6.69)

Za ovu metodu proračuna: ako je distribucija desnostrana (pozitivna asimetrija), ako je distribucija lijevo (negativna asimetrija) (slika 4).


Rice. 4. Asimetrične distribucije

Poziva se vrijednost koja pokazuje „strminu“ distribucije koeficijent ekscesa:

Ako , u distribuciji postoji poentiranost – eksces je pozitivan ako se u distribuciji uočava ravnost – eksces je negativan (slika 5).

Rice. 5. Distribucijski eksces

Primjer 5. Postoje podaci o broju ovaca na farmama u regionu (Tabela 9).

1. Prosječan broj ovaca po farmi.

3. Medijan.

4. Indikatori varijacije

· disperzija;

· standardna devijacija;

· koeficijent varijacije.

5. Indikatori asimetrije i ekscesa.

Rješenje.

1. Pošto se vrijednost opcija u agregatu ponavlja nekoliko puta, sa određenom učestalošću za izračunavanje prosječne vrijednosti koristimo formulu ponderiranog aritmetičkog prosjeka:

2. Ova serija je diskretna, tako da će mod biti opcija sa najvećom frekvencijom - .

3. Ovaj niz je paran, u ovom slučaju medijana za diskretni niz se nalazi pomoću formule:

Odnosno, polovina farmi u ispitivanoj populaciji ima do 4,75 hiljada grla ovaca. a polovina je iznad ovog broja.

4. Da bismo izračunali indikatore varijacije, sastavit ćemo tabelu 10, u kojoj ćemo izračunati odstupanja, kvadrate ovih odstupanja, izračun se može izvršiti pomoću jednostavnih i ponderiranih formula za izračunavanje (u primjeru koristimo jednostavnu jedan):

Tabela 10

2,00 -2,42 5,84
2,50 -1,92 3,67
2,50 -1,92 3,67
3,00 -1,42 2,01
3,00 -1,42 2,01
4,00 -0,42 0,17
5,50 1,08 1,17
5,50 1,08 1,17
5,50 1,08 1,17
6,00 1,58 2,51
6,50 2,08 4,34
7,00 2,58 6,67
Ukupno 53,00 0,00 34,42
Prosjek 4,4167

Izračunajmo varijansu:

Izračunajmo standardnu ​​devijaciju:

Izračunajmo koeficijent varijacije:

5. Da bismo izračunali indikatore asimetrije i ekscesa, napravićemo tabelu 11, u kojoj ćemo izračunati , ,

Tabela 11

2,00 -2,42 -14,11 34,11
2,50 -1,92 -7,04 13,50
2,50 -1,92 -7,04 13,50
3,00 -1,42 -2,84 4,03
3,00 -1,42 -2,84 4,03
4,00 -0,42 -0,07 0,03
5,50 1,08 1,27 1,38
5,50 1,08 1,27 1,38
5,50 1,08 1,27 1,38
6,00 1,58 3,97 6,28
6,50 2,08 9,04 18,84
7,00 2,58 17,24 44,53
Ukupno 53,00 0,00 0,11 142,98
Prosjek 4,4167

Iskrivljenost distribucije je:

To jest, uočava se asimetrija s lijeve strane, budući da , što se potvrđuje kada se izračuna pomoću formule:

U ovom slučaju, što za ovu formulu također ukazuje na lijevu asimetriju

Kurtozis distribucije je:

U našem slučaju, eksces je negativan, odnosno uočava se ravnost.

Primjer 6. Podaci o platama radnika prikazani su za domaćinstvo (tabela 12)

Rješenje.

Za niz intervalnih varijacija, mod se izračunava pomoću formule:

Gdje modalni interval – interval sa najvećom frekvencijom, u našem slučaju 3600-3800, sa frekvencijom

Minimalno ograničenje modalnog intervala (3600);

Vrijednost modalnog intervala (200);

Frekvencija intervala koja prethodi modalnom intervalu (25);

Učestalost praćenja modalnog intervala (29);

Frekvencija modalnog intervala (68).

Tabela 12

Za niz intervalnih varijacija, medijana se izračunava pomoću formule:

Gdje srednji interval ovo je interval čija je kumulativna (akumulirana) frekvencija jednaka ili veća od polovine zbira frekvencija, u našem primjeru je 3600-3800.

Minimalna granica srednjeg intervala (3600);

Vrijednost srednjeg intervala (200);

Zbir frekvencija serije (154);

Zbir akumuliranih frekvencija svih intervala koji prethode medijani (57);

– frekvencija srednjeg intervala (68).

Primjer 7. Za tri farme u jednom okrugu postoje podaci o kapitalnom intenzitetu proizvodnje (iznos troškova fiksnog kapitala po 1 rublji proizvedenih proizvoda): I – 1,29 rubalja, II – 1,32 rubalja, III – 1,27 rubalja. Potrebno je izračunati prosječan kapitalni intenzitet.

Rješenje. Budući da je kapitalni intenzitet inverzni pokazatelj obrta kapitala, koristimo jednostavnu formulu harmonijskog prosjeka.

Primjer 8. Za tri gazdinstva u jednom okrugu postoje podaci o bruto žetvi žitarica i prosječnom prinosu (tabela 13).

Rješenje. Izračunavanje prosječnog prinosa pomoću aritmetičke sredine je nemoguće, jer nema podataka o broju zasijanih površina, pa koristimo formulu ponderisane harmonske sredine:

Primjer 9. Postoje podaci o prosječnom prinosu krompira po pojedinim područjima i broju brdisanja (tabela 14)

Tabela 14

Grupirajmo podatke (tabela 15):

Tabela 15

Grupisanje površina na osnovu broja korova

1. Izračunajte ukupnu varijansu uzorka (Tabela 16).

Prilikom analize varijacionih serija, pomak od centra i nagib distribucije karakteriziraju posebni indikatori. Empirijske distribucije su po pravilu pomaknute od centra distribucije udesno ili ulijevo i asimetrične su. Normalna raspodjela je striktno simetrična u odnosu na aritmetičku sredinu, što je posljedica parnosti funkcije.

Iskrivljenost distribucije nastaje zbog činjenice da neki faktori jače djeluju u jednom smjeru nego u drugom, ili je proces razvoja pojave takav da neki uzrok dominira. Osim toga, priroda nekih fenomena je takva da postoji asimetrična distribucija.

Najjednostavnija mjera asimetrije je razlika između aritmetičke sredine, moda i medijane:

Da bi se odredio smjer i veličina pomaka (asimetrije) distribucije, izračunava se koeficijent asimetrije , što je normalizovani momenat trećeg reda:

As= 3 / 3, gde je  3 centralni moment trećeg reda;  3 – standardna devijacija u kocki. 3 = (m 3 – 3m 1 m 2 + 2m 1 3)k 3 .

Za lijevu asimetriju koeficijent asimetrije (Kao<0), при правосторонней (As>0) .

Ako se vrh raspodjele pomakne ulijevo i ispostavi se da je desni dio grane duži od lijevog, tada je takva asimetrija desna strana, inače ljevoruk .

Odnos između moda, medijane i aritmetičke sredine u simetričnim i asimetričnim serijama omogućava nam da koristimo jednostavniji indikator kao mjeru asimetrije koeficijent asimetrije Pearson :

K a = ( –Mo)/. Ako je K a >0, onda je asimetrija desnostrana, ako je K a<0, то асимметрия левосторонняя, при К a =0 ряд считается симметричным.

Asimetrija se može preciznije odrediti pomoću centralnog momenta trećeg reda:

, gdje je 3 = (m 3 – 3m 1 m 2 + 2m 1 3)k 3 .

Ako > 0, onda se asimetrija može smatrati značajnom ako < 0,25 асимметрию можно считать не значительной.

Za karakterizaciju stepena odstupanja simetrične distribucije od normalne distribucije duž ordinate, indikator vršnosti, strmine distribucije, tzv. višak :

Ex = ( 4 / 4) – 3, gdje je:  4 – centralni moment četvrtog reda.

Za normalnu distribuciju, Ex = 0, tj.  4 / 4 = 3.  4 = (m 4 – 4m 3 m 1 + 6m 2 m 2 1 – 3 m 4 1)* k 4 .

Krive sa visokim vrhom imaju pozitivan kurtozis, dok krive sa niskim vrhom imaju negativan eksces (slika D.2).

Indikatori ekscesa i asimetrije su neophodni u statističkoj analizi da bi se odredila heterogenost populacije, asimetrija distribucije i blizina empirijske distribucije normalnom zakonu. Uz značajna odstupanja indikatora asimetrije i kurtozisa od nule, populacija se ne može smatrati homogenom, a distribucija blizu normalne. Poređenje stvarnih krivulja sa teorijskim omogućava da se dobijeni statistički rezultati matematički potkrijepe, utvrde vrsta i priroda distribucije društveno-ekonomskih pojava i predvidi vjerovatnoća nastanka događaja koji se proučavaju.

4.7. Opravdanje bliskosti empirijske (stvarne) raspodjele teorijskoj normalnoj raspodjeli. Normalna distribucija (Gauss-Laplaceov zakon) i njene karakteristike. "Pravilo tri sigma." Kriterijum dobrog uklapanja (na primjeru kriterija Pearson ili Kolgomogorov).

Možete primijetiti određenu povezanost u promjeni frekvencija i vrijednosti različite karakteristike. Kako se vrijednost atributa povećava, frekvencije se prvo povećavaju, a zatim, nakon postizanja određene maksimalne vrijednosti, smanjuju. Takve redovne promjene frekvencija u varijacionim serijama nazivaju se obrasci distribucije.

Da bi se identifikovao obrazac distribucije, neophodno je da varijacioni nizovi sadrže dovoljno veliki broj jedinica, a da sami nizovi predstavljaju kvalitativno homogene populacije.

Poligon distribucije konstruisan na osnovu stvarnih podataka je empirijska (stvarna) kriva distribucije, odražavajući ne samo objektivne (opće), već i subjektivne (slučajne) uslove distribucije koji nisu karakteristični za fenomen koji se proučava.

U praktičnom radu zakon raspodjele se pronalazi upoređivanjem empirijske distribucije sa jednom od teorijskih i procjenom stepena razlike ili podudarnosti između njih. Teorijska kriva distribucije odražava u svom čistom obliku, bez uzimanja u obzir utjecaja slučajnih faktora, opći obrazac distribucije frekvencije (gustina distribucije) ovisno o vrijednostima različitih karakteristika.

U statistici su uobičajene različite vrste teorijskih distribucija: normalne, binomne, Poissonove itd. Svaka od teorijskih raspodjela ima svoje specifičnosti i opseg.

Zakon normalne distribucije karakteristika distribucije jednako vjerovatnih događaja koji se dešavaju tokom interakcije mnogih slučajnih faktora. Zakon normalne distribucije je u osnovi statističkih metoda za procjenu parametara distribucije, reprezentativnosti opservacija uzorka i mjerenja odnosa masa fenomena. Da bismo provjerili koliko stvarna distribucija odgovara normalnoj, potrebno je uporediti frekvencije stvarne distribucije sa teorijskim frekvencijama karakterističnim za zakon normalne distribucije. Ove frekvencije su funkcija normaliziranih devijacija. Stoga se na osnovu podataka serije empirijske distribucije izračunavaju normalizovana odstupanja t. Zatim se određuju odgovarajuće teorijske frekvencije. Ovo izravnava empirijsku distribuciju.

Normalna distribucija ili je Gauss-Laplaceov zakon opisan jednačinom
, gdje je y t ordinata krive normalne distribucije, ili učestalost (vjerovatnost) vrijednosti x normalne distribucije; – matematičko očekivanje (prosječna vrijednost) pojedinačnih x vrijednosti. Ako su vrijednosti (x – ) mjeriti (izraziti) u smislu standardne devijacije , tj. u standardiziranim (normaliziranim) devijacijama t = (x – )/, tada će formula poprimiti oblik:
. Normalna distribucija društveno-ekonomskih pojava u svom čistom obliku je rijetka, međutim, ako se održava homogenost stanovništva, stvarne distribucije su često bliske normalnim. Obrazac raspodjele proučavanih veličina otkriva se provjerom usklađenosti empirijske raspodjele sa teorijskim zakonom normalne raspodjele. Da bi se to učinilo, stvarna distribucija se poravnava s normalnom krivom i izračunava kriterijumi saglasnosti .

Normalnu raspodjelu karakteriziraju dva značajna parametra koji određuju centar grupiranja pojedinačnih vrijednosti i oblik krivulje: aritmetička sredina i standardna devijacija . Krive normalne distribucije razlikuju se po položaju centra distribucije na x-osi i opciju raspršivanja oko ovog centra  (sl. 4.1 i 4.2). Karakteristika krivulje normalne distribucije je njena simetrija u odnosu na centar raspodjele - na obje strane njene sredine formiraju se dvije grane koje se ravnomjerno opadaju, asimptotski se približavaju osi apscise. Stoga, u normalnoj distribuciji, srednja vrijednost, mod i medijan su isti: = Po = Ja.

  x

Kriva normalne distribucije ima dvije tačke pregiba (prijelaz iz konveksnosti u konkavnost) na t = 1, tj. kada opcije odstupaju od prosjeka (x – ), jednako standardnoj devijaciji . Unutar  sa normalnom distribucijom iznosi 68,3%, unutar 2 – 95,4%, unutar 3 – 99,7% broja posmatranja ili učestalosti serije distribucije. U praksi gotovo da nema odstupanja većih od 3, pa se dati odnos naziva „ tri sigma pravilo ».

Za izračunavanje teoretskih frekvencija koristi se formula:

.

Magnituda
je funkcija t ili gustine normalne distribucije, koja se određuje iz posebne tabele, iz koje su izvodi dati u tabeli. 4.2.

Vrijednosti gustine normalne distribucije Tabela 4.2

Grafikon na sl. 4.3 jasno pokazuje bliskost empirijske (2) i normalne (1) raspodjele.

Rice. 4.3. Distribucija poslovnica poštanskih usluga po brojevima

radnika: 1 – normalno; 2 – empirijski

Da biste matematički potvrdili bliskost empirijske distribucije sa zakonom normalne distribucije, izračunajte kriterijumi saglasnosti .

Kolmogorov kriterijum - kriterijum dobrosti koji omogućava da se proceni stepen bliskosti empirijske distribucije normalnoj. A. N. Kolmogorov je predložio korištenje maksimalne razlike između akumuliranih frekvencija ili frekvencija ovih serija za određivanje korespondencije između empirijske i teorijske normalne raspodjele. Da bi se testirala hipoteza da empirijska distribucija odgovara zakonu normalne distribucije, izračunava se kriterij dobrote uklapanja = D/
, gdje je D maksimalna razlika između kumulativne (akumulirane) empirijske i teorijske frekvencije, n je broj jedinica u populaciji. Pomoću posebne tabele određuje se P() – vjerovatnoća postizanja , što znači da ako. varijaciona karakteristika se distribuira prema normalnom zakonu, a zatim Iz slučajnih razloga, maksimalna neslaganja između empirijske i teorijske akumulirane frekvencije neće biti manja od stvarno uočene. Na osnovu vrijednosti P() izvode se određeni zaključci: ako je vjerovatnoća P() dovoljno velika, onda se hipoteza da stvarna raspodjela odgovara normalnom zakonu može smatrati potvrđenom; ako je vjerovatnoća P() mala, onda se nulta hipoteza odbacuje, a odstupanja između stvarne i teorijske raspodjele smatraju se značajnim.

Vrijednosti vjerovatnoće za kriterij dobrote uklapanja  Tabela 4.3

Pearsonov kriterijum 2 (“hi-kvadrat”) - Kriterijum dobrobiti koji omogućava da se proceni stepen bliskosti empirijske distribucije normalnoj:
,gde su f i, f" i frekvencije empirijske i teorijske distribucije u određenom intervalu. Što je veća razlika između posmatrane i teorijske frekvencije, to je veći kriterijum  2. Da bi se razlikovala značajnost razlika u frekvencijama empirijske i teorijske raspodjele prema kriteriju  2 iz razlika zbog slučajnih uzoraka, izračunata vrijednost kriterija  2 calc se upoređuje sa tabelarno  2 tablicom sa odgovarajućim brojem stupnjeva slobode i datim nivoom značajnosti nivo je odabran tako da je P( 2 calc > 2 tab) = . hl, Gdje h– broj grupa; l– broj uslova koji moraju biti ispunjeni prilikom izračunavanja teoretskih frekvencija. Za izračunavanje teorijske frekvencije krivulje normalne distribucije koristeći formulu
morate znati tri parametra , , f, stoga je broj stupnjeva slobode h–3. Ako  2 calc > 2 tab, tj.  2 pada u kritično područje, tada je neslaganje između empirijske i teorijske frekvencije značajno i ne može se objasniti nasumičnim fluktuacijama u podacima uzorka. U ovom slučaju, nulta hipoteza se odbacuje. Ako  2 calc  2 tab, tj. izračunati kriterijum ne prelazi maksimalnu moguću divergenciju frekvencija koja može nastati slučajno, tada se u ovom slučaju prihvata hipoteza o korespondenciji distribucija. Pearsonov kriterijum je efikasan sa značajnim brojem posmatranja (n50), a frekvencije svih intervala moraju brojati najmanje pet jedinica (sa manjim brojem intervali se kombinuju), a broj intervala (grupa) mora biti veliki (h>5), budući da procjena  2 zavisi od broja stupnjeva slobode.

Kriterijum Romanovskog - kriterijum dobrote koji omogućava da se proceni stepen bliskosti empirijske distribucije sa V.I. Romanovsky je predložio procjenu bliskosti empirijske distribucije krivulji normalne distribucije u odnosu na:

, gdje je h broj grupa.

Ako je omjer veći od 3, onda se neslaganje između frekvencija empirijske i normalne distribucije ne može smatrati slučajnim i hipotezu o normalnom zakonu raspodjele treba odbaciti. Ako je omjer manji ili jednak 3, onda možemo prihvatiti hipotezu da je distribucija podataka normalna.

Da bi se dobila približna ideja o obliku distribucije slučajne varijable, iscrtava se graf njene serije distribucije (poligon i histogram), funkcije ili gustoće distribucije. U praksi statističkih istraživanja susrećemo se sa veoma različitim distribucijama. Homogene populacije karakteriziraju, po pravilu, jednovrhske distribucije. Multiverteks ukazuje na heterogenost populacije koja se proučava. U ovom slučaju, potrebno je pregrupisati podatke kako bi se identifikovale homogenije grupe.

Određivanje opšte prirode distribucije slučajne varijable uključuje procenu stepena njene homogenosti, kao i izračunavanje indikatora asimetrije i ekscesa. U simetričnoj raspodjeli, u kojoj je matematičko očekivanje jednako medijani, tj. , može se smatrati da nema asimetrije. Ali što je asimetrija uočljivija, to je veće odstupanje između karakteristika distributivnog centra – matematičkog očekivanja i medijane.

Može se smatrati najjednostavnijim koeficijentom asimetrije distribucije slučajne varijable, gdje je matematičko očekivanje, medijan, a standardna devijacija slučajne varijable.

U slučaju asimetrije na desnoj strani, lijevo-strana asimetrija. Ako je , asimetrija se smatra niskom, ako - srednjom, a na - visokom. Geometrijska ilustracija desne i lijeve asimetrije prikazana je na donjoj slici. Prikazuje grafove gustine distribucije odgovarajućih tipova kontinuiranih slučajnih varijabli.

Crtanje. Ilustracija desno- i lijevo-strane asimetrije u dijagramima gustine distribucija kontinuiranih slučajnih varijabli.

Postoji još jedan koeficijent asimetrije distribucije slučajne varijable. Može se dokazati da centralni moment neparnog reda različit od nule ukazuje na asimetriju u distribuciji slučajne varijable. U prethodnom indikatoru koristili smo izraz sličan trenutku prvog reda. Ali obično se u ovom drugom koeficijentu asimetrije koristi centralni moment trećeg reda , a da bi ovaj koeficijent postao bezdimenzionalni, dijeli se sa kubom standardne devijacije. Rezultirajući koeficijent asimetrije je: . Za ovaj koeficijent asimetrije, kao i za prvi u slučaju desnostrane asimetrije, lijevo - .

Kurtoza slučajne varijable

Kurtosis distribucije slučajne varijable karakterizira stupanj koncentracije njenih vrijednosti u blizini centra distribucije: što je veća koncentracija, to će biti veći i uži graf gustoće njegove distribucije. Indikator kurtosis (oštrine) se izračunava pomoću formule: , gdje je centralni moment 4. reda i standardna devijacija podignuta na 4. stepen. Budući da su potencije brojnika i nazivnika iste, eksces je bezdimenzionalna veličina. U ovom slučaju, prihvaćeno je kao standard odsustva ekscesa, nula ekscesa, uzeti normalnu distribuciju. Ali može se dokazati da za normalnu distribuciju . Stoga se u formuli za izračunavanje ekscesa od ovog razlomka oduzima broj 3.

Dakle, za normalnu distribuciju eksces je nula: . Ako je eksces veći od nule, tj. , tada je distribucija više vršna nego normalna. Ako je eksces manji od nule, tj. , tada je distribucija manje vršna od normalne. Granična vrijednost negativnog ekscesa je vrijednost ; veličina pozitivnog ekscesa može biti beskonačno velika. Kako izgledaju grafikoni gustine distribucije vršnih i ravnih vrhova slučajnih varijabli u poređenju sa normalnom distribucijom prikazano je na slici.

Crtanje. Ilustracija distribucije gustine sa vršnim i ravnim vrhom slučajnih varijabli u poređenju sa normalnom distribucijom.

Asimetrija i eksces distribucije slučajne varijable pokazuju koliko ona odstupa od normalnog zakona. Za velike asimetrije i ekscese, formule za izračunavanje za normalnu distribuciju ne treba koristiti. Koliki je nivo prihvatljivosti asimetrije i ekscesa za korišćenje formula normalne distribucije u analizi podataka za određenu slučajnu varijablu, istraživač treba da odredi na osnovu svog znanja i iskustva.

Definicija. Moda M 0 diskretne slučajne varijable naziva se njena najvjerovatnija vrijednost. Za kontinuiranu slučajnu varijablu, mod je vrijednost slučajne varijable na kojoj gustina distribucije ima maksimum.

Ako poligon distribucije za diskretnu slučajnu varijablu ili krivulja distribucije za kontinuiranu slučajnu varijablu ima dva ili više maksimuma, tada se takva raspodjela naziva bimodal ili multimodalni.

Ako distribucija ima minimum, ali nema maksimum, onda se poziva antimodal.

Definicija. Medijan M D slučajne varijable X je njena vrijednost u odnosu na koju je jednako vjerovatno da će se dobiti veća ili manja vrijednost slučajne varijable.

Geometrijski gledano, medijana je apscisa tačke u kojoj je područje ograničeno krivom distribucije podijeljeno na pola.

Imajte na umu da ako je distribucija unimodalna, tada se mod i medijan poklapaju sa matematičkim očekivanjem.

Definicija. Početni trenutak red k slučajna varijabla X je matematičko očekivanje vrijednosti X k .

Za diskretnu slučajnu varijablu: .

.

Početni trenutak prvog reda jednak je matematičkom očekivanju.

Definicija. Centralni trenutak red k slučajna varijabla X je matematičko očekivanje vrijednosti

Za diskretnu slučajnu varijablu: .

Za kontinuiranu slučajnu varijablu: .

Centralni moment prvog reda je uvijek nula, a središnji moment drugog reda jednak je disperziji. Centralni momenat trećeg reda karakteriše asimetriju distribucije.

Definicija. Zove se omjer centralnog momenta trećeg reda prema standardnoj devijaciji na treći stepen koeficijent asimetrije.

Definicija. Za karakterizaciju vršnosti i ravnosti distribucije, veličina tzv višak.

Pored razmatranih veličina, koriste se i takozvani apsolutni momenti:

Apsolutni početni trenutak: .

Apsolutna centralna tačka: .

Kvantil , što odgovara datom nivou vjerovatnoće R, je vrijednost na kojoj funkcija distribucije uzima vrijednost jednaku R, tj. Gdje R- specificirani nivo vjerovatnoće.

Drugim riječima kvantil postoji vrijednost slučajne varijable pri kojoj

Vjerovatnoća R, naveden kao procenat, daje ime odgovarajućem kvantilu, na primjer, naziva se kvantil 40%.

20. Matematičko očekivanje i disperzija broja pojavljivanja događaja u nezavisnim eksperimentima.

Definicija. Matematičko očekivanje kontinuirana slučajna varijabla X, čije moguće vrijednosti pripadaju segmentu, naziva se definitivnim integralom

Ako se moguće vrijednosti slučajne varijable razmatraju na cijeloj numeričkoj osi, tada se matematičko očekivanje nalazi po formuli:

U ovom slučaju, naravno, pretpostavlja se da nepravilni integral konvergira.

Matematičko očekivanje Diskretna slučajna varijabla je zbir proizvoda njenih mogućih vrijednosti i njihovih odgovarajućih vjerovatnoća:

M(X) =X 1 R 1 +X 2 R 2 + … +X P R P . (7.1)

Ako je broj mogućih vrijednosti slučajne varijable beskonačan, onda
, ako se rezultirajući niz apsolutno konvergira.

Napomena 1. Ponekad se naziva matematičko očekivanje prosjećna težina, budući da je približno jednaka aritmetičkoj sredini uočenih vrijednosti slučajne varijable u velikom broju eksperimenata.

Napomena 2. Iz definicije matematičkog očekivanja proizilazi da njegova vrijednost nije manja od najmanje moguće vrijednosti slučajne varijable i ne veća od najveće.

Napomena 3. Matematičko očekivanje diskretne slučajne varijable je ne-slučajni(konstantno. Kasnije ćemo vidjeti da isto vrijedi i za kontinuirane slučajne varijable.

Osobine matematičkog očekivanja.

    Matematičko očekivanje konstante jednako je samoj konstanti:

M(WITH) =WITH.(7.2)

Dokaz. Ako uzmemo u obzir WITH kao diskretna slučajna varijabla koja uzima samo jednu vrijednost WITH sa vjerovatnoćom R= 1, onda M(WITH) =WITH·1 = WITH.

    Konstantni faktor se može izvaditi iz predznaka matematičkog očekivanja:

M(CX) =CM(X). (7.3)

Dokaz. Ako je slučajna varijabla X dato nizom distribucije

x i

x n

str i

str n

zatim serija distribucije za CX ima oblik:

WITHx i

WITHx 1

WITHx 2

WITHx n

str i

str n

Onda M(CX) =Cx 1 R 1 +Cx 2 R 2 + … +Cx P R P =WITH(X 1 R 1 +X 2 R 2 + … +X P R P) =CM(X).

Matematičko očekivanje kontinuirana slučajna varijabla se zove

(7.13)

Napomena 1. Opšta definicija varijanse ostaje ista za kontinuiranu slučajnu varijablu kao i za diskretnu (def. 7.5), a formula za njeno izračunavanje ima oblik:

(7.14)

Standardna devijacija se izračunava pomoću formule (7.12).

Napomena 2. Ako sve moguće vrijednosti kontinuirane slučajne varijable ne izlaze izvan intervala [ a, b], onda se u ovim granicama izračunavaju integrali u formulama (7.13) i (7.14).

Teorema. Varijanca broja pojavljivanja događaja u nezavisnim pokusima jednaka je proizvodu broja pokušaja i vjerovatnoće pojave i nenastupanja događaja u jednom ogledu: .

Dokaz. Neka je broj pojavljivanja događaja u nezavisnim ispitivanjima. Jednako je zbiru pojavljivanja događaja u svakom pokušaju: . Pošto su testovi nezavisni, slučajne varijable – su nezavisni, dakle .

Kao što je gore prikazano, , i .

Onda ah .

U ovom slučaju, kao što je ranije spomenuto, standardna devijacija je .

Prilikom analize distribucije stanovništva, od značajnog je interesa procjena odstupanja date distribucije od simetrične, ili, drugim riječima, njene asimetrije. Stepen asimetrije je jedno od najvažnijih svojstava distribucije stanovništva. Postoji niz statistika dizajniranih za izračunavanje asimetrije. Svi oni ispunjavaju najmanje dva zahtjeva za bilo koji indikator zakrivljenosti: on mora biti bezdimenzionalni i jednak nuli ako je raspodjela simetrična.

Na sl. Na slikama 2 a, b prikazane su krive dvije asimetrične distribucije populacije, od kojih je jedna nagnuta ulijevo, a druga udesno. Kvalitativno je prikazan relativni položaj modusa, medijane i srednje vrijednosti. Može se vidjeti da se jedan od mogućih indikatora asimetrije može konstruirati uzimajući u obzir udaljenost na kojoj se srednja vrijednost i mod nalaze jedan od drugog. Ali uzimajući u obzir složenost određivanja moda iz empirijskih podataka, a s druge strane, dobro poznatu vezu (3) između moda, medijane i prosjeka, predložena je sljedeća formula za izračunavanje indeksa asimetrije:

Iz ove formule slijedi da distribucije zakrivljene ulijevo imaju pozitivnu asistenciju, a distribucije zakrivljene udesno imaju negativnu kosinu. Naravno, za simetrične distribucije, za koje se srednja vrijednost i medijan poklapaju, asimetrija je nula.

Izračunajmo indikatore asimetrije za podatke date u tabeli. 1 i 2. Za distribuciju trajanja srčanog ciklusa imamo:

Dakle, ova distribucija je blago nagnuta ulijevo. Dobijena vrijednost za asimetriju je približna i nije tačna, jer su za njeno izračunavanje korištene vrijednosti i izračunate na pojednostavljen način.

Za raspodjelu sulfhidrilnih grupa u krvnom serumu imamo:

Dakle, ova raspodjela ima negativnu asistenciju, tj. nagnuto udesno.

Teoretski je pokazano da se vrijednost određena formulom 13 nalazi unutar 3. Ali u praksi ova vrijednost vrlo rijetko dostiže svoje granične vrijednosti, a za umjereno asimetrične jednoverteksne distribucije njena apsolutna vrijednost je obično manja od jedan.

Indikator asimetrije se može koristiti ne samo za formalni opis distribucije stanovništva, već i za smislenu interpretaciju dobijenih podataka.

U stvari, ako je karakteristika koju posmatramo formirana pod uticajem velikog broja uzroka nezavisnih jedan od drugog, od kojih svaki daje relativno mali doprinos vrednosti ove karakteristike, onda, u skladu sa nekim teorijskim pretpostavkama o kojima se govori u u dijelu o teoriji vjerovatnoće, imamo pravo očekivati ​​da će raspodjela populacije dobijena kao rezultat eksperimenta biti simetrična. Međutim, ako se dobije značajna vrijednost asimetrije za eksperimentalne podatke (numerička vrijednost As po modulu je unutar nekoliko desetina), onda se može pretpostaviti da gore navedeni uslovi nisu ispunjeni.

U ovom slučaju ima smisla pretpostaviti ili postojanje jednog ili dva faktora čiji je doprinos formiranju vrijednosti uočene u eksperimentu znatno veći od ostalih, ili pretpostaviti postojanje posebnog mehanizma koji je različit od mehanizma nezavisnog uticaja mnogih uzroka na vrednost posmatrane karakteristike.

Tako, na primjer, ako su promjene u količini koja nas zanima, a koja odgovara djelovanju određenog faktora, proporcionalna samoj ovoj vrijednosti i intenzitetu djelovanja uzroka, tada će rezultujuća raspodjela uvijek biti nagnuta prema lijevo, tj. imaju pozitivnu iskrivljenost. Biolozi se, na primjer, susreću s takvim mehanizmom kada procjenjuju količine povezane s rastom biljaka i životinja.

Drugi način za procjenu asimetrije zasniva se na metodi momenata, o kojoj će biti riječi u poglavlju 44. U skladu s ovom metodom, asimetričnost se izračunava korištenjem sume odstupanja svih vrijednosti serije podataka u odnosu na prosjek. , podignut na treći stepen, tj.:

Treći stepen osigurava da brojilac ovog izraza bude jednak nuli za simetrične distribucije, jer će u ovom slučaju sume odstupanja gore i dolje od prosjeka do trećeg stepena biti jednake i imati suprotne predznake. Dijeljenje sa daje bezdimenzionalnost za mjeru asimetrije.

Formula (14) se može transformirati na sljedeći način. U prethodnom paragrafu uvedene su standardizovane vrednosti:

Dakle, mjera zakrivljenosti je prosjek standardiziranih podataka u kocki.

Za iste podatke za koje je asimetrija izračunata po formuli (13), nalazimo indikator pomoću formule (15). Imamo:

Naravno, indikatori asimetrije izračunati pomoću različitih formula razlikuju se jedni od drugih po veličini, ali podjednako ukazuju na prirodu asimetrije. U paketima aplikacija za statističku analizu, prilikom izračunavanja asimetrije, koristi se formula (15) jer daje tačnije vrijednosti. Za preliminarne proračune pomoću jednostavnih kalkulatora možete koristiti formulu (13).

Višak. Dakle, ispitali smo tri od četiri grupe indikatora uz pomoć kojih se opisuje distribucija stanovništva. Posljednji od njih je grupa indikatora vrhunca, ili kurtosis (od grčkog - grbav). Za izračunavanje jednog od mogućih pokazatelja ekscesa koristi se sljedeća formula:

Koristeći isti pristup koji je primijenjen pri transformaciji formule asimetrije (14) lako je pokazati da:

Teorijski je pokazano da je vrijednost kurtosisa za normalnu (Gausovu) krivu distribucije, koja igra veliku ulogu u statistici, kao i u teoriji vjerovatnoće, numerički jednaka 3. Na osnovu brojnih razmatranja, oštrina ova kriva se uzima kao standard, pa se kao indikator ekscesa koristi vrijednost:

Nađimo vršnu vrijednost za podatke date u tabeli. 1. Imamo:

Dakle, kriva distribucije trajanja srčanih ciklusa je spljoštena u odnosu na normalnu krivu, za koju.

U tabeli Slika 3 prikazuje raspodjelu broja rubnih cvjetova u jednoj od vrsta krizantema. Za ovu distribuciju

Kurtoza može poprimiti vrlo velike vrijednosti, kao što se vidi iz navedenog primjera, ali njena donja granica ne može biti manja od jedan. Ispada da ako je distribucija bimodalna, tada se vrijednost ekscesa približava svojoj donjoj granici, tako da teži -2. Dakle, ako se kao rezultat proračuna pokaže da je vrijednost manja od -1-1,4, možemo biti sigurni da je raspodjela populacije kojom raspolažemo barem bimodalna. Ovo je posebno važno uzeti u obzir kada se eksperimentalni podaci, zaobilazeći fazu predobrade, analiziraju pomoću digitalnog računara, a istraživač nema direktan grafički prikaz raspodjele stanovništva pred očima.

Kriva distribucije eksperimentalnih podataka sa dva vrha može nastati iz mnogo razloga. Konkretno, takva distribucija se može pojaviti kombinovanjem dva seta heterogenih podataka u jedan skup. Da bismo to ilustrirali, umjetno smo spojili podatke o širini školjki dvije vrste fosilnih mekušaca u jedan skup (tablica 4, sl. 3).

Slika jasno pokazuje prisustvo dva moda, budući da su dva skupa podataka iz različitih populacija pomiješana. Proračun daje vrijednost ekscesa 1,74, i prema tome = -1,26. Dakle, izračunata vrijednost indeksa vrha ukazuje, u skladu sa prethodno navedenim stavom, da distribucija ima dva vrha.

Ovdje postoji jedno upozorenje. Zaista, u svim slučajevima kada raspodjela populacije ima dva maksimuma, vrijednost ekscesa će biti blizu jedinice. Međutim, ova činjenica ne može automatski dovesti do zaključka da je analizirani skup podataka mješavina dva heterogena uzorka. Prvo, takva mješavina, ovisno o broju sastavnih agregata, možda neće imati dva vrha, a indeks kurtozisa bit će znatno veći od jednog. Drugo, homogeni uzorak može imati dva načina rada ako su, na primjer, prekršeni zahtjevi za odabir eksperimentalnih podataka. Dakle, u ovom, kao iu drugim slučajevima, nakon formalnog obračuna različitih statistika, mora se izvršiti temeljna stručna analiza koja će omogućiti da dobijeni podaci dobiju smislenu interpretaciju.

Najnoviji materijali u sekciji:

Istraživanja
Istraživački rad "Kristali" Šta se zove kristal

KRISTALI I KRISTALOGRAFIJA Kristal (od grčkog krystallos - "providni led") prvobitno se zvao prozirni kvarc (gorski kristal),...

"Morski" idiomi na engleskom

"Držite svoje konje!" - rijedak slučaj kada se engleski idiom prevodi na ruski od riječi do riječi. Engleski idiomi su zanimljivo...

Henrik Navigator: biografija i zanimljive činjenice
Henrik Navigator: biografija i zanimljive činjenice

Portugalski princ Enrique Navigator napravio je mnoga geografska otkrića, iako je i sam išao na more samo tri puta. On je počeo...