Skośność i kurtoza rozkładu zmiennej losowej. Obliczanie skośności i kurtozy rozkładu empirycznego w programie Excel Współczynnik kurtozy rozkładu normalnego

Współczynnik asymetrii pokazuje „skośność” szeregu rozkładów względem środka:

gdzie jest moment centralny trzeciego rzędu;

– sześcian odchylenia standardowego.

Dla tej metody obliczeń: jeśli , rozkład jest prawostronny (asymetria dodatnia), jeśli , rozkład jest lewostronny (asymetria ujemna)

Oprócz momentu centralnego asymetrię można obliczyć za pomocą trybu lub mediany:

lub , (6,69)

Dla tej metody obliczeń: jeśli , rozkład jest prawostronny (asymetria dodatnia), jeśli , rozkład jest lewostronny (asymetria ujemna) (rys. 4).


Ryż. 4. Rozkłady asymetryczne

Wartość pokazująca „stromość” rozkładu nazywa się współczynnik kurtozy:

Jeśli , w dystrybucji jest niedwuznaczność – kurtoza jest dodatnia, jeśli w rozkładzie zaobserwowano , płaskość – kurtoza jest ujemna (ryc. 5).

Ryż. 5. Kurtoza rozkładu

Przykład 5. Dostępne są dane dotyczące liczebności owiec w gospodarstwach w regionie (tab. 9).

1. Średnia liczba owiec w gospodarstwie.

3. Mediana.

4. Wskaźniki zmienności

· dyspersja;

· odchylenie standardowe;

· współczynnik zmienności.

5. Wskaźniki asymetrii i kurtozy.

Rozwiązanie.

1. Ponieważ wartość opcji w agregacie powtarza się kilkukrotnie, to z określoną częstotliwością do obliczenia wartości średniej stosujemy wzór na średnią ważoną arytmetyczną:

2. Szereg ten jest dyskretny, zatem trybem będzie opcja o najwyższej częstotliwości - .

3. Szereg ten jest parzysty, w tym przypadku medianę szeregu dyskretnego wyznacza się ze wzoru:

Oznacza to, że połowa gospodarstw objętych badaniem posiada do 4,75 tys. sztuk owiec. a połowa jest powyżej tej liczby.

4. Do obliczenia wskaźników zmienności sporządzimy tabelę 10, w której obliczymy odchyłki, kwadraty tych odchyleń, obliczenia można przeprowadzić zarówno przy użyciu prostych, jak i ważonych wzorów obliczeniowych (w przykładzie używamy prostego ):

Tabela 10

2,00 -2,42 5,84
2,50 -1,92 3,67
2,50 -1,92 3,67
3,00 -1,42 2,01
3,00 -1,42 2,01
4,00 -0,42 0,17
5,50 1,08 1,17
5,50 1,08 1,17
5,50 1,08 1,17
6,00 1,58 2,51
6,50 2,08 4,34
7,00 2,58 6,67
Całkowity 53,00 0,00 34,42
Przeciętny 4,4167

Obliczmy wariancję:

Obliczmy odchylenie standardowe:

Obliczmy współczynnik zmienności:

5. Do obliczenia wskaźników asymetrii i kurtozy zbudujemy tabelę 11, w której obliczymy , ,

Tabela 11

2,00 -2,42 -14,11 34,11
2,50 -1,92 -7,04 13,50
2,50 -1,92 -7,04 13,50
3,00 -1,42 -2,84 4,03
3,00 -1,42 -2,84 4,03
4,00 -0,42 -0,07 0,03
5,50 1,08 1,27 1,38
5,50 1,08 1,27 1,38
5,50 1,08 1,27 1,38
6,00 1,58 3,97 6,28
6,50 2,08 9,04 18,84
7,00 2,58 17,24 44,53
Całkowity 53,00 0,00 0,11 142,98
Przeciętny 4,4167

Skośność rozkładu wynosi:

Oznacza to, że obserwuje się lewostronną asymetrię, ponieważ , co potwierdza się, obliczając za pomocą wzoru:

W tym przypadku co dla tego wzoru wskazuje również na asymetrię lewostronną

Kurtoza rozkładu jest równa:

W naszym przypadku kurtoza jest ujemna, to znaczy obserwuje się płaskość.

Przykład 6. Dane o wynagrodzeniach pracowników prezentowane są dla gospodarstwa domowego (tabela 12)

Rozwiązanie.

W przypadku serii zmian przedziałowych modę oblicza się ze wzoru:

Gdzie interwał modalny – przedział o największej częstotliwości, w naszym przypadku 3600-3800, z częstotliwością

Minimalny limit interwału modalnego (3600);

Wartość interwału modalnego (200);

Częstotliwość interwału poprzedzająca interwał modowy (25);

Częstotliwość po przedziale modalnym (29);

Częstotliwość interwału modalnego (68).

Tabela 12

W przypadku serii zmian przedziałowych medianę oblicza się ze wzoru:

Gdzie średni odstęp jest to przedział, którego skumulowana (skumulowana) częstotliwość jest równa lub większa niż połowa sumy częstotliwości, w naszym przykładzie jest to 3600-3800.

Minimalna granica średniego przedziału (3600);

Mediana wartości przedziału (200);

Suma częstotliwości szeregu (154);

Suma skumulowanych częstotliwości, wszystkie przedziały poprzedzające medianę (57);

– częstotliwość przedziału mediany (68).

Przykład 7. Dla trzech gospodarstw w jednym okręgu podaje się informację o kapitałochłonności produkcji (wysokość stałych kosztów kapitałowych na 1 rubla wyprodukowanego produktu): I – 1,29 rubla, II – 1,32 rubla, III – 1,27 rubla. Należy obliczyć średnią kapitałochłonność.

Rozwiązanie. Ponieważ kapitałochłonność jest odwrotnym wskaźnikiem obrotu kapitałowego, używamy prostego wzoru na średnią harmoniczną.

Przykład 8. Dla trzech gospodarstw w jednym powiecie dostępne są dane dotyczące zbioru zbóż brutto i średniego plonu (tab. 13).

Rozwiązanie. Obliczenie średniego plonu za pomocą średniej arytmetycznej jest niemożliwe, ponieważ nie ma informacji o liczbie obsianych powierzchni, dlatego stosujemy wzór na średnią ważoną harmoniczną:

Przykład 9. Znajdują się w nim dane dotyczące średniego plonu ziemniaków na poszczególnych obszarach oraz liczby obsypań (tab. 14)

Tabela 14

Pogrupujmy dane (Tabela 15):

Tabela 15

Grupowanie obszarów ze względu na liczbę odchwaceń

1. Oblicz całkowitą wariancję próbki (tabela 16).

Analizując szeregi zmian, przemieszczenie od środka i nachylenie rozkładu charakteryzują się specjalnymi wskaźnikami. Rozkłady empiryczne z reguły są przesunięte ze środka rozkładu w prawo lub w lewo i są asymetryczne. Rozkład normalny jest ściśle symetryczny względem średniej arytmetycznej, co wynika z parzystości funkcji.

Skośność dystrybucji powstaje na skutek tego, że pewne czynniki działają silniej w jednym kierunku niż w innym, lub proces rozwoju zjawiska jest taki, że dominuje jakaś przyczyna. Ponadto natura niektórych zjawisk jest taka, że ​​​​istnieje rozkład asymetryczny.

Najprostszą miarą asymetrii jest różnica między średnią arytmetyczną, modą i medianą:

Aby określić kierunek i wielkość przesunięcia (asymetrii) rozkładu, oblicza się go współczynnik asymetrii , który jest znormalizowanym momentem trzeciego rzędu:

As= 3 / 3, gdzie  3 jest momentem centralnym trzeciego rzędu;  3 – odchylenie standardowe w kostce. 3 = (m 3 – 3m 1 m 2 + 2m 1 3)k 3 .

Dla asymetrii lewostronnej współczynnik asymetrii (Jak<0), при правосторонней (As>0) .

Jeżeli górę rozkładu przesuniemy w lewo i prawa część gałęzi okaże się dłuższa od lewej, to taka asymetria jest prawostronny, W przeciwnym razie leworęczny .

Zależność między modą, medianą i średnią arytmetyczną w szeregach symetrycznych i asymetrycznych pozwala nam zastosować prostszy wskaźnik jako miarę asymetrii współczynnik asymetrii osoba :

Ka = ( –Po)/. Jeżeli K a >0, to asymetria jest prawostronna, jeżeli K a<0, то асимметрия левосторонняя, при К a =0 ряд считается симметричным.

Asymetrię można dokładniej określić za pomocą centralnego momentu trzeciego rzędu:

, gdzie 3 = (m 3 – 3m 1 m 2 + 2m 1 3)k 3 .

Jeśli > 0, to asymetrię można uznać za istotną, jeżeli < 0,25 асимметрию можно считать не значительной.

Aby scharakteryzować stopień odchylenia rozkładu symetrycznego od rozkładu normalnego wzdłuż rzędnej, stosuje się wskaźnik piku, stromość rozkładu, tzw. nadmiar :

Przykład = ( 4 / 4) – 3, gdzie:  4 – moment centralny czwartego rzędu.

Dla rozkładu normalnego Ex = 0, tj.  4 / 4 = 3.  4 = (m 4 – 4m 3 m 1 + 6m 2 m 2 1 – 3 m 4 1)* k 4 .

Krzywe o wysokich szczytach mają kurtozę dodatnią, natomiast krzywe o niskich szczytach mają kurtozę ujemną (rys. D.2).

Wskaźniki kurtozy i skośności są niezbędne w analizie statystycznej w celu określenia niejednorodności populacji, asymetrii rozkładu i bliskości rozkładu empirycznego do prawa normalnego. Przy znacznych odchyleniach wskaźników asymetrii i kurtozy od zera, populacji nie można uznać za jednorodną, ​​a rozkład zbliżony do normalnego. Porównanie krzywych rzeczywistych z teoretycznymi pozwala matematycznie uzasadnić otrzymane wyniki statystyczne, ustalić rodzaj i charakter rozkładu zjawisk społeczno-gospodarczych oraz przewidzieć prawdopodobieństwo wystąpienia badanych zdarzeń.

4.7. Uzasadnienie bliskości rozkładu empirycznego (rzeczywistego) do teoretycznego rozkładu normalnego. Rozkład normalny (prawo Gaussa-Laplace'a) i jego charakterystyka. „Zasada trzech sigm”. Kryteria dobroci dopasowania (na przykładzie kryterium Pearsona lub Kołgomogorowa).

Można zauważyć pewien związek w zmianie częstotliwości i wartości zmiennej charakterystyki. Wraz ze wzrostem wartości atrybutu częstotliwości najpierw rosną, a następnie, po osiągnięciu określonej wartości maksymalnej, maleją. Takie regularne zmiany częstotliwości w szeregach zmian nazywane są wzorce dystrybucji.

Aby zidentyfikować wzór rozkładu, konieczne jest, aby szereg zmian zawierał wystarczająco dużą liczbę jednostek i aby sam szereg reprezentował jakościowo jednorodne populacje.

Wielokąt rozkładu zbudowany na podstawie rzeczywistych danych to empiryczna (rzeczywista) krzywa rozkładu, odzwierciedlając nie tylko obiektywne (ogólne), ale także subiektywne (losowe) warunki rozkładu, które nie są charakterystyczne dla badanego zjawiska.

W praktyce prawo dystrybucji ustala się, porównując rozkład empiryczny z jednym z teoretycznych i oceniając stopień różnicy lub zgodność między nimi. Teoretyczna krzywa rozkładu odzwierciedla w czystej postaci, bez uwzględnienia wpływu czynników losowych, ogólny wzór rozkładu częstotliwości (gęstość rozkładu) w zależności od wartości różnych charakterystyk.

W statystyce powszechne są różne typy rozkładów teoretycznych: normalny, dwumianowy, Poissona itp. Każdy z rozkładów teoretycznych ma swoją specyfikę i zakres.

Normalne prawo dystrybucji charakterystyka rozkładu zdarzeń równie prawdopodobnych występujących podczas oddziaływania wielu czynników losowych. Prawo rozkładu normalnego leży u podstaw statystycznych metod szacowania parametrów rozkładu, reprezentatywności obserwacji próbek i pomiaru zależności zjawisk masowych. Aby sprawdzić, jak dobrze rozkład rzeczywisty odpowiada rozkładowi normalnemu, należy porównać częstości rozkładu rzeczywistego z częstotliwościami teoretycznymi charakterystycznymi dla prawa rozkładu normalnego. Częstotliwości te są funkcją znormalizowanych odchyleń. Dlatego na podstawie danych empirycznego szeregu rozkładów obliczane są znormalizowane odchylenia t. Następnie wyznaczane są odpowiednie częstotliwości teoretyczne. To spłaszcza rozkład empiryczny.

Normalna dystrybucja lub prawo Gaussa-Laplace'a opisuje równanie
, gdzie y t jest rzędną krzywej rozkładu normalnego lub częstotliwością (prawdopodobieństwem) wartości x rozkładu normalnego; – matematyczne oczekiwanie (wartość średnia) poszczególnych wartości x. Jeżeli wartości (x – ) mierzyć (wyrażać) w odchyleniu standardowym , tj. w odchyleniach standaryzowanych (znormalizowanych) t = (x – )/, wówczas formuła przyjmie postać:
. Rozkład normalny zjawisk społeczno-gospodarczych w czystej postaci jest rzadki, jednak przy zachowaniu jednorodności populacji rzeczywiste rozkłady często są zbliżone do normalnego. Schemat rozkładu badanych wielkości ujawnia się poprzez sprawdzenie zgodności rozkładu empirycznego z teoretycznym prawem rozkładu normalnego. W tym celu rzeczywisty rozkład jest dopasowywany do krzywej normalnej i obliczany kryteria zgody .

Rozkład normalny charakteryzuje się dwoma istotnymi parametrami, które wyznaczają środek grupowania poszczególnych wartości oraz kształt krzywej: średnią arytmetyczną i odchylenie standardowe . Krzywe rozkładu normalnego różnią się położeniem środka rozkładu na osi x oraz opcja rozproszenia wokół tego środka  (ryc. 4.1 i 4.2). Cechą krzywej rozkładu normalnego jest jej symetria względem środka rozkładu – po obu stronach jej środka tworzą się dwie równomiernie malejące gałęzie, asymptotycznie zbliżające się do osi odciętej. Dlatego w rozkładzie normalnym średnia, tryb i mediana są takie same: = Mo = Ja.

  X

Krzywa rozkładu normalnego ma dwa punkty przegięcia (przejście od wypukłości do wklęsłości) w momencie t = 1, tj. gdy opcje odbiegają od średniej (x – ), równe odchyleniu standardowemu . W  z rozkładem normalnym wynosi 68,3%, w granicach 2 – 95,4%, w granicach 3 – 99,7% liczby obserwacji lub częstości szeregu rozkładu. W praktyce prawie nie ma odchyleń przekraczających 3dlatego daną zależność nazywa się „ reguła trzech sigm ».

Do obliczenia częstotliwości teoretycznych stosuje się wzór:

.

Ogrom
jest funkcją t lub gęstości rozkładu normalnego, którą wyznacza się ze specjalnej tabeli, której fragmenty podano w tabeli. 4.2.

Normalne wartości gęstości rozkładu Tabela 4.2

Wykres na ryc. 4.3 wyraźnie pokazuje bliskość rozkładu empirycznego (2) i normalnego (1).

Ryż. 4.3. Podział oddziałów pocztowych według liczby

pracownicy: 1 – normalni; 2 – empiryczne

Aby matematycznie uzasadnić bliskość rozkładu empirycznego do prawa rozkładu normalnego, oblicz kryteria zgody .

Kryterium Kołmogorowa - kryterium dobroci dopasowania, które pozwala ocenić stopień zbliżenia rozkładu empirycznego do normalnego. A. N. Kołmogorow zaproponował wykorzystanie maksymalnej różnicy między skumulowanymi częstotliwościami lub częstotliwościami tych szeregów w celu określenia zgodności między empirycznymi i teoretycznymi rozkładami normalnymi. Aby przetestować hipotezę, że rozkład empiryczny odpowiada prawu rozkładu normalnego, oblicza się kryterium dobroci dopasowania = D/
, gdzie D jest maksymalną różnicą między skumulowanymi (skumulowanymi) częstościami empirycznymi i teoretycznymi, n jest liczbą jednostek w populacji Za pomocą specjalnej tabeli wyznacza się P() - prawdopodobieństwo osiągnięcia , co oznacza, że ​​jeśli charakterystyka wariacyjna rozkłada się zgodnie z prawem normalnym, wówczas Z przyczyn losowych maksymalna rozbieżność między skumulowanymi częstotliwościami empirycznymi i teoretycznymi będzie nie mniejsza niż faktycznie obserwowana. Na podstawie wartości P() wyciąga się pewne wnioski: jeżeli prawdopodobieństwo P() jest wystarczająco duże, to hipotezę, że rzeczywisty rozkład odpowiada prawu normalnemu, można uznać za potwierdzoną; jeżeli prawdopodobieństwo P() jest małe, wówczas hipotezę zerową odrzuca się, a rozbieżności pomiędzy rozkładami rzeczywistymi i teoretycznymi uznaje się za istotne.

Wartości prawdopodobieństwa dla kryterium dobroci dopasowania  Tabela 4.3

Kryteria Pearsona 2 („chi-kwadrat”) - kryterium dobroci dopasowania, które pozwala ocenić stopień zbliżenia rozkładu empirycznego do normalnego:
,gdzie f i, f" i to częstotliwości rozkładów empirycznych i teoretycznych w pewnym przedziale. Im większa różnica między częstotliwościami obserwowanymi i teoretycznymi, tym większe kryterium  2. Aby rozróżnić znaczenie różnic w częstotliwościach rozkłady empiryczne i teoretyczne według kryterium  2 z różnic wynikających z próbek losowych, obliczoną wartość kryterium  2 oblicz porównano z tabelaryczną tabelą  2 z odpowiednią liczbą stopni swobody i danym poziomem istotności poziom jest dobierany w taki sposób, że P( 2 calc > 2 tab) = . Hl, Gdzie H– liczba grup; l– liczba warunków, które należy spełnić przy obliczaniu częstotliwości teoretycznych. Aby obliczyć teoretyczne częstości krzywej rozkładu normalnego za pomocą wzoru
musisz znać trzy parametry , , f, zatem liczba stopni swobody wynosi h–3. Jeśli  2 oblicz > 2 zakładka, tj.  2 mieści się w obszarze krytycznym, wówczas rozbieżność między częstotliwościami empirycznymi i teoretycznymi jest znaczna i nie można jej wytłumaczyć przypadkowymi fluktuacjami danych próbki. W tym przypadku hipoteza zerowa zostaje odrzucona. Jeśli  2 obliczenia  2 tabele, tj. obliczone kryterium nie przekracza maksymalnej możliwej rozbieżności częstotliwości, jaka może powstać w wyniku przypadku, wówczas w tym przypadku przyjmuje się hipotezę o zgodności rozkładów. Kryterium Pearsona jest skuteczne przy znacznej liczbie obserwacji (n50), a częstotliwości wszystkich przedziałów muszą wynosić co najmniej pięć jednostek (przy mniejszej liczbie przedziały są łączone), a liczba przedziałów (grup) musi być duże (h>5), ponieważ oszacowanie  2 zależy od liczby stopni swobody.

Kryterium Romanowskiego - kryterium dobroci dopasowania, które pozwala ocenić stopień zbliżenia rozkładu empirycznego do normalnego V.I. Romanovsky zaproponował ocenę bliskości rozkładu empirycznego do krzywej rozkładu normalnego w odniesieniu do:

, gdzie h jest liczbą grup.

Jeżeli stosunek jest większy niż 3, to rozbieżności pomiędzy częstotliwościami rozkładu empirycznego i normalnego nie można uznać za przypadkowe i należy odrzucić hipotezę o prawie rozkładu normalnego. Jeśli stosunek jest mniejszy lub równy 3, wówczas możemy przyjąć hipotezę, że rozkład danych jest normalny.

Aby uzyskać przybliżone wyobrażenie o kształcie rozkładu zmiennej losowej, wykreśla się wykres jej szeregu rozkładów (wielokąt i histogram), funkcję lub gęstość rozkładu. W praktyce badań statystycznych spotyka się bardzo różne rozkłady. Populacje jednorodne charakteryzują się z reguły rozkładami jednowierzchołkowymi. Multivertex wskazuje na heterogeniczność badanej populacji. W takim przypadku konieczne jest przegrupowanie danych w celu zidentyfikowania bardziej jednorodnych grup.

Określenie ogólnego charakteru rozkładu zmiennej losowej polega na ocenie stopnia jej jednorodności, a także obliczeniu wskaźników asymetrii i kurtozy. W rozkładzie symetrycznym, w którym oczekiwanie matematyczne jest równe medianie, tj. można uznać, że asymetrii nie ma. Jednak im bardziej zauważalna jest asymetria, tym większe jest odchylenie między charakterystyką centrum dystrybucyjnego – oczekiwaniem matematycznym a medianą.

Można rozważyć najprostszy współczynnik asymetrii rozkładu zmiennej losowej, gdzie jest oczekiwaniem matematycznym, jest medianą, a jest odchyleniem standardowym zmiennej losowej.

W przypadku asymetrii prawostronnej asymetria lewostronna. Jeżeli , asymetrię uznaje się za niską, jeśli za średnią, a w - wysoką. Geometryczną ilustrację prawostronnej i lewostronnej asymetrii pokazano na poniższym rysunku. Pokazuje wykresy gęstości rozkładu odpowiednich typów ciągłych zmiennych losowych.

Rysunek. Ilustracja prawo- i lewostronnej asymetrii na wykresach gęstości rozkładów ciągłych zmiennych losowych.

Istnieje inny współczynnik asymetrii rozkładu zmiennej losowej. Można udowodnić, że niezerowy moment centralny rzędu nieparzystego wskazuje na asymetrię w rozkładzie zmiennej losowej. W poprzednim wskaźniku użyliśmy wyrażenia podobnego do momentu pierwszego rzędu. Ale zwykle w tym innym współczynniku asymetrii stosuje się moment centralny trzeciego rzędu , a aby współczynnik ten stał się bezwymiarowy, dzieli się go przez sześcian odchylenia standardowego. Wynikowy współczynnik asymetrii wynosi: . Dla tego współczynnika asymetrii, podobnie jak dla pierwszego w przypadku asymetrii prawostronnej, lewostronnej - .

Kurtoza zmiennej losowej

Kurtoza rozkładu zmiennej losowej charakteryzuje stopień koncentracji jej wartości w pobliżu środka rozkładu: im wyższe stężenie, tym wyższy i węższy będzie wykres gęstości jej rozkładu. Wskaźnik kurtozy (ostrości) oblicza się ze wzoru: , gdzie jest momentem centralnym czwartego rzędu i jest odchyleniem standardowym podniesionym do czwartej potęgi. Ponieważ potęgi licznika i mianownika są takie same, kurtoza jest wielkością bezwymiarową. W tym przypadku za standard braku kurtozy przyjmuje się zerową kurtozę, przyjęcie rozkładu normalnego. Ale można to udowodnić dla rozkładu normalnego. Dlatego we wzorze na obliczenie kurtozy od tego ułamka odejmuje się liczbę 3.

Zatem dla rozkładu normalnego kurtoza wynosi zero: . Jeżeli kurtoza jest większa od zera, tj. , wówczas rozkład jest bardziej szczytowy niż normalnie. Jeżeli kurtoza jest mniejsza od zera, tj. , wówczas rozkład jest mniej szczytowy niż normalnie. Wartością graniczną ujemnej kurtozy jest wartość ; wielkość dodatniej kurtozy może być nieskończenie duża. Jak wyglądają wykresy gęstości rozkładu szczytowego i płaskiego zmiennych losowych w porównaniu z rozkładem normalnym pokazano na rysunku.

Rysunek. Ilustracja rozkładów gęstości zmiennych losowych o szczytowych i płaskich wierzchołkach w porównaniu z rozkładem normalnym.

Asymetria i kurtoza rozkładu zmiennej losowej pokazuje, jak bardzo odbiega ona od prawa normalnego. W przypadku dużych asymetrii i kurtozy nie należy stosować wzorów obliczeniowych na rozkład normalny. Jaki jest poziom dopuszczalności asymetrii i kurtozy dla stosowania wzorów na rozkład normalny w analizie danych dla konkretnej zmiennej losowej, powinien określić badacz na podstawie swojej wiedzy i doświadczenia.

Definicja. Moda M 0 dyskretnej zmiennej losowej nazywa się jej najbardziej prawdopodobną wartością. W przypadku ciągłej zmiennej losowej modą jest wartość zmiennej losowej, przy której gęstość rozkładu osiąga maksimum.

Jeżeli wielokąt rozkładu dyskretnej zmiennej losowej lub krzywa rozkładu ciągłej zmiennej losowej ma dwa lub więcej maksimów, to taki rozkład nazywa się dwumodalny Lub multimodalny.

Jeśli rozkład ma minimum, ale nie ma maksimum, nazywa się to dystrybucją antymodalny.

Definicja. Mediana M D zmiennej losowej X to jej wartość, względem której z równym prawdopodobieństwem otrzymana zostanie większa lub mniejsza wartość zmiennej losowej.

Z geometrycznego punktu widzenia mediana jest odciętą punktu, w którym obszar ograniczony krzywą rozkładu jest podzielony na pół.

Należy zauważyć, że jeśli rozkład jest jednomodalny, wówczas tryb i mediana pokrywają się z oczekiwaniami matematycznymi.

Definicja. Moment początkowy zamówienie k zmienna losowa X jest matematycznym oczekiwaniem wartości X k .

Dla dyskretnej zmiennej losowej: .

.

Początkowy moment pierwszego rzędu jest równy oczekiwaniu matematycznemu.

Definicja. Centralny moment zamówienie k zmienna losowa X jest matematycznym oczekiwaniem wartości

Dla dyskretnej zmiennej losowej: .

Dla ciągłej zmiennej losowej: .

Moment centralny pierwszego rzędu jest zawsze równy zeru, a moment centralny drugiego rzędu jest równy dyspersji. Moment centralny trzeciego rzędu charakteryzuje asymetrię rozkładu.

Definicja. Nazywa się stosunek momentu centralnego trzeciego rzędu do odchylenia standardowego do potęgi trzeciej współczynnik asymetrii.

Definicja. Aby scharakteryzować szczytowość i płaskość rozkładu, stosuje się wielkość zwaną nadmiar.

Oprócz rozważanych wielkości stosuje się również tak zwane momenty bezwzględne:

Bezwzględny moment początkowy: .

Absolutny punkt centralny: .

Kwantyl , odpowiadający danemu poziomowi prawdopodobieństwa R, jest wartością, przy której funkcja rozkładu przyjmuje wartość równą R, tj. Gdzie R- określony poziom prawdopodobieństwa.

Innymi słowy kwantyl istnieje wartość zmiennej losowej, przy której

Prawdopodobieństwo R, określony jako procent, nadaje nazwę odpowiedniemu kwantylowi, na przykład nazywa się go kwantylem 40%.

20. Matematyczne oczekiwanie i rozproszenie liczby wystąpień zdarzenia w niezależnych eksperymentach.

Definicja. Oczekiwanie matematyczne ciągła zmienna losowa X, której możliwe wartości należą do segmentu , nazywa się całką oznaczoną

Jeżeli możliwe wartości zmiennej losowej zostaną uwzględnione na całej osi liczbowej, wówczas oczekiwanie matematyczne można znaleźć według wzoru:

W tym przypadku zakłada się oczywiście, że całka niewłaściwa jest zbieżna.

Oczekiwanie matematyczne Dyskretna zmienna losowa to suma iloczynów jej możliwych wartości i odpowiadających im prawdopodobieństw:

M(X) =X 1 R 1 +X 2 R 2 + … +X P R P . (7.1)

Jeśli liczba możliwych wartości zmiennej losowej jest nieskończona, to
, jeśli wynikowy szereg jest zbieżny bezwzględnie.

Notatka 1. Czasami nazywane jest oczekiwaniem matematycznym Średnia ważona, ponieważ jest w przybliżeniu równy średniej arytmetycznej zaobserwowanych wartości zmiennej losowej w dużej liczbie eksperymentów.

Uwaga 2. Z definicji oczekiwania matematycznego wynika, że ​​jego wartość jest nie mniejsza niż najmniejsza możliwa wartość zmiennej losowej i nie większa niż największa.

Uwaga 3. Oczekiwanie matematyczne dyskretnej zmiennej losowej wynosi nie losowo(stały. Zobaczymy później, że to samo dotyczy ciągłych zmiennych losowych.

Właściwości oczekiwań matematycznych.

    Matematyczne oczekiwanie na stałą jest równe samej stałej:

M(Z) =Z.(7.2)

Dowód. Jeśli weźmiemy pod uwagę Z jako dyskretna zmienna losowa przyjmująca tylko jedną wartość Z z prawdopodobieństwem R= 1, zatem M(Z) =Z·1 = Z.

    Stały współczynnik można wyjąć z matematycznego znaku oczekiwania:

M(CX) =CM(X). (7.3)

Dowód. Jeśli zmienna losowa X podane przez szeregi dystrybucyjne

X I

X N

P I

P N

następnie szereg dystrybucyjny dla CX ma postać:

ZX I

ZX 1

ZX 2

ZX N

P I

P N

Następnie M(CX) =Cx 1 R 1 +Cx 2 R 2 + … +Cx P R P =Z(X 1 R 1 +X 2 R 2 + … +X P R P) =CM(X).

Oczekiwanie matematyczne nazywa się ciągłą zmienną losową

(7.13)

Notatka 1. Ogólna definicja wariancji pozostaje taka sama dla zmiennej losowej ciągłej i dyskretnej (por. def. 7.5), a wzór na jej obliczenie ma postać:

(7.14)

Odchylenie standardowe oblicza się ze wzoru (7.12).

Uwaga 2. Jeżeli wszystkie możliwe wartości ciągłej zmiennej losowej nie mieszczą się poza przedziałem [ A, B], wówczas całki we wzorach (7.13) i (7.14) oblicza się w tych granicach.

Twierdzenie. Wariancja liczby wystąpień zdarzenia w niezależnych próbach jest równa iloczynowi liczby prób i prawdopodobieństw wystąpienia lub niewystąpienia zdarzenia w jednej próbie: .

Dowód. Niech będzie liczbą wystąpień zdarzenia w niezależnych próbach. Jest ona równa sumie wystąpień zdarzenia w każdej próbie: . Ponieważ testy są niezależne, zmienne losowe – są zatem niezależne.

Jak pokazano powyżej, i .

Ach .

W tym przypadku, jak wspomniano wcześniej, odchylenie standardowe wynosi .

Analizując rozkład populacji, duże znaczenie ma ocena odchylenia danego rozkładu od symetrycznego, czyli innymi słowy jego skośności. Stopień skośności (asymetrii) jest jedną z najważniejszych właściwości rozmieszczenia populacji. Istnieje wiele statystyk przeznaczonych do obliczania asymetrii. Wszystkie spełniają co najmniej dwa wymagania dla dowolnego wskaźnika skośności: musi on być bezwymiarowy i równy zeru, jeśli rozkład jest symetryczny.

Na ryc. 2 a, b pokazują krzywe dwóch asymetrycznych rozkładów populacji, z których jeden jest przesunięty w lewo, a drugi w prawo. Względne położenie trybu, mediany i średniej jest pokazane jakościowo. Można zauważyć, że jeden z możliwych wskaźników skośności można skonstruować biorąc pod uwagę odległość, w jakiej znajdują się od siebie średnia i moda. Biorąc jednak pod uwagę złożoność wyznaczania postaci na podstawie danych empirycznych, a z drugiej strony znaną zależność (3) pomiędzy modą, medianą i średnią, zaproponowano następujący wzór do obliczenia wskaźnika asymetrii:

Z tego wzoru wynika, że ​​rozkłady pochylone w lewo mają skośność dodatnią, a rozkłady pochylone w prawo mają skośność ujemną. Naturalnie dla rozkładów symetrycznych, dla których średnia i mediana pokrywają się, asymetria wynosi zero.

Obliczmy wskaźniki asymetrii dla danych podanych w tabeli. 1 i 2. Dla rozkładu czasu trwania cyklu serca mamy:

Zatem rozkład ten jest lekko przesunięty w lewo. Uzyskana wartość asymetrii jest przybliżona i nie dokładna, ponieważ do jej obliczenia wykorzystano wartości obliczone w sposób uproszczony.

Dla rozmieszczenia grup sulfhydrylowych w surowicy krwi mamy:

Zatem rozkład ten ma ujemną skośność, tj. przesunięty w prawo.

Teoretycznie pokazano, że wartość określona wzorem 13 mieści się w granicach 3. Jednak w praktyce wartość ta bardzo rzadko osiąga wartości graniczne, a dla umiarkowanie asymetrycznych rozkładów jednowierzchołkowych jej wartość bezwzględna jest zwykle mniejsza niż jeden.

Wskaźnik asymetrii można wykorzystać nie tylko do formalnego opisu rozmieszczenia populacji, ale także do sensownej interpretacji uzyskanych danych.

Faktycznie, jeśli obserwowana przez nas cecha kształtuje się pod wpływem dużej liczby niezależnych od siebie przyczyn, z których każda wnosi stosunkowo niewielki wkład do wartości tej cechy, to zgodnie z pewnymi przesłankami teoretycznymi omawianymi w rozdziale w części poświęconej teorii prawdopodobieństwa mamy prawo oczekiwać, że uzyskany w wyniku eksperymentu rozkład populacji będzie symetryczny. Jeżeli jednak dla danych doświadczalnych uzyskana zostanie znaczna wartość asymetrii (wartość liczbowa As modulo mieści się w granicach kilku dziesiątych), to można przyjąć, że powyższe warunki nie są spełnione.

W tym przypadku sensowne jest założenie albo istnienia jednego lub dwóch czynników, których udział w kształtowaniu wartości obserwowanej w eksperymencie jest znacznie większy niż pozostałych, albo postulowanie istnienia specjalnego mechanizmu, jakim jest różni się od mechanizmu niezależnego wpływu wielu przyczyn na wartość obserwowanej cechy.

Jeśli więc np. zmiany interesującej nas wielkości, odpowiadające działaniu pewnego czynnika, będą proporcjonalne do samej tej wartości i intensywności działania przyczyny, to wynikowy rozkład będzie zawsze przesunięty w stosunku do lewo, tj. mieć dodatnią skośność. Biolodzy na przykład spotykają się z takim mechanizmem, szacując ilości związane ze wzrostem roślin i zwierząt.

Inny sposób oceny skośności opiera się na metodzie momentów, co zostanie omówione w rozdziale 44. Zgodnie z tą metodą skośność oblicza się wykorzystując sumę odchyleń wszystkich wartości serii danych od średniej , podniesione do potęgi trzeciej, czyli:

Trzecia potęga zapewnia, że ​​licznik tego wyrażenia jest równy zero dla rozkładów symetrycznych, ponieważ w tym przypadku sumy odchyleń w górę i w dół od średniej do trzeciej potęgi będą równe i będą miały przeciwne znaki. Dzielenie przez zapewnia bezwymiarowość miary asymetrii.

Wzór (14) można przekształcić w następujący sposób. W poprzednim akapicie wprowadzono znormalizowane wartości:

Zatem miarą skośności jest średnia danych standaryzowanych w kostce.

Dla tych samych danych, dla których asymetrię obliczono ze wzoru (13), wskaźnik znajdujemy ze wzoru (15). Mamy:

Naturalnie wskaźniki asymetrii obliczone przy użyciu różnych wzorów różnią się między sobą wielkością, ale w równym stopniu wskazują na charakter skośności. W pakietach aplikacji do analizy statystycznej przy obliczaniu asymetrii stosuje się wzór (15), ponieważ daje on dokładniejsze wartości. Do wstępnych obliczeń za pomocą prostych kalkulatorów można skorzystać ze wzoru (13).

Nadmiar. W związku z tym zbadaliśmy trzy z czterech grup wskaźników, za pomocą których opisuje się rozkłady populacji. Ostatni z nich to grupa wskaźników szczytowości, czyli kurtozy (z greckiego – garbaty). Aby obliczyć jeden z możliwych wskaźników kurtozy, stosuje się następujący wzór:

Stosując to samo podejście, które zastosowano przy przekształcaniu wzoru na asymetrię (14) łatwo wykazać, że:

Teoretycznie wykazano, że wartość kurtozy dla krzywej rozkładu normalnego (Gaussa), która odgrywa dużą rolę w statystyce, a także w teorii prawdopodobieństwa, jest liczbowo równa 3. Na podstawie szeregu rozważań ostrość krzywa ta jest traktowana jako standard, dlatego jako wskaźnik kurtozy należy zastosować wartość:

Znajdźmy wartość szczytową dla danych podanych w tabeli. 1. Mamy:

Zatem krzywa rozkładu czasu trwania cykli serca jest spłaszczona w porównaniu z krzywą normalną, dla której.

W tabeli Rycina 3 przedstawia rozkład liczby kwiatów marginalnych u jednego z gatunków chryzantem. Do tej dystrybucji

Kurtoza może przyjmować bardzo duże wartości, jak widać na podanym przykładzie, jednak jej dolna granica nie może być mniejsza niż jedność. Okazuje się, że jeśli rozkład jest bimodalny, to wartość kurtozy zbliża się do dolnej granicy, a więc zmierza do -2. Jeśli więc w wyniku obliczeń okaże się, że jest to wartość mniejsza od -1-1,4, to możemy być pewni, że rozkład populacji, jakim dysponujemy, jest co najmniej bimodalny. Jest to szczególnie ważne, aby wziąć to pod uwagę, gdy dane eksperymentalne, z pominięciem etapu wstępnego przetwarzania, są analizowane przy użyciu komputera cyfrowego, a badacz nie ma przed oczami bezpośredniej graficznej reprezentacji rozmieszczenia populacji.

Dwuszczytowa krzywa rozkładu danych eksperymentalnych może powstać z wielu powodów. W szczególności taki rozkład może pojawić się poprzez połączenie dwóch zestawów heterogenicznych danych w jeden zestaw. Aby to zilustrować, sztucznie połączyliśmy dane dotyczące szerokości muszli dwóch typów mięczaków kopalnych w jeden zestaw (tabela 4, ryc. 3).

Rysunek wyraźnie pokazuje obecność dwóch trybów, ponieważ mieszają się dwa zestawy danych z różnych populacji. Z obliczeń wynika, że ​​kurtoza wynosi 1,74, a zatem = -1,26. Zatem obliczona wartość wskaźnika piku wskazuje, zgodnie z wcześniejszym stanowiskiem, że rozkład ma dwa piki.

Jest tu jedno zastrzeżenie. Rzeczywiście, we wszystkich przypadkach, gdy rozkład populacji ma dwa maksima, wartość kurtozy będzie bliska jedności. Fakt ten nie może jednak automatycznie prowadzić do wniosku, że analizowany zbiór danych jest mieszaniną dwóch heterogenicznych próbek. Po pierwsze, taka mieszanina, w zależności od liczby tworzących ją agregatów, może nie mieć dwóch pików, a wskaźnik kurtozy będzie znacznie większy niż jeden. Po drugie, jednorodna próbka może mieć dwa tryby, jeśli na przykład zostaną naruszone wymagania dotyczące doboru danych eksperymentalnych. Zatem w tym, podobnie jak w innych przypadkach, po formalnym obliczeniu różnych statystyk, należy przeprowadzić wnikliwą, profesjonalną analizę, która pozwoli na sensowną interpretację uzyskanych danych.

Najnowsze materiały w dziale:

Badania
Praca badawcza „Kryształy” Co nazywa się kryształem

KRYSZTAŁY I KRYSTALOGRAFIA Kryształ (od greckiego krystallos – „przezroczysty lód”) pierwotnie nazywany był przezroczystym kwarcem (kryształ górski),...

Idiomy „morskie” w języku angielskim
Idiomy „morskie” w języku angielskim

"Nie tak prędko!" - rzadki przypadek, gdy angielski idiom jest tłumaczony słowo w słowo na rosyjski. Angielskie idiomy są interesujące...

Henryk Żeglarz: biografia i ciekawe fakty
Henryk Żeglarz: biografia i ciekawe fakty

Portugalski książę Enrique Żeglarz dokonał wielu odkryć geograficznych, chociaż sam wypłynął w morze tylko trzy razy. Rozpoczął...