Изкривяване и ексцес на разпределението на случайна променлива. Изчисляване на изкривяване и ексцес на емпирично разпределение в Excel Коефициент на ексцес на нормално разпределение

Коефициент на асиметрияпоказва "изкривяването" на серията на разпределение спрямо центъра:

къде е централният момент от трети ред;

– куб стандартно отклонение.

За този метод на изчисление: ако , разпределението е дясно (положителна асиметрия), ако , разпределението е ляво (отрицателна асиметрия)

В допълнение към централния момент, асиметрията може да се изчисли с помощта на режима или медианата:

или , (6.69)

За този метод на изчисление: ако , разпределението е дясно (положителна асиметрия), ако , разпределението е ляво (отрицателна асиметрия) (фиг. 4).


Ориз. 4. Асиметрични разпределения

Извиква се стойността, показваща "стръмността" на разпределението коефициент на ексцес:

Ако , в разпределението има заостреност – ексцесът е положителен, ако , се наблюдава в разпределението плоскост – ексцесът е отрицателен (фиг. 5).

Ориз. 5. Разпределителни ексцесии

Пример 5.Има данни за броя на овцете във фермите в региона (табл. 9).

1. Среден брой овце във ферма.

3. Медиана.

4. Индикатори за вариация

· дисперсия;

· стандартно отклонение;

· коефициентът на вариация.

5. Индикатори за асиметрия и ексцес.

Решение.

1. Тъй като стойността на опциите в съвкупността се повтаря няколко пъти, с определена честота за изчисляване на средната стойност използваме формулата за средноаритметично претеглено:

2. Тази серия е дискретна, така че режимът ще бъде опцията с най-висока честота - .

3. Тази серия е четна, в този случай медианата за дискретна серия се намира по формулата:

Тоест половината от фермите в изследваната популация имат до 4,75 хил. глави овце. и половината са над това число.

4. За да изчислим индикаторите за вариация, ще съставим таблица 10, в която ще изчислим отклоненията, квадратите на тези отклонения, изчислението може да се извърши както с помощта на прости, така и с претеглени формули за изчисление (в примера използваме проста едно):

Таблица 10

2,00 -2,42 5,84
2,50 -1,92 3,67
2,50 -1,92 3,67
3,00 -1,42 2,01
3,00 -1,42 2,01
4,00 -0,42 0,17
5,50 1,08 1,17
5,50 1,08 1,17
5,50 1,08 1,17
6,00 1,58 2,51
6,50 2,08 4,34
7,00 2,58 6,67
Обща сума 53,00 0,00 34,42
Средно аритметично 4,4167

Нека изчислим дисперсията:

Нека изчислим стандартното отклонение:

Нека изчислим коефициента на вариация:

5. За да изчислим показателите за асиметрия и ексцес, ще изградим таблица 11, в която ще изчислим , ,

Таблица 11

2,00 -2,42 -14,11 34,11
2,50 -1,92 -7,04 13,50
2,50 -1,92 -7,04 13,50
3,00 -1,42 -2,84 4,03
3,00 -1,42 -2,84 4,03
4,00 -0,42 -0,07 0,03
5,50 1,08 1,27 1,38
5,50 1,08 1,27 1,38
5,50 1,08 1,27 1,38
6,00 1,58 3,97 6,28
6,50 2,08 9,04 18,84
7,00 2,58 17,24 44,53
Обща сума 53,00 0,00 0,11 142,98
Средно аритметично 4,4167

Асимметрията на разпределението е:

Тоест се наблюдава лявостранна асиметрия, тъй като , което се потвърждава при изчисляване по формулата:

В този случай, което за тази формула също показва лявостранна асиметрия

Ексцесът на разпределението е равен на:

В нашия случай ексцесът е отрицателен, тоест се наблюдава равнинност.

Пример 6. Данните за заплатите на работниците са представени за домакинството (Таблица 12)

Решение.

За серия от интервални вариации режимът се изчислява по формулата:

Където модален интервал – интервал с най-висока честота, в нашия случай 3600-3800, с честота

Минимално ограничение на модалния интервал (3600);

Стойност на модалния интервал (200);

Интервална честота, предхождаща модалния интервал (25);

Честота след модален интервал (29);

Модална интервална честота (68).

Таблица 12

За серия от интервални вариации медианата се изчислява по формулата:

Където среден интервал това е интервал, чиято кумулативна (натрупана) честота е равна или по-голяма от половината от сбора на честотите, в нашия пример е 3600-3800.

Минимална граница на средния интервал (3600);

Средна стойност на интервала (200);

Сума от честотите на серията (154);

Сума от натрупаните честоти, всички интервали, предхождащи медианата (57);

– честота на медианния интервал (68).

Пример 7.За три ферми в един район има информация за капиталоемкостта на производството (сумата на разходите за основен капитал за 1 рубла произведена продукция): I - 1,29 рубли, II - 1,32 рубли, III - 1,27 рубли. Необходимо е да се изчисли средната капиталова интензивност.

Решение. Тъй като капиталоемкостта е обратен индикатор на оборота на капитала, ние използваме простата формула за хармонична средна стойност.

Пример 8.За три стопанства от една област има данни за брутна реколта от зърно и среден добив (табл. 13).

Решение. Изчисляването на средния добив с помощта на средноаритметичното е невъзможно, тъй като няма информация за броя на засетите площи, затова използваме формулата за среднопретеглената хармонична стойност:

Пример 9.Има данни за средния добив на картофи в отделните райони и броя на хълмовете (Таблица 14)

Таблица 14

Нека групираме данните (Таблица 15):

Таблица 15

Групиране на площи въз основа на броя на плевелите

1. Изчислете общата дисперсия на извадката (Таблица 16).

При анализиране на вариационни серии изместването от центъра и наклонът на разпределението се характеризират със специални показатели. Емпиричните разпределения като правило са изместени от центъра на разпределението надясно или наляво и са асиметрични. Нормалното разпределение е строго симетрично спрямо средното аритметично, което се дължи на четността на функцията.

Изкривеност на разпределението възниква поради факта, че някои фактори действат по-силно в една посока, отколкото в друга, или процесът на развитие на явлението е такъв, че някаква причина доминира. Освен това природата на някои явления е такава, че има асиметрично разпределение.

Най-простата мярка за асиметрия е разликата между средната аритметична стойност, модата и медианата:

За да се определи посоката и големината на изместването (асиметрията) на разпределението, се изчислява коефициент на асиметрия , което е нормализиран момент от трети ред:

As= 3 / 3, където  3 е централен момент от трети ред;  3 – стандартно отклонение в куб. 3 = (m 3 – 3m 1 m 2 + 2m 1 3)k 3 .

За лявостранна асиметрия коефициент на асиметрия (Като<0), при правосторонней (As>0) .

Ако върхът на разпределението е изместен наляво и дясната част на клона се окаже по-дълга от лявата, тогава такава асиметрия е дясностранно, в противен случай левичар .

Връзката между режима, медианата и средната аритметична стойност в симетрични и асиметрични серии ни позволява да използваме по-прост индикатор като мярка за асиметрия коефициент на асиметрия Пиърсън :

K a = ( –Mo)/. Ако K a >0, тогава асиметрията е дясностранна, ако K a<0, то асимметрия левосторонняя, при К a =0 ряд считается симметричным.

Асиметрията може да се определи по-точно с помощта на централен момент от трети ред:

, където 3 = (m 3 – 3m 1 m 2 + 2m 1 3)k 3 .

Ако > 0, тогава асиметрията може да се счита за значима, ако < 0,25 асимметрию можно считать не значительной.

За да се характеризира степента на отклонение на симетрично разпределение от нормално разпределение по ординатата, индикаторът за пиковост, стръмността на разпределението, т.нар. излишък :

Ex = ( 4 / 4) – 3, където:  4 – централен момент от четвърти ред.

За нормално разпределение Ex = 0, т.е.  4 / 4 = 3.  4 = (m 4 – 4m 3 m 1 + 6m 2 m 2 1 – 3 m 4 1)* k 4 .

Кривите с висок пик имат положителен ексцес, докато кривите с нисък пик имат отрицателен ексцес (фиг. D.2).

Индикаторите за ексцес и асиметрия са необходими в статистическия анализ, за ​​да се определи хетерогенността на популацията, асиметрията на разпределението и близостта на емпиричното разпределение до нормалния закон. При значителни отклонения на показателите за асиметрия и ексцес от нула, популацията не може да се счита за хомогенна и разпределението близко до нормалното. Сравнението на действителните криви с теоретичните криви позволява математически да обоснове получените статистически резултати, да установи вида и характера на разпределението на социално-икономическите явления и да предскаже вероятността от настъпване на изследваните събития.

4.7. Обосновка на близостта на емпиричното (действително) разпределение с теоретичното нормално разпределение. Нормално разпределение (закон на Гаус-Лаплас) и неговите характеристики. „Правилото на трите сигми“. Критерии за съответствие (използвайки примера на критерия на Пиърсън или Колгомогоров).

Можете да забележите известна връзка в промяната на честотите и стойностите на вариращата характеристика. С увеличаване на стойността на атрибута честотите първо се увеличават, а след достигане на определена максимална стойност намаляват. Такива регулярни промени в честотите във вариационни серии се наричат модели на разпространение.

За да се идентифицира модел на разпространение, е необходимо вариационните серии да съдържат достатъчно голям брой единици и самите серии да представляват качествено хомогенни популации.

Разпределителен полигон, конструиран въз основа на действителни данни, е емпирична (действителна) крива на разпределение, отразяващи не само обективни (общи), но и субективни (случайни) условия на разпространение, които не са характерни за изследваното явление.

В практическата работа законът за разпределение се намира чрез сравняване на емпиричното разпределение с едно от теоретичните и оценка на степента на разлика или съответствие между тях. Теоретична крива на разпределениеотразява в чист вид, без да отчита влиянието на случайни фактори, общия модел на честотно разпределение (плътност на разпределение) в зависимост от стойностите на различни характеристики.

В статистиката са разпространени различни видове теоретични разпределения: нормално, биномно, поасоново и др. Всяко от теоретичните разпределения има своя специфика и обхват.

Закон за нормалното разпределение характеристика на разпределението на еднакво вероятни събития, възникващи по време на взаимодействието на много случайни фактори. Законът за нормалното разпределение е в основата на статистическите методи за оценка на параметрите на разпределението, представителността на извадковите наблюдения и измерване на връзката на масовите явления. За да се провери доколко действителното разпределение съответства на нормалното, е необходимо да се сравнят честотите на действителното разпределение с теоретичните честоти, характерни за нормалния закон на разпределение. Тези честоти са функция на нормализираните отклонения. Следователно, въз основа на данните от серията на емпиричното разпределение, се изчисляват нормализираните отклонения t. След това се определят съответните теоретични честоти. Това изравнява емпиричното разпределение.

Нормална дистрибуцияили законът на Гаус-Лаплас се описва от уравнението
, където y t е ординатата на кривата на нормалното разпределение или честотата (вероятността) на стойността x на нормалното разпределение; – математическо очакване (средна стойност) на отделните x стойности. Ако стойностите (x – ) измерване (изразяване) чрез стандартно отклонение , т.е. в стандартизирани (нормализирани) отклонения t = (x – )/, тогава формулата ще приеме формата:
. Нормалното разпределение на социално-икономическите явления в чист вид е рядкост, но ако се запази хомогенността на населението, действителните разпределения често са близки до нормалните. Моделът на разпределение на изследваните величини се разкрива чрез проверка на съответствието на емпиричното разпределение с теоретичния закон за нормалното разпределение. За да направите това, действителното разпределение се подравнява с нормалната крива и се изчислява критерии за съгласие .

Нормалното разпределение се характеризира с два значими параметъра, които определят центъра на групиране на отделните стойности и формата на кривата: средно аритметично и стандартно отклонение . Нормалните криви на разпределение се различават по позицията на центъра на разпределението по оста x и опцията за разсейване около този център  (фиг. 4.1 и 4.2). Характеристика на кривата на нормалното разпределение е нейната симетрия спрямо центъра на разпределението - от двете страни на нейната среда се образуват два равномерно намаляващи клона, асимптотично приближаващи се към абсцисната ос. Следователно при нормално разпределение средната стойност, модата и медианата са еднакви: = Мо = Аз.

  х

Кривата на нормалното разпределение има две инфлексни точки (преход от изпъкналост към вдлъбнатост) при t = 1, т.е. когато опциите се отклоняват от средното (x – ), равно на стандартното отклонение . В рамките на  с нормално разпределение е 68,3%, в рамките 2 – 95,4%, в рамките 3 – 99,7% от броя на наблюденията или честотите на серията на разпределение. На практика почти няма отклонения над 3затова дадената връзка се нарича „ правило три сигма ».

За изчисляване на теоретичните честоти се използва формулата:

.

величина
е функция на t или плътността на нормалното разпределение, която се определя от специална таблица, извадки от която са дадени в табл. 4.2.

Нормални стойности на плътност на разпределение Таблица 4.2

Графика на фиг. 4.3 ясно демонстрира близостта на емпиричното (2) и нормалното (1) разпределение.

Ориз. 4.3. Разпределение на пощенските клонове по брой

работници: 1 – нормални; 2 – емпиричен

За да обосновете математически близостта на емпиричното разпределение до закона за нормалното разпределение, изчислете критерии за съгласие .

Критерий на Колмогоров -критерий за добро съответствие, който позволява да се оцени степента на близост на емпиричното разпределение до нормалното. А. Н. Колмогоров предложи да се използва максималната разлика между натрупаните честоти или честоти на тези серии, за да се определи съответствието между емпиричните и теоретичните нормални разпределения. За да се провери хипотезата, че емпиричното разпределение съответства на закона за нормалното разпределение, се изчислява критерият за съответствие = D/
, където D е максималната разлика между кумулативните (натрупаните) емпирични и теоретични честоти, n е броят единици в популацията.С помощта на специална таблица се определя P() - вероятността за постигане на , което означава, че ако вариационната характеристика се разпределя по нормален закон, тогава По случайни причини максималното несъответствие между емпиричните и теоретичните натрупани честоти ще бъде не по-малко от действително наблюдаваната. Въз основа на стойността на P() се правят определени заключения: ако вероятността P() е достатъчно голяма, тогава хипотезата, че действителното разпределение съответства на нормалния закон, може да се счита за потвърдена; ако вероятността P() е малка, тогава нулевата хипотеза се отхвърля и несъответствията между действителното и теоретичното разпределение се считат за значителни.

Стойности на вероятността за критерия за добро съответствие  Таблица 4.3

Критерии на Пиърсън 2 („хи-квадрат“) - критерий за добро съответствие, който позволява да се оцени степента на близост на емпиричното разпределение до нормалното:
,където f i, f" i са честотите на емпиричните и теоретичните разпределения в определен интервал. Колкото по-голяма е разликата между наблюдаваните и теоретичните честоти, толкова по-голям е критерият  2. За да се разграничи значимостта на разликите в честотите на емпирични и теоретични разпределения според критерия  2 от разлики, дължащи се на случайни проби, изчислената стойност на критерия  2 calc се сравнява с табличната  2 таблица с подходящия брой степени на свобода и дадено ниво на значимост. нивото е избрано така, че P( 2 calc > 2 tab) =  Броят на степените на свобода е чл, Където ч– брой групи; л– броя на условията, които трябва да бъдат изпълнени при изчисляване на теоретичните честоти. За изчисляване на теоретичните честоти на кривата на нормалното разпределение се използва формулата
трябва да знаете три параметъра , , f, следователно броят на степените на свобода е h–3. Ако  2 calc > 2 tab, т.е.  2 попада в критичната област, тогава несъответствието между емпиричните и теоретичните честоти е значително и не може да се обясни със случайни колебания в данните от извадката. В този случай нулевата хипотеза се отхвърля. Ако  2 изчисления  2 таблици, т.е. изчисленият критерий не надвишава максимално възможното отклонение на честотите, което може да възникне поради случайност, тогава в този случай се приема хипотезата за съответствието на разпределенията. Критерият на Pearson е ефективен при значителен брой наблюдения (n50), а честотите на всички интервали трябва да наброяват най-малко пет единици (при по-малък брой интервалите се комбинират), а броят на интервалите (групите) трябва да бъде голям (h>5), тъй като оценката  2 зависи от броя на степените на свобода.

критерий Романовски -критерий за съответствие, който позволява да се оцени степента на близост на емпиричното разпределение до нормалното. Романовски предложи да се оцени близостта на емпиричното разпределение до кривата на нормалното разпределение по отношение на:

, където h е броят на групите.

Ако съотношението е по-голямо от 3, тогава несъответствието между честотите на емпиричното и нормалното разпределение не може да се счита за случайно и хипотезата за нормален закон на разпределение трябва да бъде отхвърлена. Ако съотношението е по-малко или равно на 3, тогава можем да приемем хипотезата, че разпределението на данните е нормално.

За да се получи приблизителна представа за формата на разпределението на случайна променлива, се начертава графика на нейните серии на разпределение (многоъгълник и хистограма), функция или плътност на разпределение. В практиката на статистическите изследвания се срещат много различни разпределения. Хомогенните популации се характеризират, като правило, с едновърхови разпределения. Multivertex показва хетерогенността на изследваната популация. В този случай е необходимо да се прегрупират данните, за да се идентифицират по-хомогенни групи.

Определянето на общия характер на разпределението на случайна променлива включва оценка на степента на нейната хомогенност, както и изчисляване на показателите за асиметрия и ексцес. При симетрично разпределение, при което математическото очакване е равно на медианата, т.е. , може да се счита, че няма асиметрия. Но колкото по-забележима е асиметрията, толкова по-голямо е отклонението между характеристиките на разпределителния център - математическото очакване и медианата.

Най-простият коефициент на асиметрия на разпределението на случайна променлива може да се разглежда, където е математическото очакване, е медианата и е стандартното отклонение на случайната променлива.

В случай на дясностранна асиметрия, лявостранна асиметрия. Ако , асиметрията се счита за ниска, ако - средна, а при - висока. Геометрична илюстрация на дясната и лявата асиметрия е показана на фигурата по-долу. Той показва графики на плътността на разпределението на съответните типове непрекъснати случайни променливи.

рисуване. Илюстрация на дясна и лява асиметрия в диаграми на плътност на разпределения на непрекъснати случайни променливи.

Има и друг коефициент на асиметрия на разпределението на случайна променлива. Може да се докаже, че ненулев централен момент от нечетен ред показва асиметрия в разпределението на случайната променлива. В предишния индикатор използвахме израз, подобен на момента на първия ред. Но обикновено в този друг коефициент на асиметрия се използва централният момент от трети ред , а за да стане този коефициент безразмерен, той се разделя на куба на стандартното отклонение. Полученият коефициент на асиметрия е: . За този коефициент на асиметрия, както и за първия в случай на дясностранна асиметрия, лявостранна - .

Ексцес на случайна променлива

Ексцесът на разпределението на случайна променлива характеризира степента на концентрация на нейните стойности близо до центъра на разпределението: колкото по-висока е концентрацията, толкова по-висока и по-тясна ще бъде графиката на плътността на нейното разпределение. Показателят ексцес (острота) се изчислява по формулата: , където е централният момент от 4-ти ред и е стандартното отклонение, повдигнато на 4-та степен. Тъй като степените на числителя и знаменателя са еднакви, ексцесът е безразмерна величина. В този случай се приема като стандарт за липса на ексцес, нулев ексцес, да се приеме нормалното разпределение. Но може да се докаже, че за нормално разпределение . Следователно във формулата за изчисляване на ексцеса числото 3 се изважда от тази дроб.

Така за нормално разпределение ексцесът е нула: . Ако ексцесът е по-голям от нула, т.е. , тогава разпределението е по-пиково от нормалното. Ако ексцесът е по-малък от нула, т.е. , тогава разпределението е по-малко пиково от нормалното. Ограничителната стойност на отрицателния ексцес е стойността на ; величината на положителния ексцес може да бъде безкрайно голяма. Как изглеждат графиките на гъстотите на разпределение на случайни променливи с връхни и плоски връхчета в сравнение с нормално разпределение е показано на фигурата.

рисуване. Илюстрация на разпределения на плътност с връх и плосък връх на случайни променливи в сравнение с нормалното разпределение.

Асиметрията и ексцесът на разпределението на една случайна променлива показват колко тя се отклонява от нормалния закон. За големи асиметрии и ексцес не трябва да се използват изчислителни формули за нормално разпределение. Какво е нивото на допустимост на асиметрията и ексцеса за използване на формули за нормално разпределение при анализа на данни за конкретна случайна променлива, трябва да се определи от изследователя въз основа на неговите знания и опит.

Определение. Мода M 0 на дискретна случайна променлива се нарича нейната най-вероятна стойност. За непрекъсната случайна променлива режимът е стойността на случайната променлива, при която плътността на разпределение има максимум.

Ако полигонът на разпределение за дискретна случайна променлива или кривата на разпределение за непрекъсната случайна променлива има два или повече максимума, тогава такова разпределение се нарича бимодаленили мултимодален.

Ако дадено разпределение има минимум, но няма максимум, то се извиква антимодални.

Определение. Медиана M D на случайна променлива X е нейната стойност, спрямо която е еднакво вероятно да се получи по-голяма или по-малка стойност на случайната променлива.

Геометрично медианата е абсцисата на точката, в която площта, ограничена от кривата на разпределение, е разделена наполовина.

Имайте предвид, че ако разпределението е унимодално, тогава модата и медианата съвпадат с математическото очакване.

Определение. Началният моментпоръчка к случайната променлива X е математическото очакване на стойността X к .

За дискретна случайна променлива: .

.

Началният момент на първи ред е равен на математическото очакване.

Определение. Централен моментпоръчка кслучайната променлива X е математическото очакване на стойността

За дискретна случайна променлива: .

За непрекъсната случайна променлива: .

Централният момент от първи ред винаги е нула, а централният момент от втори ред е равен на дисперсията. Централният момент от трети ред характеризира асиметрията на разпределението.

Определение. Отношението на централния момент от трети ред към стандартното отклонение на трета степен се нарича коефициент на асиметрия.

Определение. За характеризиране на пиковата и плоскост на разпределението се използва величина, наречена излишък.

В допълнение към разглежданите количества се използват и така наречените абсолютни моменти:

Абсолютен начален момент: .

Абсолютна централна точка: .

Квантил , съответстващи на дадено ниво на вероятност Р, е стойността, при която функцията на разпределение приема стойност, равна на Р, т.е. Където Р- определено ниво на вероятност.

С други думи квантил има стойност на случайна променлива, при която

Вероятност Р, посочен като процент, дава името на съответния квантил, например, той се нарича 40% квантил.

20. Математическо очакване и дисперсия на броя на случванията на събитие в независими експерименти.

Определение. Математическо очакваненепрекъсната случайна променлива X, чиито възможни стойности принадлежат на сегмента, се нарича определен интеграл

Ако възможните стойности на случайна променлива се разглеждат по цялата числена ос, тогава математическото очакване се намира по формулата:

В този случай, разбира се, се приема, че неправилният интеграл се събира.

Математическо очакванеДискретна случайна променлива е сумата от продуктите на нейните възможни стойности и съответните им вероятности:

М(х) =х 1 Р 1 +х 2 Р 2 + … +х П Р П . (7.1)

Ако броят на възможните стойности на случайна променлива е безкраен, тогава
, ако получената редица се сближава абсолютно.

Бележка 1.Математическото очакване понякога се нарича среднопретеглена стойност, тъй като е приблизително равно на средноаритметичната стойност на наблюдаваните стойности на случайната променлива за голям брой експерименти.

Бележка 2.От дефиницията на математическото очакване следва, че неговата стойност е не по-малка от най-малката възможна стойност на случайна променлива и не повече от най-голямата.

Бележка 3.Математическото очакване на дискретна случайна променлива е неслучайни(постоянен. По-късно ще видим, че същото важи и за непрекъснатите случайни променливи.

Свойства на математическото очакване.

    Математическото очакване на константа е равно на самата константа:

М(СЪС) =СЪС.(7.2)

Доказателство. Ако вземем предвид СЪСкато дискретна случайна променлива, приемаща само една стойност СЪСс вероятност Р= 1, тогава М(СЪС) =СЪС·1 = СЪС.

    Постоянният фактор може да бъде изваден от знака за математическо очакване:

М(CX) =СМ(х). (7.3)

Доказателство. Ако случайната променлива хдадени по серии за разпространение

х аз

х н

стр аз

стр н

тогава серията за разпространение за CXима формата:

СЪСх аз

СЪСх 1

СЪСх 2

СЪСх н

стр аз

стр н

Тогава М(CX) =Cx 1 Р 1 +Cx 2 Р 2 + … +Cx П Р П =СЪС(х 1 Р 1 +х 2 Р 2 + … +х П Р П) =СМ(х).

Математическо очакванесе нарича непрекъсната случайна променлива

(7.13)

Бележка 1.Общата дефиниция на дисперсията остава същата както за непрекъсната случайна променлива, така и за дискретна (деф. 7.5), а формулата за нейното изчисляване има формата:

(7.14)

Стандартното отклонение се изчислява по формула (7.12).

Бележка 2.Ако всички възможни стойности на непрекъсната случайна променлива не попадат извън интервала [ а, b], тогава интегралите във формули (7.13) и (7.14) се изчисляват в тези граници.

Теорема. Дисперсията на броя на случванията на дадено събитие в независими изпитания е равна на произведението от броя на изпитанията и вероятностите за настъпване и ненастъпване на събитие в едно изпитание: .

Доказателство. Нека е броят на появяванията на събитието в независими опити. То е равно на сбора от случаите на събитието във всеки опит: . Тъй като тестовете са независими, случайните променливи – са независими, следователно .

Както е показано по-горе, , и .

Тогава ах .

В този случай, както беше споменато по-рано, стандартното отклонение е .

При анализа на разпределението на съвкупността съществен интерес представлява оценката за отклонението на дадено разпределение от симетрично, или с други думи неговата асиметрия. Степента на асимметричност (асиметрия) е едно от най-важните свойства на разпределението на населението. Има редица статистики, предназначени за изчисляване на асиметрията. Всички те отговарят на поне две изисквания за всеки индикатор за асиметрия: той трябва да бъде безразмерен и равен на нула, ако разпределението е симетрично.

На фиг. 2 a, b показват криви на две асиметрични разпределения на населението, едното от които е изкривено наляво, а другото - надясно. Относителната позиция на модата, медианата и средната стойност е показана качествено. Може да се види, че един от възможните индикатори за асиметрия може да бъде конструиран, като се вземе предвид разстоянието, на което средната стойност и модата са разположени една от друга. Но като се има предвид сложността на определяне на модата от емпирични данни и от друга страна, добре известната връзка (3) между модата, медианата и средната стойност, беше предложена следната формула за изчисляване на индекса на асиметрия:

От тази формула следва, че разпределенията, изкривени наляво, имат положителна асиметрия, а разпределенията, изкривени надясно, имат отрицателна асиметрия. Естествено, за симетрични разпределения, при които средната и медианата съвпадат, асиметрията е нула.

Нека изчислим показателите за асиметрия за данните, дадени в табл. 1 и 2. За разпределението на продължителността на сърдечния цикъл имаме:

Следователно това разпределение е леко изкривено наляво. Получената стойност за асиметрия е приблизителна и не е точна, тъй като за изчисляването й са използвани стойностите и изчислените по опростен начин.

За разпределението на сулфхидрилните групи в кръвния серум имаме:

По този начин това разпределение има отрицателна асиметрия, т.е. изкривена надясно.

Теоретично е показано, че стойността, определена от формула 13, е в рамките на 3. Но на практика тази стойност много рядко достига граничните си стойности и за умерено асиметрични едновърхови разпределения нейната абсолютна стойност обикновено е по-малка от единица.

Индикаторът за асиметрия може да се използва не само за формално описание на разпределението на населението, но и за съдържателна интерпретация на получените данни.

Всъщност, ако характеристиката, която наблюдаваме, се формира под влиянието на голям брой причини, независими една от друга, всяка от които има относително малък принос към стойността на тази характеристика, тогава, в съответствие с някои теоретични предпоставки, обсъдени в раздел теория на вероятностите, ние имаме право да очакваме, че разпределението на населението, получено в резултат на експеримента, ще бъде симетрично. Въпреки това, ако се получи значителна стойност на асиметрия за експерименталните данни (числовата стойност на As по модула е в рамките на няколко десети), тогава може да се приеме, че посочените по-горе условия не са изпълнени.

В този случай има смисъл да се приеме или съществуването на един или два фактора, чийто принос за формирането на наблюдаваната в експеримента стойност е значително по-голям от останалите, или да се постулира наличието на специален механизъм, който различен от механизма на независимо влияние на много причини върху стойността на наблюдаваната характеристика.

Така например, ако промените в количеството, което ни интересува, съответстващо на действието на определен фактор, са пропорционални на самата тази стойност и интензивността на действието на причината, тогава полученото разпределение винаги ще бъде изкривено към наляво, т.е. имат положителна асиметрия. Биолозите, например, се сблъскват с такъв механизъм, когато оценяват количествата, свързани с растежа на растенията и животните.

Друг начин за оценка на асимметрията се основава на метода на моментите, който ще бъде разгледан в глава 44. В съответствие с този метод асиметрията се изчислява чрез използване на сумата от отклоненията на всички стойности на серия от данни спрямо средната стойност , повдигнат на трета степен, т.е.:

Третата степен гарантира, че числителят на този израз е равен на нула за симетрични разпределения, тъй като в този случай сумите на отклоненията нагоре и надолу от средната към трета степен ще бъдат равни и имат противоположни знаци. Разделянето на осигурява безразмерност за мярката на асиметрия.

Формула (14) може да се трансформира по следния начин. В предишния параграф бяха въведени стандартизирани стойности:

По този начин мярката за асиметрия е средната стойност на стандартизираните данни в куб.

За същите данни, за които е изчислена асиметрията по формула (13), намираме индикатора по формула (15). Ние имаме:

Естествено, показателите за асиметрия, изчислени по различни формули, се различават един от друг по величина, но еднакво показват естеството на асиметрията. В пакетите с приложения за статистически анализ при изчисляване на асиметрията се използва формула (15), тъй като тя дава по-точни стойности. За предварителни изчисления с помощта на прости калкулатори можете да използвате формула (13).

Излишък.И така, ние разгледахме три от четирите групи показатели, с помощта на които се описват разпределенията на населението. Последният от тях е група от индикатори за пик, или ексцес (от гръцки - гърбав). За да се изчисли един от възможните показатели за ексцес, се използва следната формула:

Използвайки същия подход, който беше приложен при трансформирането на формулата за асиметрия (14), е лесно да се покаже, че:

Теоретично беше показано, че стойността на ексцеса за нормална (гаусова) крива на разпределение, която играе голяма роля в статистиката, както и в теорията на вероятностите, е числено равна на 3. Въз основа на редица съображения, остротата на тази крива се приема като стандарт и следователно като индикатор за ексцес се използва стойността:

Нека намерим пиковата стойност за данните, дадени в табл. 1. Имаме:

Така кривата на разпределение на продължителността на сърдечните цикли е сплескана спрямо нормалната крива, за което.

В табл Фигура 3 показва разпределението на броя на крайните цветове при един от видовете хризантеми. За това разпределение

Ексцесът може да приема много големи стойности, както се вижда от дадения пример, но долната му граница не може да бъде по-малка от единица. Оказва се, че ако разпределението е бимодално, тогава стойността на ексцеса се доближава до долната си граница, така че клони към -2. По този начин, ако в резултат на изчисленията се окаже, че стойността е по-малка от -1-1,4, можем да сме сигурни, че разпределението на населението, с което разполагаме, е поне бимодално. Това е особено важно да се вземе предвид, когато експерименталните данни, заобикаляйки етапа на предварителна обработка, се анализират с помощта на цифров компютър и изследователят няма директно графично представяне на разпределението на населението пред очите си.

Двувърховата крива на разпределение на експерименталните данни може да възникне по много причини. По-специално, такова разпределение може да се появи чрез комбиниране на два набора от разнородни данни в един набор. За да илюстрираме това, ние изкуствено комбинирахме данни за ширината на черупките на два вида изкопаеми мекотели в един набор (Таблица 4, Фиг. 3).

Фигурата ясно показва наличието на два режима, тъй като два набора от данни от различни популации са смесени. Изчислението дава стойност на ексцеса 1,74 и следователно = -1,26. По този начин изчислената стойност на пиковия индекс показва, в съответствие с предварително заявената позиция, че разпределението има два пика.

Тук има едно предупреждение. Наистина, във всички случаи, когато разпределението на населението има два максимума, стойността на ексцеса ще бъде близка до единица. Този факт обаче не може автоматично да доведе до заключението, че анализираният набор от данни е смес от две разнородни проби. Първо, такава смес, в зависимост от броя на съставните й агрегати, може да няма два пика и индексът на ексцес ще бъде значително по-голям от един. Второ, хомогенната проба може да има два режима, ако например са нарушени изискванията за избор на експериментални данни. Така и в този, както и в други случаи, след формалното изчисляване на различни статистики трябва да се извърши задълбочен професионален анализ, който да позволи на получените данни да се даде смислена интерпретация.

Последни материали в раздела:

Елементи на бактерии.  Структура на бактериалните клетки
Елементи на бактерии. Структура на бактериалните клетки

Структурните компоненти на бактериалната клетка се делят на 2 вида: - основни структури (клетъчна стена, цитоплазмена мембрана с нейните производни,...

Ротационно движение на тялото
Ротационно движение на тялото

1.8. Моментът на импулса на тялото спрямо оста. Ъгловият импулс на твърдо тяло спрямо ос е сумата от ъгловите импулси на отделните частици, от...

Битките от Втората световна война
Битките от Втората световна война

В Сталинград курсът на света направи рязък обрат В руската военна история Сталинградската битка винаги се е смятала за най-забележителната и...