Статистическое понятие вариация. Вариация и вариационный ряд, размах вариации

Показатели вариации. При изучении варьирующего признака у единиц совокупности нельзя ограничиваться лишь расчетом средней величины из отдельных вариантов, так как одна и та же средняя может относиться далеко не к одинаковым по составу совокупностям.

Вариацией признака называется различие индивидуальных значений признака внутри изучаемой совокупности.

Термин «вариация» произошел от латинского variatio – изменение, колеблемость, различие. Однако не всякие различия принято называть вариацией.

Под вариацией в статистике понимают такие количественные изменения величины исследуемого признака в пределах однородной совокупности, которые обусловлены перекрещивающимся влиянием действия различных факторов. Колеблемость отдельных значений характеризуют показатели вариации. Чем больше вариация, тем дальше в среднем отдельные значения лежат друг от друга.

Различают вариацию признака в абсолютных и относительных величинах.

К абсолютным показателям относятся: размах вариации, среднее линейное отклонение, среднее квадратическое отклонение, дисперсия. Все абсолютные показатели имеют ту же размерность, что и изучаемые величины.

К относительным показателям относятся коэффициенты осцилляции, линейного отклонения и вариации.

Показатели абсолютные. Рассчитаем абсолютные показатели, характеризующие вариацию признака.

Размах вариации, представляет собой разность между максимальным и минимальным значением признака.

R = Xmax – Xmin.

Показатель размаха вариации не всегда применим, так как он учитывает только крайние значения признака, которые могут сильно отличаться от всех других единиц.

Более точно можно определить вариацию в ряду при помощи показателей, учитывающих отклонения всех вариантов от средней арифметической.

Таких показателей в статистике два: среднее линейное и среднее квадратическое отклонение.

Среднее линейное отклонение (L) представляет собой среднее арифметическое из абсолютных значений отклонений отдельных вариантов от средней.

Практическое использование среднего линейного отклонения заключается в следующем, с помощью этого показателя анализируется состав работающих, ритмичность производства, равномерность поставок материалов.

Недостаток этого показателя заключается в том, что он усложняет расчеты вероятного типа, затрудняет применение методов математической статистики.

Среднее квадратическое отклонение () является наиболее распространенным и общепринятым показателем вариации. Оно несколько больше среднего линейного отклонения. Для умеренно асимметричных распределений установлено следующее соотношение между ними

Для его исчисления каждое отклонение от средней возводится в квадрат, все квадраты суммируются (с учетом весом), после чего сумма квадратов делится на число членов ряда и из частного извлекается корень квадратный.

Все эти действия выражает следующая формула

т.е. среднее квадратическое отклонение представляет собой корень квадратный из средней арифметической квадратов отклонений от средней.

Среднее квадратическое отклонение является мерилом надежности средней. Чем меньше σ, тем лучше среднее арифметическое отражает собой всю представляемую совокупность.

Средняя арифметическая из квадратов отклонений вариантов значений признака от средней величины носит название дисперсии (), которая рассчитывается по формулам

Отличительной особенностью данного показатели является то, что при возведении в квадрат () удельный вес малых отклонений уменьшается, а больших увеличивается в общей сумме отклонений.

Дисперсия обладает рядом свойств, некоторые из них позволяют упростить её вычисление:

1. Дисперсия постоянной величины равна 0.

Если , то и .

Тогда .

2. Если все варианты значений признака (x) уменьшить на одно и то же число, то дисперсия не уменьшится.

Пусть , но тогда в соответствии со свойствами средней арифметической и .

Дисперсия в новом ряду будет равна

Т.е. дисперсия в ряду равна дисперсии первоначального ряда .

3. Если все варианты значений признака уменьшить в одно и то же число раз (k раз), то дисперсия уменьшится в k2 раз.

Пусть , тогда и .

Дисперсия же нового ряда будет равна

4. Дисперсия, рассчитанная по отношению к средней арифметической, является минимальной. Средний квадрат отклонений, рассчитанный относительно произвольного числа , больше дисперсии, рассчитанной по отношению к средней арифметической, на квадрат разности между средней арифметической и числом , т.е. . Дисперсия от средней имеет свойство минимальности, т.е. она всегда меньше дисперсий, исчисленных от любых других величин. В этом случае, когда приравниваем к 0 и, следовательно, не вычисляем отклонения, формула принимает такой вид:

Выше был рассмотрен расчет показателей вариации для количественных признаков, но в экономических расчетах может ставиться задача оценки вариации качественных признаков. Например, при изучении качества изготовленной продукции, продукцию можно разделить на качественную и бракованную.

В таком случае речь идет об альтернативных признаках.

Альтернативными признаками называются такие, которыми одни единицы совокупности обладают, а другие нет. Например, наличие производственного стажа у абитуриентов, ученая степень у преподавателей ВУЗов и т.д. Наличие признака у единиц совокупности условно обозначаем через 1, а отсутствие – 0. Тогда, если долю единиц, обладающих признаком (в общей численности единиц совокупности), обозначить через р, а долю единиц, не обладающих признаком, через q, дисперсию альтернативного признака можно рассчитать по общему правилу. При этом p + q = 1 и, значит, q = 1– p.

Сначала рассчитываем среднее значение альтернативного признака:

Рассчитаем среднее значение альтернативного признака

,

т.е. среднее значение альтернативного признака равно доле единиц, обладающих данным признаком.

Дисперсия же альтернативного признака будет равна:

Таким образом, дисперсия альтернативного признака равняется произведению доли единиц, обладающих данным признаком, на долю единиц, не обладающих данным признаком.

А среднее квадратическое отклонение будет равно =.

Показатели относительные. Для целей сравнения колеблемости различных признаков в одной и той же совокупности или же при сравнении колеблемости одного и того же признака в нескольких совокупностях представляют интерес показатели вариации, выраженные в относительных величинах. Базой для сравнения служит средняя арифметическая. Эти показатели вычисляются как отношение размаха вариации, среднего линейного отклонения или среднего квадратического отклонения к средней арифметической или медиане.

Чаще всего они выражаются в процентах и определяют не только сравнительную оценку вариации, но и дают характеристику однородности совокупности. Совокупность считается однородной, если коэффициент вариации не превышает 33%. Различают следующие относительные показатели вариации:

1. Коэффициент осцилляции отражает относительную колеблемость крайних значений признака вокруг средней.

3. Коэффициент вариации оценивает типичность средних величин.

.

Чем меньше , тем однороднее совокупность по изучаемому признаку и типичнее средняя. Если ≤33%, то распределение близко к нормальному, а совокупность считается однородной. Из приведенного примера вторая совокупность однородна.

Виды дисперсий и правило сложения дисперсий. Наряду с изучением вариации признака по всей совокупности в целом часто бывает необходимо проследить количественные изменения признака по группам, на которые разделяется совокупность, а также и между группами. Такое изучение вариации достигается посредством вычисления и анализа различных видов дисперсии.

При этом можно определить три показателя колеблемости признака в совокупности:

1. Общую вариацию совокупности, которая является результатом действия всех причин. Эта вариация может быть измерена общей дисперсией (), характеризующей отклонения индивидуальных значений признака совокупности от общей средней

.

2. Вариацию групповых средних, выражающих отклонения групповых средних от общей средней и отражающих влияние того фактора, по которому произведена группировка. Эта вариация может быть измерена так называемой межгрупповой дисперсией (δ2)

,

где - групповые средние, а -общая средняя для всей совокупности, и - численность отдельных групп.

3. Остаточную (или внутригрупповую) вариацию, которая выражается в отклонении отдельных значений признака в каждой группе от их групповой средней и, следовательно, отражает влияние всех прочих факторов кроме положенного в основу группировки. Поскольку вариацию в каждой группе отражает групповая дисперсия

,

то для всей совокупности остаточную вариацию будет отражать средняя из групповых дисперсий. Эту дисперсию называют средней из внутригрупповых дисперсий () и рассчитывается она по формуле

Это равенство, имеющее строго математическое доказательство, известно, как правило сложения дисперсий.

Правило сложения дисперсий позволяет находить общую дисперсию по её компонентам, когда индивидуальные значения признака неизвестны, а в распоряжении имеются только групповые показатели.

Коэффициент детерминации. Правило сложения дисперсии позволяет выявить зависимость результатов от определенных факторов при помощи коэффициента детерминации.

Оно характеризует влияние признака, положенного в основание группировки, на вариацию результативного признака. Корреляционное отношение изменяется в пределах от 0 до 1. Если , то группировочный признак не оказывает влияния на результативный. Если , то результативный признак изменяется только в зависимости от признака, положенного в основание группировки, а влияние прочих факторных признаков равно нулю.

Показатели асимметрии и эксцесса. В области экономических явлений строго симметричные ряды встречаются крайне редко, чаще приходится иметь дело с асимметричными рядами.

В статистике для характеристики асимметрии пользуются несколькими показателями. Если учесть, что в симметричном ряду средняя арифметическая совпадает по значению с модой и медианой, то наиболее простым показателем асимметрии () будет разность между средней арифметической и модой, т.е.

Величину эксцесса рассчитывают по формуле

Если >0, то эксцесс считают положительным (распределение островершинно), если <0, то эксцесс считается отрицательным (распределение низковершинно).

Вариация – это изменение (колеблемость) значений признака в пределах изучаемой совокупности при переходе от одного объекта (группы объектов), или от одного случая к другому. Абсолютные и относительные показатели вариации, характеризующие колеблемость значений варьирующего признака, позволяют, в частности, измерить степень связи и взаимозависимости между признаками, определить степень однородности совокупности, типичности и устойчивости средней, определить величину погрешности выборочного наблюдения, статистически оценить закон распределения совокупности и т. п.

В этой теме необходимо уяснить сущность (смысл), назначение и способы вычисления каждого показателя вариации, рассматриваемого в курсе теории статистики: размах вариации, среднее линейное отклонение, средний квадрат отклонений (дисперсию), среднее квадратическое отклонение, относительные коэффициенты вариации (коэффициент осцилляции, коэффициент среднего линейного отклонения, коэффициент вариации).

Размах вариации (R ) представляет собой разность между максимальным (х max) и минимальным (х min) значениями признака в совокупности (в ряду распределения):

R = х max - х min. (5.1)

Мерой других показателей вариации является разность не между крайними значениями признака, а средняя разность между каждым значением признака и средней величиной этих признаков. Разность между отдельным значением признака и средней называют отклонением.

Среднее линейное отклонение вычисляется по следующим формулам:

по индивидуальным (несгруппированным) данным

; (5.2)

по вариационным рядам (сгруппированным данным)

. (5.3)

Так как алгебраическая сумма отклонений индивидуальных значений признака от средней (согласно нулевому свойству) всегда равна нулю, то при расчете среднего линейного отклонения используется арифметическая сумма отклонений, взятая по модулю, т.е.
.

Среднее линейное отклонение имеет ту же размерность, что и признак, для которого оно исчисляется.

Дисперсия и среднее квадратическое отклонение. Среднее линейное отклонение относительно редко применяется для оценки вариации признака. Поэтому обычно вычисляются дисперсия ( 2) и среднее квадратическое отклонение (). Эти показатели применяются не только для оценки вариации признака, но и для измерения связи между ними, для оценки величины ошибки выборочного наблюдения и других целей.

Дисперсия признака рассчитывается по формулам:

по первичным данным

; (5.4)

по вариационным рядам

. (5.5)

Среднее квадратическое отклонение представляет собой корень квадратный из дисперсии:

по первичным данным

; (5.6)

по вариационным рядам

. (5.7)

Среднее квадратическое отклонение так же, как и среднее линейное отклонение, имеет ту же размерность, что и сам исходный признак.

Дисперсию можно определить и как разность между средним квадратом вариантов и квадратом их средней величины, т. е.
. (5.8)

В этом случае по первичным данным дисперсия равна:

(5.9)

Применительно к сгруппированным данным, расчет дисперсии этим способом в развернутом виде представим в таком виде:

. (5.10)

Для рядов распределения с равными интервалами значение дисперсии можно вычислить, применяя способ условных моментов, т. е.

, (5.11)

где
- первый условный момент; (5.12)

- второй условный момент. (5.13)

Среднее квадратическое отклонение по способу условных моментов определяется по формуле:

(5.14)

Преобразуя выражение расчета дисперсии по способу условных моментов, получим формулу вида:
(5.15)

На основе одних и тех же исходных данных получим одинаковое значение дисперсии.

Относительные показатели вариации вычисляются как отношение ряда абсолютных показателей вариации к их средней арифметической и выражаются в процентах:

коэффициент осцилляции -
; (5.16)

коэффициент относительного линейного отклонения -
; (5.17)

коэффициент вариации -
. (5.18)

Задача 1 . Рассмотрим способы расчета показателей вариации на основе данных табл. 5.1.

Таблица 5.1. Исходные данные для расчета показателей вариации

Затраты времени на производство деталей мин

Количество деталей, шт. (f)

Середина интервала (х)

; к = 2

Приведенный ряд распределения ранжированный, поэтому здесь легко найти минимальное значение признака, оно равно 8 мин. (10 - 2), и максимальное, равное 18 мин. (16 + 2). Значит, размах вариации признака в этом ряду составит 10 мин., т. е.

R = x max – x min = 18 – 8 = 10 мин.

Вычислим среднее линейное отклонение. Прежде всего необходимо вычислить среднюю величину . Все вычисления будем вести в табличной форме (табл. 5.1.), отводя для каждой вычислительной операции графу в таблице.

Поскольку исходные данные представлены рядом распределения, то

мин.

мин.

Покажем способы расчета дисперсии:

а) обычным способом (по определению):

;

б) как разность между средним квадратом и квадратом средней величины:

Для определения величины дисперсии по этой формуле необходимо вычислить средний квадрат вариантов признака по формуле:

;

 2 =178,6 – (13,2) 2 =4,36;

в) по способу условных моментов:

;

;

г) на основе преобразования формулы расчета дисперсии по способу условных моментов имеем:

Дисперсия – число отвлеченное, не имеющее единиц измерения.

Среднее квадратическое отклонение вычислим путем извлечения корня квадратного из дисперсии:

мин.

По способу условных моментов величину среднего квадратического отклонения определим так:

Вычислим относительные показатели вариации:

%;

%;

%.

Основным относительным показателем вариации является коэффициент вариации (V). Он используется для сравнительной оценки меры колеблемости признаков, выраженных в различных единицах измерения.

Наряду с вариацией количественных признаков может наблюдаться и вариация качественных признаков (в частности альтернативной изменчивости качественных признаков). В этом случае каждая единица изучаемой совокупности либо обладает каким-то свойством, либо нет (например, каждый взрослый человек либо работает, либо нет). Наличие признака у единиц совокупности обозначают 1, а отсутствие –0; долю же единиц совокупности, обладающих изучаемым признаком, обозначают p, а не обладающих им – q. Дисперсия альтернативного признака определяется по формуле:

; (5.19)

p + q = 1 (5.20)

Если, например, доля поступивших в университет равна 30%, а не поступивших – 70%, то дисперсия равна 0,21(0,3 · 0,7). максимальное значение произведения pq равно 0,25 (при условии, когда одна половина единиц обладает данным признаком, а другая половина нет: (0,5 · 0,5 = 0,25).

Способ разложения общей дисперсии. Для оценки влияния различных факторов, определяющих колеблемость индивидуальных значений признака, воспользуемся разложением общей дисперсии на составляющие: на так называемую групповую дисперсию и среднюю из внутригрупповых дисперсий:

, (5.21)

где
– общая дисперсия, характеризующая вариацию признака как результат влияния всех факторов, определяющих индивидуальные различия единиц совокупности.

Вариацию признака, обусловленную влиянием фактора, положенного в основу группировки, характеризует межгрупповая дисперсия  2 , которая является мерой колеблемости частных средних по группам
вокруг общей средней и исчисляется по формуле:

, (5.22)

где n j – число единиц совокупности в каждой группе;

j – порядковый номер группы.

Вариацию признака, обусловленную влиянием всех прочих факторов, кроме группировочного (факторного), характеризует в каждой группе внутригрупповая дисперсия:

, (5.23)

где i – порядковый номер x и f в пределах каждой группы.

По совокупности в целом средняя из внутригрупповых дисперсий определяется по формуле:

(5.24)

Отношение межгрупповой дисперсии  2 к общей
даст коэффициент детерминации:

(5.25)

который характеризует долю вариации результативного признака, обусловленную вариацией факторного признака, положенного в основание группировки.

Показатель, полученный как корень квадратный из коэффициента детерминации, называется коэффициентом эмпирического корреляционного отношения, т.е.:

(5.26)

Он характеризует тесноту связи между результативным и факторным (положенным в основу группировки) признаками. Численное значение коэффициента эмпирического корреляционного отношения имеет два знака: . При решении вопроса о том, с каким знаком его следует брать, необходимо иметь ввиду: если вариация факторного и результативного признаков идет синхронно в одном и том же направлении (возрастает или убывает), то корреляционные отношение берется со знаком плюс; если же изменение этих признаков идет в противоположных направлениях, то оно берется со знаком минус.

Для вычисления групповых и межгрупповых дисперсий можно применять любой из описанных выше способов исчисления среднего квадрата отклонений.

Задача 2. Вычислим все названные дисперсии по исходным данным табл. 5.2.

Таблица 5.2. Распределение посевной площади озимой пшеницы по урожайности

Номер участка

Урожайность, ц/га

Посевная площадь, га

Вычислим среднюю урожайность озимой пшеницы по всем участкам (общая средняя):

ц/га.

Общую дисперсию найдем по формуле:

В гр. 6 табл. 5.2. вычислим значения для расчета среднего квадрата вариантов признака:

.

Находим общую дисперсию:

Урожайность зависит от многих факторов (качество почвы, размер внесения органических и минеральных удобрений, качество семян, сроки сева, уход за посевами и др.) Общая дисперсия в данном случае измеряет колеблемость урожайности за счет всех факторов.

Задача 3. Разобьем совокупность участков на две группы: I группа – посевные площади, на которых не вносились органические удобрения; II – площади, на которых они вносились. К первой группе отнесем участки 1-4, а ко второй – 4-8. По данным этих групп рассчитаем остальные из необходимых нам дисперсий, используя уже произведенные в табл. 5.2. вычисления.

Таблица 5.3. Расчетные данные для вычисления межгрупповой и групповых дисперсий

Номер участка

Урожайность, ц/га (х)

Посевная площадь, га (f)

Номер участка

Урожайность, ц/га (х)

Посевная площадь, га (f)

Определяем:

для I группы:

для II группы:

а) групповую среднюю

а) групповую среднюю

ц/га;

ц/га;

б) средний квадрат вариантов признака

;

;

в) групповую дисперсию

в) групповую дисперсию

Определяем среднюю из групповых дисперсий:

.

Находим межгрупповую дисперсию:

Средняя из групповых дисперсий измеряет колеблемость признака за счет всех прочих факторов, кроме положенного в основание группировки (разграничения на группы), а межгрупповая – за счет именно этого фактора. Сумма этих дисперсий должна дать общую дисперсию, а именно:

Отношение межгрупповой дисперсии к общей в нашем примере даст следующее значение коэффициента детерминации:

, или 71,8%,

т. е. вариация урожайности озимой пшеницы на 71,8% зависит от вариации размеров внесения органических удобрений. Остальные же 28,2% вариации урожайности зависит от влияния всех остальных факторов, кроме размеров внесения органических удобрений.

Коэффициент эмпирического корреляционного отношения составит:

.

Это говорит о том, что внесение органических удобрений оказывает весьма существенное влияние на урожайность.

Назначение сервиса . С помощью сервиса в онлайн режиме определяются следующие показатели:
  • средняя взвешенная, дисперсия, среднеквадратическое отклонение, мода, медиана, размах вариации;
  • квартили, децили, квартильный коэффициент дифференциации, линейный коэффициент вариации, коэффициент вариации;
  • среднее линейное отклонение, коэффициент осцилляции.

Инструкция . Чтобы рассчитать показатели вариации, выберите вид ряда, укажите количество исходных данных. Полученное решение сохраняется в файле Word (). Если предварительно требуется сгруппировать ряд (т.е. построить вариационный ряд), то необходимо воспользоваться онлайн-калькулятором Группировка .

Вид статистического ряда
Пример
X
3.45
3.89
5.00
3.00
2.56
1.71
3.34
4.21
4.85
Дискретный ряд
Пример
X i - X i+1 f
до 20 5
20-25 10
25-30 40
30-35 70
35-40 90
40-45 30
45-50 15
свыше 50 10
Итого 270
Интервальный ряд
Пример
X f
20 5
25 10
30 40
35 70
40 90
45 30
50 15
60 10
Итого 270
Вариационный ряд
Количество строк ",0);">

Проверка гипотезы о виде распределения ряда осуществляется через калькулятор Изучение формы распределения ряда .

Классификация показателей вариации

  1. К абсолютным показателям вариации относятся размах вариации, среднее линейное отклонение, дисперсия и среднеквадратическое отклонение. Вторая группа показателей вычисляется, как отношение абсолютных показателей к средней арифметической (медиане).
  2. Относительными показателями вариации являются коэффициенты осцилляции, вариации, относительное линейное отклонение и др.
Показатель Формула
Средняя арифметическая простая
Мода
Размах вариации R=X max -X min
;
;
Среднее квадратическое отклонение

Числовые характеристики вариационного ряда

Числовые характеристики вариационных рядов вычисляют по данным, полученным в результате наблюдений (статистическим данным), поэтому их называют также статистическими характеристиками или оценками. На практике часто оказывается достаточным знание сводных характеристик вариационных рядов: средних или характеристик положения (центральной тенденции); характеристик рассеяния или вариации (изменчивости); характеристик формы (асимметрии и крутости распределения).
Самой известной и наиболее употребляемой характеристикой любого вариационного ряда является его средняя арифметическая, называемая также выборочным средним . Средняя арифметическая характеризует значения признака, вокруг которого концентрируются наблюдения, т.е. центральную тенденцию распределения. В статистическом анализе кроме средней арифметической, называемой аналитической средней, широко применяют структурные, или порядковые, средние, к которым относятся медиана и мода.
Достоинство медианы как меры центральной тенденции заключается в том, что на нее не влияет изменение крайних членов вариационного ряда, если любой из них, меньший медианы, остается меньше ее, а любой, больший медианы, продолжает быть большее ее. Медиана предпочтительнее средней арифметической для ряда, у которого крайние варианты по сравнению с остальными оказались чрезмерно большими или малыми. Особенность моды как меры центральной тенденции заключается в том, что она также не изменяется при изменении крайних членов ряда, т.е. обладает определенной устойчивостью к вариации признака.

Таблица - Числовые характеристики вариационного ряда

Характеристики положения Среднее арифметическое (выборочное среднее)
Мода Mo = x j , если m j = m max
Me = x k+1 , если n = 2k+1;
Me = (x k + x k+1)/2, еслиn = 2k
Характеристики рассеяния
Выборочная дисперсия
Выборочное среднее квадратичное отклонение
Исправленная дисперсия
Исправленное среднее квадратичное отклонение
Среднее абсолютное отклонение
Вариационный размах R = x max - x min
Квартильный размах R Q = Q в – Q н
Характеристики формы Коэффициент асимметрии
Коэффициент эксцесса

Для получения полного представления о вариационном ряде (определив центральную тенденцию распределения с помощью характеристик положения) далее оценивают рассеяние (вариацию, изменчивость) исследуемого признака вокруг этих величин. Простейшим и, весьма приближенным показателем вариации (изменчивости), является вариационный размах . Размах вариации наиболее полезен, если нужен быстрый и общий взгляд на изменчивость при сравнении большого количества выборок.
Но наибольший интерес представляют меры вариации (рассеяния) наблюдений вокруг средних величин, в частности, вокруг средней арифметической. К таким оценкам относятся выборочная дисперсия и среднее квадратичное отклонение . Выборочная дисперсия обладает одним существенным недостатком: если среднее арифметическое выражается в тех же единицах, что и значения случайной величины, то, согласно определению, дисперсия выражается уже в квадратных единицах. Этого недостатка можно избежать, если использовать в качестве меры вариации признака среднее квадратичное отклонение. При малых объемах выборки дисперсия является смещенной оценкой, поэтому при объемах n ≤ 30 используют исправленную дисперсию и исправленное среднее квадратичное отклонение .
Другой часто используемой характеристикой меры рассеяния признака является коэффициент вариации . Достоинством коэффициента вариации является то, что это безразмерная характеристика, позволяющая сравнивать варьирование несоизмеримых вариационных рядов. Кроме того, чем меньше значение коэффициента вариации, тем однороднее совокупность по изучаемому признаку и типичнее средняя. Совокупности с коэффициентом вариации V> 30-35% принято считать неоднородными.
Наряду с дисперсией используют и среднее абсолютное отклонение . Достоинством среднего линейного отклонения является его размерность, т.к. выражается в тех же единицах, что и значения случайной величины. Дополнительным и простым показателем рассеяния значений признака является квартильный размах. Квартильный размах включает в себя медиану и 50% наблюдений, отражающих центральную тенденцию признака, исключая наименьшие и наибольшие значения.
К характеристикам формы относят коэффициент асимметрии и эксцесс. Если коэффициент асимметрии равен нулю, то распределение имеет симметричную форму. Если распределение асимметрично, одна из ветвей полигона частот имеет более пологий спуск, чем другая. Если асимметрия правосторонняя, то справедливо неравенство:,что означает преимущественное появление в распределении более высоких значений признака. Если асимметрия левосторонняя, то выполняется неравенство: , означающее, что в распределении чаще встречаются более низкие значения. Чем больше значение коэффициента асимметрии, тем более асимметрично распределение (до 0,25 асимметрия незначительная; от 0,25 до 0,5 умеренная; свыше 0,5 – существенная).
Эксцесс является показателем крутости (островершинности) вариационного ряда по сравнению с нормальным распределением. Если эксцесс положителен, то полигон вариационного ряда имеет более крутую вершину. Это говорит о скоплении значений признака в центральной зоне ряда распределения, т.е. о преимущественном появлении в данных значений, близких к средней величине. Если эксцесс отрицателен - то полигон имеет более пологую вершину по сравнению с нормальной кривой. Это означает, что значения признака не концентрируются в центральной части ряда, а достаточно равномерно рассеяны по всему диапазону от минимального до максимального значения. Чем больше абсолютная величина эксцесса, тем существеннее распределение отличается от нормального.

Типы вариации

Вариация – колеблемость или изменяемость величин признака у единиц совокупности.
Под вариацией в пространстве понимается колеблемость значений признака по отдельным территориям.
Под вариацией во времени подразумевают изменение значений признака в различные моменты времени. Так, со временем изменяются средняя продолжительность жизни, мнения людей и т.д.

Принципы определения показателей вариации

Для ранжированного ряда показатели вариации определяются по простым формулам (например, средняя величина определяется по формуле средней арифметической простой). Для вариационных рядов показатели вариации определяются по агрегатным формулам (с использованием частот). В этом случае показатели вариации являются взвешенными (например, взвешенная средняя).

Как доказать, что закономерность, полученная при изучении экспериментальных данных, не является результатом совпадения или ошибки экспериментатора, что она достоверна? С таким вопросом сталкиваются начинающие исследователи.Описательная статистика предоставляет инструменты для решения этих задач. Она имеет два больших раздела – описание данных и их сопоставление в группах или в ряду между собой.

Показатели описательной статистики

Существует несколько показателей, которые использует описательная статистика.

Итак, представим, что перед нами стоит задача описать рост всех студентов в группе из десяти человек. Вооружившись линейкой и проведя измерения, мы получаем маленький ряд из десяти чисел (рост в сантиметрах):

168, 171, 175, 177, 179, 187, 174, 176, 179, 169.

Если внимательно посмотреть на этот линейный ряд, то можно обнаружить несколько закономерностей:

  • Ширина интервала, куда попадает рост всех студентов, – 18 см.
  • В распределении рост наиболее близок к середине этого интервала.
  • Встречаются и исключения, которые наиболее близко расположены к верхней или нижней границе интервала.

Совершенно очевидно, что для выполнения задачи по описанию роста студентов в группе нет необходимости приводить все значения, которые будут измеряться. Для этой цели достаточно привести всего два, которые в статистике называются параметрами распределения. Это среднеарифметическое и стандартное отклонение от среднего арифметического. Если обратиться к росту студентов, то формула будет выглядеть следующим образом:

Среднеарифметическое значение роста студентов = (Сумма всех значений роста студентов) / (Число студентов, участвовавших в измерении)

Если свести все к строгим математическим терминам, то определение среднего арифметического (обозначается греческой буквой – μ («мю»)) будет звучать так:

Среднее арифметическое – это отношение суммы всех значений одного признака для всех членов совокупности (X) к числу всех членов совокупности (N).

Если применить эту формулу к нашим измерениям, то получаем, что μ для роста студентов в группе 175,5 см.

Если присмотреться к росту студентов, который мы измерили в предыдущем примере, то понятно, что рост каждого на сколько-то отличается от вычисленного среднего (175,5 см). Для полноты описания нужно понять, какой является разница между средним ростом каждого студента и средним значением.

На первом этапе вычислим параметр дисперсии. Дисперсия в статистике (обозначается σ 2 (сигма в квадрате)) – это отношение суммы квадратов разности среднего арифметического (μ) и значения члена ряда (Х) к числу всех членов совокупности (N). В виде формулы это рассчитывается понятнее:

Значения, которые мы получим в результате вычислений по этой формуле, мы будем представлять в виде квадрата величины (в нашем случае – квадратные сантиметры). Характеризовать рост в сантиметрах квадратными сантиметрами, согласитесь, нелепо. Поэтому мы можем исправить, точнее, упростить это выражение и получим среднеквадратичное отклонение формулу и расчёт, пример:

Таким образом, мы получили величину стандартного отклонения (или среднего квадратичного отклонения) – квадратный корень из дисперсии. С единицами измерения тоже теперь все в порядке, можем посчитать стандартное отклонение для группы:

Получается, что наша группа студентов исчисляется по росту таким образом: 175,50±5,25 см.

Среднее квадратичное отклонение хорошо работает с рядами, в которых разброс значений не очень велик (это хорошо прослеживалось на примере роста, где интервал был всего 18 см). Если бы ряд наших измерений был значительнее, а варьирование роста было сильнее, то стандартное отклонение стало непоказательным и нам потребовался бы критерий, который может отразить разброс в относительных единицах (т. е. в процентах, относительно средней величины).

Для этих целей предусмотрены абсолютные и относительные показатели вариации в статистике, характеризующие вариационные масштабы:

  • Размах вариации.

Квадратический коэффициент вариации (обозначается как Vσ) – это отношение среднеквадратичного отклонения к среднеарифметическому значению, выраженное в процентах.

Для нашего примера со студентами, определить Vσ несложно - он будет равен 3,18%. Основная закономерность – чем больше будет изменяться значение коэффициента, тем больше разброс вокруг среднего значения и тем менее однородна выборка.

Преимущество коэффициента вариации в том, что он показывает однородность значений (асимметрия) в ряду наших измерений, кроме того, на него не оказывают влияния масштаб и единицы измерения. Эти факторы делают коэффициент вариации особенно популярным в биомедицинских исследованиях. Будет считаться , что эксцесс значения Vσ =33% отделяет однородные выборки от неоднородных.

Если найти в ряду значений роста (первый пример) максимальное и минимальное значения, то получим размах вариации (обозначается как R, иногда ещё называется колеблемостью). В нашем примере – это значение будет равно 18 см. Эта характеристика используется для расчёта коэффициента осцилляции:

Коэффициент осцилляции – показывает как размах вариации будет относиться к среднему арифметическому ряда в процентном отношении.

Расчёты в Microsoft Ecxel 2016

* — в таблице указан диапазон A1:A10 для примера, при расчётах нужно указать требуемый диапазон.

Итак, обобщим информацию :

  1. Среднее арифметическое – это значение, позволяющее найти среднее значение показателя в ряду данных.
  2. Дисперсия – это среднее значение отклонений возведенное в квадрат.
  3. Стандартное отклонение (среднеквадратичное отклонение) – это корень квадратный из дисперсии, для приведения единиц измерения к одинаковым со среднеарифметическим.
  4. Коэффициент вариации – значение отклонений от среднего, выраженное в относительных величинах (%).

Отдельно следует отметить, что все приведённые в статье показатели, как правило, не имеют собственного смысла и используются для того, чтобы составлять более сложную схему анализа данных. Исключение из этого правила — коэффициент вариации, который является мерой однородности данных.

5.3. Показатели вариации

Целью статистического исследования является выявление основных свойств и закономерностей изучаемой статистической совокупности. В процессе сводной обработки данных статистического наблюдения строят ряды распределения. Различают два типа рядов распределения – атрибутивные и вариационные, в зависимости от того, является ли признак, взятый за основу группировки, качественным или количественным.

Вариационными называют ряды распределения, построенные по количественному признаку. Значения количественных признаков у отдельных единиц совокупности не постоянны, более или менее различаются между собой. Такое различие в величине признака носит название вариации. Отдельные числовые значения признака, встречающиеся в изучаемой совокупности, называют вариантами значений. Наличие вариации у отдельных единиц совокупности обусловлено влиянием большого числа факторов на формирование уровня признака. Изучение характера и степени вариации признаков у отдельных единиц совокупности является важнейшим вопросом всякого статистического исследования. Для описания меры изменчивости признаков используют показатели вариации.

Другой важной задачей статистического исследования является определение роли отдельных факторов или их групп в вариации тех или иных признаков совокупности. Для решения такой задачи в статистике применяются специальные методы исследования вариации, основанные на использовании системы показателей, с помощью которых измеряется вариация. В практике исследователь сталкивается с достаточно большим количеством вариантов значений признака, что не дает представления о распределении единиц по величине признака в совокупности. Для этого проводят расположение всех вариантов значений признака в возрастающем или убывающем порядке. Этот процесс называют ранжированием ряда. Ранжированный ряд сразу дает общее представление о значениях, которые принимает признак в совокупности.

Недостаточность средней величины для исчерпывающей характеристики совокупности заставляет дополнять средние величины показателями, позволяющими оценить типичность этих средних путем измерения колеблемости (вариации) изучаемого признака. Использование этих показателей вариации дает возможность сделать статистический анализ более полным и содержательным и тем самым глубже понять сущность изучаемых общественных явлений.

Самыми простыми признаками вариации являются минимум и максимум – это наименьшее и наибольшее значение признака в совокупности. Число повторений отдельных вариантов значений признаков называют частотой повторения. Обозначим частоту повторения значения признака fi, сумма частот, равная объему изучаемой совокупности будет:

где k – число вариантов значений признака. Частоты удобно заменять частостями – wi. Частость – относительный показатель частоты – может быть выражен в долях единицы или процентах и позволяет сопоставлять вариационные ряды с различным числом наблюдений. Формально имеем:

Для измерения вариации признака применяются различные абсолютные и относительные показатели. К абсолютным показателям вариации относятся среднее линейное отклонение, размах вариации, дисперсия, среднее квадратическое отклонение.

Размах вариации (R) представляет собой разность между максимальным и минимальным значениями признака в изучаемой совокупности: R = Xmax – Xmin. Этот показатель дает лишь самое общее представление о колеблемости изучаемого признака, так как показывает разницу только между предельными значениями вариантов. Он совершенно не связан с частотами в вариационном ряду, т. е. с характером распределения, а его зависимость может придавать ему неустойчивый, случайный характер только от крайних значений признака. Размах вариации не дает никакой информации об особенностях исследуемых совокупностей и не позволяет оценить степень типичности полученных средних величин. Область применения этого показателя ограничена достаточно однородными совокупностями, точнее, характеризует вариацию признака показатель, основанный на учете изменчивости всех значений признака.

Для характеристики вариации признака нужно обобщить отклонения всех значений от какой-либо типичной для изучаемой совокупности величины. Такие показатели

вариации, как среднее линейное отклонение, дисперсия и среднее квадратическое отклонение, основаны на рассмотрении отклонений значений признака отдельных единиц совокупности от средней арифметической.

Среднее линейное отклонение представляет собой среднюю арифметическую из абсолютных значений отклонений отдельных вариантов от их средней арифметической:


абсолютное значение (модуль) отклонения варианта от средней арифметической; f– частота.

Первая формула применяется, если каждый из вариантов встречается в совокупности только один раз, а вторая – в рядах с неравными частотами.

Существует и другой способ усреднения отклонений вариантов от средней арифметической. Этот очень распространенный в статистике способ сводится к расчету квадратов отклонений вариантов от средней величины с их последующим усреднением. При этом мы получаем новый показатель вариации – дисперсию.

Дисперсия (?2) – средняя из квадратов отклонений вариантов значений признака от их средней величины:

Вторая формула применяется при наличии у вариантов своих весов (или частот вариационного ряда).

В экономико-статистическом анализе вариацию признака принято оценивать чаще всего с помощью среднего квадратического отклонения. Среднее квадратическое отклонение (?) представляет собой корень квадратный из дисперсии:

Среднее линейное и среднее квадратическое отклонения показывают, на сколько в среднем колеблется величина признака у единиц исследуемой совокупности, и выражаются в тех же единицах измерения, что и варианты.

В статистической практике часто возникает необходимость сравнения вариации различных признаков. Например, большой интерес представляет сравнение вариаций возраста персонала и его квалификации, стажа работы и размера заработной платы и т. д. Для подобных сопоставлений показатели абсолютной колеблемости признаков – среднее линейное и среднее квадртическое отклонение – не пригодны. Нельзя, в самом деле, сравнивать колеблемость стажа работы, выражаемую в годах, с колеблемостью заработной платы, выражаемой в рублях и копейках.

При сравнении изменчивости различных признаков в совокупности удобно применять относительные показатели вариации. Эти показатели вычисляются как отношение абсолютных показателей к средней арифметической (или медиане). Используя в качестве абсолютного показателя вариации размах вариации, среднее линейное отклонение, среднее квадратическое отклонение, получают относительные показатели колеблемости:


– наиболее часто применяемый показатель относительной колеблемости, характеризующий однородность совокупности. Совокупность считается однородной, если коэффициент вариации не превышает 33 % для распределений, близких к нормальному.

Последние материалы раздела:

Экспедиции XVIII века Самые выдающиеся географические открытия 18 19 веков
Экспедиции XVIII века Самые выдающиеся географические открытия 18 19 веков

Географические открытия русских путешественников XVIII-XIX вв. Восемнадцатый век. Российская империя широко и вольно разворачивает плечи и...

Система управления временем Б
Система управления временем Б

Бюджетный дефицит и государственный долг. Финансирование бюджетного дефицита. Управление государственным долгом.В тот момент, когда управление...

Чудеса Космоса: интересные факты о планетах Солнечной системы
Чудеса Космоса: интересные факты о планетах Солнечной системы

ПЛАНЕТЫ В древние времена люди знали только пять планет: Меркурий, Венера, Марс, Юпитер и Сатурн, только их можно увидеть невооруженным глазом....