Assimetria e curtose da distribuição de uma variável aleatória. Cálculo de assimetria e curtose de uma distribuição empírica no Excel Coeficiente de curtose de uma distribuição normal

Coeficiente de assimetria mostra a “assimetria” da série de distribuição em relação ao centro:

onde está o momento central de terceira ordem;

– cubo do desvio padrão.

Para este método de cálculo: se , a distribuição é do lado direito (assimetria positiva), se , a distribuição é do lado esquerdo (assimetria negativa)

Além do momento central, a assimetria pode ser calculada usando a moda ou mediana:

ou , (6.69)

Para este método de cálculo: se, a distribuição é à direita (assimetria positiva), se, a distribuição é à esquerda (assimetria negativa) (Fig. 4).


Arroz. 4. Distribuições assimétricas

O valor que mostra a “inclinação” da distribuição é chamado coeficiente de curtose:

Se , na distribuição houver agudeza – a curtose é positiva se , for observada na distribuição planicidade – a curtose é negativa (Fig. 5).

Arroz. 5. Excessos de distribuição

Exemplo 5. Existem dados sobre o número de ovinos nas explorações agrícolas da região (Tabela 9).

1. Número médio de ovinos por exploração.

3. Mediana.

4. Indicadores de variação

· dispersão;

· desvio padrão;

· o coeficiente de variação.

5. Indicadores de assimetria e curtose.

Solução.

1. Como o valor das opções no agregado se repete várias vezes, com certa frequência para calcular o valor médio utilizamos a fórmula da média aritmética ponderada:

2. Esta série é discreta, portanto o modo será a opção com maior frequência - .

3. Esta série é par, neste caso a mediana de uma série discreta é encontrada pela fórmula:

Ou seja, metade das propriedades da população estudada possui até 4,75 mil cabeças de ovinos. e metade está acima desse número.

4. Para calcular os indicadores de variação, elaboraremos a tabela 10, na qual calcularemos os desvios, os quadrados desses desvios, o cálculo pode ser realizado tanto por fórmulas de cálculo simples quanto ponderadas (no exemplo usamos um simples um):

Tabela 10

2,00 -2,42 5,84
2,50 -1,92 3,67
2,50 -1,92 3,67
3,00 -1,42 2,01
3,00 -1,42 2,01
4,00 -0,42 0,17
5,50 1,08 1,17
5,50 1,08 1,17
5,50 1,08 1,17
6,00 1,58 2,51
6,50 2,08 4,34
7,00 2,58 6,67
Total 53,00 0,00 34,42
Média 4,4167

Vamos calcular a variância:

Vamos calcular o desvio padrão:

Vamos calcular o coeficiente de variação:

5. Para calcular os indicadores de assimetria e curtose, construiremos a tabela 11, na qual calcularemos , ,

Tabela 11

2,00 -2,42 -14,11 34,11
2,50 -1,92 -7,04 13,50
2,50 -1,92 -7,04 13,50
3,00 -1,42 -2,84 4,03
3,00 -1,42 -2,84 4,03
4,00 -0,42 -0,07 0,03
5,50 1,08 1,27 1,38
5,50 1,08 1,27 1,38
5,50 1,08 1,27 1,38
6,00 1,58 3,97 6,28
6,50 2,08 9,04 18,84
7,00 2,58 17,24 44,53
Total 53,00 0,00 0,11 142,98
Média 4,4167

A assimetria da distribuição é:

Ou seja, observa-se assimetria à esquerda, pois , o que se confirma quando calculado pela fórmula:

Neste caso, o que para esta fórmula também indica assimetria do lado esquerdo

A curtose da distribuição é igual a:

No nosso caso, a curtose é negativa, ou seja, observa-se planicidade.

Exemplo 6. Os dados sobre os salários dos trabalhadores são apresentados para o agregado familiar (Tabela 12)

Solução.

Para uma série de variação de intervalo, a moda é calculada usando a fórmula:

Onde intervalo modal – intervalo com maior frequência, no nosso caso 3600-3800, com frequência

Limite mínimo de intervalo modal (3600);

Valor do intervalo modal (200);

Frequência de intervalo anterior ao intervalo modal (25);

Frequência seguindo intervalo modal (29);

Frequência de intervalo modal (68).

Tabela 12

Para uma série de variação de intervalo, a mediana é calculada usando a fórmula:

Onde intervalo mediano este é um intervalo cuja frequência cumulativa (acumulada) é igual ou superior à metade da soma das frequências, no nosso exemplo é 3600-3800.

Limite mínimo do intervalo mediano (3600);

Valor mediano do intervalo (200);

Soma das frequências da série (154);

Soma das frequências acumuladas, todos os intervalos anteriores à mediana (57);

– frequência do intervalo mediano (68).

Exemplo 7. Para três fazendas em um distrito, há informações sobre a intensidade de capital da produção (o valor dos custos de capital fixo por 1 rublo de produtos produzidos): I – 1,29 rublos, II – 1,32 rublos, III – 1,27 rublos. É necessário calcular a intensidade média de capital.

Solução. Como a intensidade de capital é o indicador inverso do giro do capital, utilizamos a fórmula simples da média harmônica.

Exemplo 8. Para três explorações agrícolas num distrito, existem dados sobre a colheita bruta de cereais e o rendimento médio (Tabela 13).

Solução. O cálculo do rendimento médio pela média aritmética é impossível, pois não há informação sobre o número de áreas semeadas, por isso utilizamos a fórmula da média harmônica ponderada:

Exemplo 9. Existem dados sobre o rendimento médio da batata em áreas individuais e o número de amontoados (Tabela 14)

Tabela 14

Vamos agrupar os dados (Tabela 15):

Tabela 15

Agrupamento de áreas com base no número de capinas

1. Calcule a variância total da amostra (Tabela 16).

Ao analisar séries de variação, o deslocamento do centro e a inclinação da distribuição são caracterizados por indicadores especiais. As distribuições empíricas, via de regra, são deslocadas do centro da distribuição para a direita ou esquerda e são assimétricas. A distribuição normal é estritamente simétrica em relação à média aritmética, o que se deve à paridade da função.

Distorção da distribuição surge porque alguns fatores atuam mais fortemente em uma direção do que em outra, ou o processo de desenvolvimento do fenômeno é tal que alguma causa domina. Além disso, a natureza de alguns fenômenos é tal que existe uma distribuição assimétrica.

A medida mais simples de assimetria é a diferença entre a média aritmética, moda e mediana:

Para determinar a direção e magnitude da mudança (assimetria) da distribuição, é calculado coeficiente de assimetria , que é um momento normalizado de terceira ordem:

As= 3 / 3, onde  3 é o momento central de terceira ordem;  3 – desvio padrão ao cubo. 3 = (m 3 – 3m 1 m 2 + 2m 1 3)k 3 .

Para assimetria do lado esquerdo coeficiente de assimetria (Como<0), при правосторонней (As>0) .

Se o topo da distribuição for deslocado para a esquerda e a parte direita do ramo for mais longa que a esquerda, então tal assimetria é lado direito, de outra forma canhoto .

A relação entre moda, mediana e média aritmética em séries simétricas e assimétricas permite utilizar um indicador mais simples como medida de assimetria coeficiente de assimetria Pearson :

Ka = ( –Mo)/. Se K a >0, então a assimetria é do lado direito, se K a<0, то асимметрия левосторонняя, при К a =0 ряд считается симметричным.

A assimetria pode ser determinada com mais precisão usando o momento central de terceira ordem:

, onde 3 = (m 3 – 3m 1 m 2 + 2m 1 3)k 3 .

Se > 0, então a assimetria pode ser considerada significativa se < 0,25 асимметрию можно считать не значительной.

Para caracterizar o grau de desvio de uma distribuição simétrica de uma distribuição normal ao longo da ordenada, um indicador de pico, a inclinação da distribuição, denominado excesso :

Ex = ( 4 / 4) – 3, onde:  4 – momento central de quarta ordem.

Para uma distribuição normal, Ex = 0, ou seja,  4 / 4 = 3.  4 = (m 4 – 4m 3 m 1 + 6m 2 m 2 1 – 3 m 4 1)* k 4 .

As curvas de pico alto apresentam curtose positiva, enquanto as curvas de pico baixo apresentam curtose negativa (Fig. D.2).

Indicadores de curtose e assimetria são necessários na análise estatística para determinar a heterogeneidade da população, a assimetria da distribuição e a proximidade da distribuição empírica com a lei normal. Com desvios significativos dos indicadores de assimetria e curtose de zero, a população não pode ser considerada homogênea e a distribuição próxima do normal. A comparação das curvas reais com as teóricas permite fundamentar matematicamente os resultados estatísticos obtidos, estabelecer o tipo e a natureza da distribuição dos fenómenos socioeconómicos e prever a probabilidade de ocorrência dos eventos em estudo.

4.7. Justificativa da proximidade da distribuição empírica (real) com a distribuição normal teórica. Distribuição normal (lei de Gauss-Laplace) e suas características. "A Regra dos Três Sigma." Critérios de adequação (usando o exemplo do critério de Pearson ou Kolgomogorov).

Você pode notar uma certa conexão na mudança nas frequências e valores da característica variável. À medida que o valor do atributo aumenta, as frequências primeiro aumentam e depois, após atingir um determinado valor máximo, diminuem. Essas mudanças regulares nas frequências em séries de variação são chamadas padrões de distribuição.

Para identificar um padrão de distribuição, é necessário que as séries de variação contenham um número suficientemente grande de unidades e que as próprias séries representem populações qualitativamente homogêneas.

Um polígono de distribuição construído com base em dados reais é curva de distribuição empírica (real), refletindo não apenas condições de distribuição objetivas (gerais), mas também subjetivas (aleatórias) que não são características do fenômeno em estudo.

No trabalho prático, a lei de distribuição é encontrada comparando a distribuição empírica com uma das teóricas e avaliando o grau de diferença ou correspondência entre elas. Curva de distribuição teórica reflete em sua forma pura, sem levar em conta a influência de fatores aleatórios, o padrão geral de distribuição de frequência (densidade de distribuição) dependendo dos valores de características variadas.

Vários tipos de distribuições teóricas são comuns em estatística: normal, binomial, Poisson, etc. Cada uma das distribuições teóricas tem suas especificidades e escopo.

Lei de distribuição normal característica da distribuição de eventos igualmente prováveis ​​​​que ocorrem durante a interação de muitos fatores aleatórios. A lei da distribuição normal fundamenta os métodos estatísticos para estimar parâmetros de distribuição, representatividade de observações amostrais e medir a relação de fenômenos de massa. Para verificar até que ponto a distribuição real corresponde à normal, é necessário comparar as frequências da distribuição real com as frequências teóricas características da lei da distribuição normal. Essas frequências são função de desvios normalizados. Portanto, com base nos dados da série de distribuição empírica, são calculados os desvios normalizados t. Em seguida, as frequências teóricas correspondentes são determinadas. Isso nivela a distribuição empírica.

Distribuição normal ou a lei de Gauss-Laplace é descrita pela equação
, onde y t é a ordenada da curva de distribuição normal, ou a frequência (probabilidade) do valor x da distribuição normal; – expectativa matemática (valor médio) dos valores individuais de x. Se os valores (x – ) medir (expressar) em termos de desvio padrão , ou seja, em desvios padronizados (normalizados) t = (x – )/, então a fórmula assumirá a forma:
. A distribuição normal dos fenómenos socioeconómicos na sua forma pura é rara, no entanto, se a homogeneidade da população for mantida, as distribuições reais são muitas vezes próximas do normal. O padrão de distribuição das grandezas estudadas é revelado verificando a conformidade da distribuição empírica com a lei teórica da distribuição normal. Para fazer isso, a distribuição real é alinhada com a curva normal e calculada critérios de consentimento .

A distribuição normal é caracterizada por dois parâmetros significativos que determinam o centro de agrupamento dos valores individuais e a forma da curva: a média aritmética e desvio padrão . As curvas de distribuição normais diferem na posição do centro de distribuição no eixo x e a opção de dispersão em torno deste centro  (Fig. 4.1 e 4.2). Uma característica da curva de distribuição normal é sua simetria em relação ao centro da distribuição - em ambos os lados de seu meio, formam-se dois ramos uniformemente decrescentes, aproximando-se assintoticamente do eixo das abcissas. Portanto, em uma distribuição normal, a média, a moda e a mediana são iguais: = Mo = Eu.

  x

A curva de distribuição normal tem dois pontos de inflexão (transição da convexidade para a concavidade) em t = 1, ou seja, quando as opções se desviam da média (x – ), igual ao desvio padrão . Dentro de  com distribuição normal é 68,3%, dentro 2 – 95,4%, dentro 3 – 99,7% do número de observações ou frequências da série de distribuição. Na prática, quase não há desvios superiores a 3portanto, a relação dada é chamada de “ regra dos três sigma ».

Para calcular as frequências teóricas, é utilizada a fórmula:

.

Magnitude
é uma função de t ou da densidade da distribuição normal, que é determinada a partir de uma tabela especial, cujos trechos são apresentados na tabela. 4.2.

Valores de densidade de distribuição normal Tabela 4.2

Gráfico na Fig. 4.3 demonstra claramente a proximidade das distribuições empírica (2) e normal (1).

Arroz. 4.3. Distribuição dos balcões dos correios por número

trabalhadores: 1 – normais; 2 – empírico

Para fundamentar matematicamente a proximidade da distribuição empírica com a lei da distribuição normal, calcule critérios de consentimento .

Critério de Kolmogorov - um critério de qualidade de ajuste que permite avaliar o grau de proximidade da distribuição empírica com o normal. A. N. Kolmogorov propôs usar a diferença máxima entre as frequências acumuladas ou frequências dessas séries para determinar a correspondência entre as distribuições normais empíricas e teóricas. Para testar a hipótese de que a distribuição empírica corresponde à lei da distribuição normal, o critério de qualidade de ajuste = D/ é calculado
, onde D é a diferença máxima entre as frequências empíricas e teóricas cumulativas (acumuladas), n é o número de unidades na população. Usando uma tabela especial, P() é determinado - a probabilidade de atingir , o que significa que se uma característica variacional é distribuída de acordo com uma lei normal, então Por razões aleatórias, a discrepância máxima entre as frequências acumuladas empíricas e teóricas não será menor que a realmente observada. Com base no valor de P(), certas conclusões são tiradas: se a probabilidade P() for suficientemente grande, então a hipótese de que a distribuição real corresponde à lei normal pode ser considerada confirmada; se a probabilidade P() for pequena, então a hipótese nula é rejeitada e as discrepâncias entre as distribuições reais e teóricas são consideradas significativas.

Valores de probabilidade para o critério de adequação  Tabela 4.3

Critérios de Pearson 2 (“qui-quadrado”) - critério de adequação que permite avaliar o grau de proximidade da distribuição empírica com o normal:
,onde f i, f" i são as frequências das distribuições empíricas e teóricas em um determinado intervalo. Quanto maior a diferença entre as frequências observadas e teóricas, maior o critério  2. Para distinguir a significância das diferenças nas frequências do distribuições empíricas e teóricas de acordo com o critério  2 a partir de diferenças devido a amostras aleatórias, o valor calculado do critério  2 calc é comparado com a tabela  2 tabulada com o número apropriado de graus de liberdade e um determinado nível de significância. nível é selecionado de modo que P( 2 calc > 2 tab) = . O número de graus de liberdade é heu, Onde h– número de grupos; eu– o número de condições que devem ser atendidas no cálculo das frequências teóricas. Para calcular as frequências teóricas da curva de distribuição normal usando a fórmula
você precisa saber três parâmetros , , f, portanto o número de graus de liberdade é h–3. Se  2 calc > 2 tab, ou seja  2 cai na região crítica, então a discrepância entre as frequências empíricas e teóricas é significativa e não pode ser explicada por flutuações aleatórias nos dados da amostra. Neste caso, a hipótese nula é rejeitada. Se  2 cálculo  2 tabelas, ou seja, o critério calculado não ultrapassa a divergência máxima possível de frequências que pode surgir por acaso, então neste caso é aceita a hipótese sobre a correspondência das distribuições. O critério de Pearson é eficaz com um número significativo de observações (n50), e as frequências de todos os intervalos devem numerar pelo menos cinco unidades (com um número menor, os intervalos são combinados), e o número de intervalos (grupos) deve ser grande (h>5), pois a estimativa  2 depende do número de graus de liberdade.

Critério Romanovsky - um critério de qualidade de ajuste que permite avaliar o grau de proximidade da distribuição empírica com a normal. Romanovsky propôs avaliar a proximidade da distribuição empírica com a curva de distribuição normal em relação a:

, onde h é o número de grupos.

Se a razão for maior que 3, então a discrepância entre as frequências das distribuições empírica e normal não pode ser considerada aleatória e a hipótese de uma lei de distribuição normal deve ser rejeitada. Se a proporção for menor ou igual a 3, podemos aceitar a hipótese de que a distribuição dos dados é normal.

Para se obter uma ideia aproximada da forma da distribuição de uma variável aleatória, é traçado um gráfico de sua série de distribuição (polígono e histograma), função ou densidade de distribuição. Na prática da pesquisa estatística encontramos distribuições muito diferentes. Populações homogêneas são caracterizadas, via de regra, por distribuições de vértice único. Multivertex indica a heterogeneidade da população em estudo. Neste caso, é necessário reagrupar os dados para identificar grupos mais homogêneos.

Determinar o caráter geral da distribuição de uma variável aleatória envolve avaliar o grau de sua homogeneidade, bem como calcular os indicadores de assimetria e curtose. Numa distribuição simétrica, em que a expectativa matemática é igual à mediana, ou seja, , pode-se considerar que não há assimetria. Mas quanto mais perceptível for a assimetria, maior será o desvio entre as características do centro de distribuição - a expectativa matemática e a mediana.

Pode-se considerar o coeficiente de assimetria mais simples da distribuição de uma variável aleatória, onde é a expectativa matemática, é a mediana e é o desvio padrão da variável aleatória.

No caso de assimetria do lado direito, assimetria do lado esquerdo. Se , a assimetria é considerada baixa, se - média e at - alta. Uma ilustração geométrica da assimetria dos lados direito e esquerdo é mostrada na figura abaixo. Mostra gráficos da densidade de distribuição dos tipos correspondentes de variáveis ​​​​aleatórias contínuas.

Desenho. Ilustração da assimetria direita e esquerda em gráficos de densidade de distribuições de variáveis ​​aleatórias contínuas.

Existe outro coeficiente de assimetria da distribuição de uma variável aleatória. Pode-se provar que um momento central diferente de zero de ordem ímpar indica uma assimetria na distribuição da variável aleatória. No indicador anterior utilizamos uma expressão semelhante ao momento de primeira ordem. Mas normalmente neste outro coeficiente de assimetria é utilizado o momento central de terceira ordem , e para que esse coeficiente fique adimensional, ele é dividido pelo cubo do desvio padrão. O coeficiente de assimetria resultante é: . Para este coeficiente de assimetria, como para o primeiro no caso de assimetria do lado direito, lado esquerdo - .

Curtose de uma variável aleatória

A curtose da distribuição de uma variável aleatória caracteriza o grau de concentração de seus valores próximo ao centro da distribuição: quanto maior a concentração, maior e mais estreito será o gráfico de densidade de sua distribuição. O indicador de curtose (nitidez) é calculado usando a fórmula: , onde é o momento central de 4ª ordem e é o desvio padrão elevado à 4ª potência. Como as potências do numerador e do denominador são iguais, a curtose é uma quantidade adimensional. Neste caso, aceita-se como padrão de ausência de curtose, curtose zero, tomar a distribuição normal. Mas pode ser provado que para uma distribuição normal. Portanto, na fórmula de cálculo da curtose, o número 3 é subtraído dessa fração.

Assim, para uma distribuição normal a curtose é zero: . Se a curtose for maior que zero, ou seja, , então a distribuição é mais pontiaguda do que o normal. Se a curtose for menor que zero, ou seja, , então a distribuição terá menos pico que o normal. O valor limite da curtose negativa é o valor de; a magnitude da curtose positiva pode ser infinitamente grande. A aparência dos gráficos de densidades de distribuição de pico e de topo plano de variáveis ​​​​aleatórias em comparação com uma distribuição normal é mostrada na figura.

Desenho. Ilustração de distribuições de densidade com pico e topo plano de variáveis ​​aleatórias em comparação com a distribuição normal.

A assimetria e a curtose da distribuição de uma variável aleatória mostram o quanto ela se desvia da lei normal. Para grandes assimetrias e curtoses, não devem ser utilizadas fórmulas de cálculo para distribuição normal. Qual o nível de admissibilidade de assimetria e curtose para a utilização de fórmulas de distribuição normal na análise de dados para uma determinada variável aleatória deve ser determinado pelo pesquisador com base em seu conhecimento e experiência.

Definição. Moda M 0 de uma variável aleatória discreta é chamado de valor mais provável. Para uma variável aleatória contínua, a moda é o valor da variável aleatória no qual a densidade de distribuição tem um máximo.

Se o polígono de distribuição para uma variável aleatória discreta ou a curva de distribuição para uma variável aleatória contínua tiver dois ou mais máximos, então tal distribuição é chamada bimodal ou multimodal.

Se uma distribuição tem um mínimo, mas não tem máximo, então ela é chamada antimodal.

Definição. Mediana M D de uma variável aleatória X é o seu valor em relação ao qual é igualmente provável que seja obtido um valor maior ou menor da variável aleatória.

Geometricamente, a mediana é a abcissa do ponto em que a área limitada pela curva de distribuição é dividida ao meio.

Observe que se a distribuição for unimodal, então a moda e a mediana coincidem com a expectativa matemática.

Definição. O momento inicial ordem k variável aleatória X é a expectativa matemática do valor X k .

Para uma variável aleatória discreta: .

.

O momento inicial de primeira ordem é igual à expectativa matemática.

Definição. Momento central ordem k variável aleatória X é a expectativa matemática do valor

Para uma variável aleatória discreta: .

Para uma variável aleatória contínua: .

O momento central de primeira ordem é sempre zero, e o momento central de segunda ordem é igual à dispersão. O momento central de terceira ordem caracteriza a assimetria da distribuição.

Definição. A razão entre o momento central de terceira ordem e o desvio padrão elevado à terceira potência é chamada coeficiente de assimetria.

Definição. Para caracterizar o pico e a planicidade da distribuição, uma quantidade chamada excesso.

Além das grandezas consideradas, também são utilizados os chamados momentos absolutos:

Momento inicial absoluto: .

Ponto central absoluto: .

Quantil , correspondendo a um determinado nível de probabilidade R, é o valor no qual a função de distribuição assume um valor igual a R, ou seja Onde R- nível de probabilidade especificado.

Em outras palavras quantil existe um valor de uma variável aleatória no qual

Probabilidade R, especificado como uma porcentagem, dá o nome ao quantil correspondente, por exemplo, é chamado de quantil 40%.

20. Expectativa matemática e dispersão do número de ocorrências de um evento em experimentos independentes.

Definição. Expectativa matemática uma variável aleatória contínua X, cujos valores possíveis pertencem ao segmento , é chamada de integral definida

Se os valores possíveis de uma variável aleatória são considerados em todo o eixo numérico, então a expectativa matemática é encontrada pela fórmula:

Neste caso, é claro, assume-se que a integral imprópria converge.

Expectativa matemática Uma variável aleatória discreta é a soma dos produtos de seus valores possíveis e suas probabilidades correspondentes:

M(X) =X 1 R 1 +X 2 R 2 + … +X P R P . (7.1)

Se o número de valores possíveis de uma variável aleatória for infinito, então
, se a série resultante convergir absolutamente.

Nota 1. A expectativa matemática às vezes é chamada média ponderada, uma vez que é aproximadamente igual à média aritmética dos valores observados da variável aleatória em um grande número de experimentos.

Nota 2. Da definição de expectativa matemática segue-se que seu valor não é inferior ao menor valor possível de uma variável aleatória e não superior ao maior.

Nota 3. A expectativa matemática de uma variável aleatória discreta é não aleatório(constante. Veremos mais tarde que o mesmo se aplica a variáveis ​​aleatórias contínuas.

Propriedades da expectativa matemática.

    A expectativa matemática de uma constante é igual à própria constante:

M(COM) =COM.(7.2)

Prova. Se considerarmos COM como uma variável aleatória discreta assumindo apenas um valor COM com probabilidade R= 1, então M(COM) =COM·1 = COM.

    O fator constante pode ser retirado do sinal da expectativa matemática:

M(Experiência do cliente) =CM(X). (7.3)

Prova. Se a variável aleatória X dado por série de distribuição

x eu

x n

p eu

p n

então a série de distribuição para Experiência do cliente tem o formato:

COMx eu

COMx 1

COMx 2

COMx n

p eu

p n

Então M(Experiência do cliente) =Cx 1 R 1 +Cx 2 R 2 + … +Cx P R P =COM(X 1 R 1 +X 2 R 2 + … +X P R P) =CM(X).

Expectativa matemática variável aleatória contínua é chamada

(7.13)

Nota 1. A definição geral de variância permanece a mesma para uma variável aleatória contínua e para uma variável discreta (def. 7.5), e a fórmula para calculá-la tem a forma:

(7.14)

O desvio padrão é calculado usando a fórmula (7.12).

Nota 2. Se todos os valores possíveis de uma variável aleatória contínua não estiverem fora do intervalo [ a, b], então as integrais nas fórmulas (7.13) e (7.14) são calculadas dentro desses limites.

Teorema. A variância do número de ocorrências de um evento em tentativas independentes é igual ao produto do número de tentativas e as probabilidades de ocorrência e não ocorrência de um evento em uma tentativa: .

Prova. Seja o número de ocorrências do evento em ensaios independentes. É igual à soma das ocorrências do evento em cada tentativa: . Como os testes são independentes, as variáveis ​​aleatórias – são independentes, portanto.

Como mostrado acima, , e .

Então ah .

Neste caso, como mencionado anteriormente, o desvio padrão é .

Ao analisar a distribuição da população, de significativo interesse é a avaliação do desvio de uma determinada distribuição em relação à simétrica, ou, por outras palavras, a sua assimetria. O grau de assimetria (assimetria) é uma das propriedades mais importantes da distribuição populacional. Existem várias estatísticas destinadas a calcular a assimetria. Todos eles atendem a pelo menos dois requisitos para qualquer indicador de assimetria: deve ser adimensional e igual a zero se a distribuição for simétrica.

Na Fig. 2 a, b mostram curvas de duas distribuições populacionais assimétricas, uma das quais é distorcida para a esquerda e a outra para a direita. A posição relativa da moda, mediana e média é mostrada qualitativamente. Percebe-se que um dos possíveis indicadores de assimetria pode ser construído levando-se em consideração a distância em que a média e a moda estão localizadas uma da outra. Mas tendo em conta a complexidade de determinar a moda a partir de dados empíricos, e por outro lado, a conhecida relação (3) entre moda, mediana e média, foi proposta a seguinte fórmula para cálculo do índice de assimetria:

Desta fórmula segue-se que as distribuições distorcidas para a esquerda têm assimetria positiva e as distribuições distorcidas para a direita têm assimetria negativa. Naturalmente, para distribuições simétricas, para as quais a média e a mediana coincidem, a assimetria é zero.

Calculemos os indicadores de assimetria para os dados fornecidos na tabela. 1 e 2. Para a distribuição da duração do ciclo cardíaco temos:

Assim, esta distribuição é ligeiramente distorcida à esquerda. O valor obtido para a assimetria é aproximado e não exato, pois para calculá-lo foram utilizados valores e calculados de forma simplificada.

Para a distribuição dos grupos sulfidrila no soro sanguíneo temos:

Assim, esta distribuição tem uma assimetria negativa, ou seja, inclinado para a direita.

Teoricamente, mostra-se que o valor determinado pela fórmula 13 está dentro de 3. Mas, na prática, este valor muito raramente atinge os seus valores limites e, para distribuições moderadamente assimétricas de um único vértice, o seu valor absoluto é geralmente inferior a um.

O indicador de assimetria pode ser utilizado não apenas para uma descrição formal da distribuição populacional, mas também para uma interpretação significativa dos dados obtidos.

Na verdade, se a característica que observamos é formada sob a influência de um grande número de causas independentes umas das outras, cada uma das quais dá uma contribuição relativamente pequena para o valor desta característica, então, de acordo com algumas premissas teóricas discutidas no seção sobre teoria das probabilidades, temos o direito de esperar que a distribuição populacional obtida como resultado do experimento seja simétrica. No entanto, se for obtido um valor de assimetria significativo para os dados experimentais (o valor numérico de As módulo está dentro de alguns décimos), então pode-se assumir que as condições especificadas acima não são atendidas.

Neste caso, faz sentido assumir ou a existência de um ou dois fatores, cuja contribuição para a formação do valor observado no experimento é significativamente maior que os demais, ou postular a presença de um mecanismo especial que é diferente do mecanismo de influência independente de muitas causas no valor da característica observada.

Assim, por exemplo, se as mudanças em uma quantidade que nos interessa, correspondente à ação de um determinado fator, são proporcionais a esse próprio valor e à intensidade da ação da causa, então a distribuição resultante será sempre distorcida para o esquerda, ou seja, tem uma assimetria positiva. Os biólogos, por exemplo, encontram esse mecanismo ao estimar quantidades associadas ao crescimento de plantas e animais.

Outra forma de avaliar a assimetria é baseada no método dos momentos, que será discutido no Capítulo 44. De acordo com este método, a assimetria é calculada usando a soma dos desvios de todos os valores de uma série de dados em relação à média , elevado à terceira potência, ou seja:

A terceira potência garante que o numerador desta expressão seja igual a zero para distribuições simétricas, pois neste caso as somas dos desvios para cima e para baixo da média para a terceira potência serão iguais e terão sinais opostos. A divisão por fornece adimensionalidade para a medida de assimetria.

A fórmula (14) pode ser transformada da seguinte forma. No parágrafo anterior foram introduzidos valores padronizados:

Assim, a medida de assimetria é a média dos dados padronizados ao cubo.

Para os mesmos dados para os quais a assimetria foi calculada pela fórmula (13), encontramos o indicador pela fórmula (15). Nós temos:

Naturalmente, os indicadores de assimetria calculados por diferentes fórmulas diferem entre si em magnitude, mas indicam igualmente a natureza da assimetria. Em pacotes de aplicativos para análise estatística, no cálculo da assimetria, utiliza-se a fórmula (15), pois fornece valores mais precisos. Para cálculos preliminares usando calculadoras simples, você pode usar a fórmula (13).

Excesso. Assim, examinamos três dos quatro grupos de indicadores com a ajuda dos quais são descritas as distribuições populacionais. O último deles é um grupo de indicadores de pico, ou curtose (do grego - corcunda). Para calcular um dos possíveis indicadores de curtose, utiliza-se a seguinte fórmula:

Utilizando a mesma abordagem aplicada na transformação da fórmula de assimetria (14) é fácil mostrar que:

Teoricamente, foi demonstrado que o valor da curtose para uma curva de distribuição normal (Gaussiana), que desempenha um papel importante nas estatísticas, bem como na teoria das probabilidades, é numericamente igual a 3. Com base em uma série de considerações, a nitidez de esta curva é tomada como padrão e, portanto, como indicador de curtose utiliza-se o valor:

Vamos encontrar o valor de pico para os dados fornecidos na tabela. 1. Temos:

Assim, a curva de distribuição da duração dos ciclos cardíacos é achatada em comparação com a curva normal, para a qual.

Na tabela A Figura 3 mostra a distribuição do número de flores marginais em uma das espécies de crisântemo. Para esta distribuição

A curtose pode assumir valores muito elevados, como se pode verificar no exemplo dado, mas o seu limite inferior não pode ser inferior a um. Acontece que se a distribuição for bimodal, então o valor da curtose se aproxima do seu limite inferior, portanto tende a -2. Assim, se como resultado dos cálculos se verificar que o valor é inferior a -1-1,4, podemos ter a certeza que a distribuição populacional à nossa disposição é pelo menos bimodal. Isto é especialmente importante levar em consideração quando os dados experimentais, ultrapassando a fase de pré-processamento, são analisados ​​​​em um computador digital e o pesquisador não tem diante de seus olhos uma representação gráfica direta da distribuição da população.

A curva de distribuição de dois picos de dados experimentais pode surgir por vários motivos. Em particular, tal distribuição pode aparecer combinando dois conjuntos de dados heterogêneos em um único conjunto. Para ilustrar isso, combinamos artificialmente dados sobre a largura das conchas de dois tipos de moluscos fósseis em um conjunto (Tabela 4, Fig. 3).

A figura mostra claramente a presença de dois modos, uma vez que dois conjuntos de dados de populações diferentes são misturados. O cálculo dá para o valor de curtose 1,74 e, portanto, = -1,26. Assim, o valor calculado do índice de pico indica, de acordo com a posição anteriormente afirmada, que a distribuição possui dois picos.

Há uma ressalva aqui. Com efeito, em todos os casos em que a distribuição da população tem dois máximos, o valor da curtose estará próximo da unidade. No entanto, este facto não pode levar automaticamente à conclusão de que o conjunto de dados analisado é uma mistura de duas amostras heterogéneas. Em primeiro lugar, tal mistura, dependendo do número de seus agregados constituintes, pode não ter dois picos, e o índice de curtose será significativamente maior que um. Em segundo lugar, uma amostra homogênea pode ter dois modos se, por exemplo, os requisitos para a seleção de dados experimentais forem violados. Assim, neste, como noutros casos, após o cálculo formal de diversas estatísticas, deve ser efectuada uma análise profissional aprofundada, que permitirá dar uma interpretação significativa aos dados obtidos.

Materiais mais recentes na seção:

Principais tipos de gestão ambiental
Principais tipos de gestão ambiental

21/06/2016 / Distrito Urbano de Donskoy A Lei Federal de 10/01/2002 nº 7-FZ “Sobre Proteção Ambiental” estabeleceu pela primeira vez o princípio, de acordo com...

Definição de bola.  Matemática.  O curso completo pode ser repetido.  Secante, corda, plano secante de uma esfera e suas propriedades
Definição de bola. Matemática. O curso completo pode ser repetido. Secante, corda, plano secante de uma esfera e suas propriedades

Uma bola é um corpo que consiste em todos os pontos do espaço localizados a uma distância não superior a um determinado ponto. Este ponto é chamado...

Cálculo de assimetria e curtose de uma distribuição empírica no Excel Coeficiente de curtose de uma distribuição normal
Cálculo de assimetria e curtose de uma distribuição empírica no Excel Coeficiente de curtose de uma distribuição normal

O coeficiente de assimetria mostra a “assimetria” da série de distribuição em relação ao centro: onde está o momento central de terceira ordem; - cubo...