A análise de regressão é um método estatístico para estudar a dependência de uma variável aleatória em variáveis. Regressão no Excel: equação, exemplos

O objetivo da análise de regressão é medir a relação entre uma variável dependente e uma (análise de regressão pareada) ou mais (múltiplas) variáveis ​​independentes. As variáveis ​​independentes também são chamadas de variáveis ​​fatoriais, explicativas, determinantes, regressoras e preditoras.

A variável dependente às vezes é chamada de variável determinada, explicada ou “resposta”. O uso extremamente difundido da análise de regressão na pesquisa empírica não se deve apenas ao fato de ser uma ferramenta conveniente para testar hipóteses. A regressão, especialmente a regressão múltipla, é um método eficaz para modelagem e previsão.

Vamos começar a explicar os princípios de trabalho com análise de regressão com um método mais simples - o método dos pares.

Análise de regressão pareada

Os primeiros passos ao usar a análise de regressão serão quase idênticos aos que tomamos no cálculo do coeficiente de correlação. As três principais condições para a eficácia da análise de correlação pelo método de Pearson - distribuição normal das variáveis, medição intervalar das variáveis, relação linear entre variáveis ​​- também são relevantes para a regressão múltipla. Assim, numa primeira etapa são construídos gráficos de dispersão, realizada uma análise estatística e descritiva das variáveis ​​e calculada uma linha de regressão. Tal como no âmbito da análise de correlação, as linhas de regressão são construídas utilizando o método dos mínimos quadrados.

Para ilustrar mais claramente as diferenças entre os dois métodos de análise de dados, voltemos ao exemplo já discutido com as variáveis ​​“apoio do RPS” e “quota da população rural”. Os dados de origem são idênticos. A diferença nos gráficos de dispersão será que na análise de regressão é correto traçar a variável dependente - no nosso caso, “suporte SPS” no eixo Y, enquanto na análise de correlação isso não importa. Depois de limpar os outliers, o gráfico de dispersão fica assim:

A ideia fundamental da análise de regressão é que, tendo uma tendência geral para as variáveis ​​– em forma de linha de regressão – é possível prever o valor da variável dependente, dados os valores da independente.

Vamos imaginar uma função linear matemática comum. Qualquer linha reta no espaço euclidiano pode ser descrita pela fórmula:

onde a é uma constante que especifica o deslocamento ao longo do eixo das ordenadas; b é um coeficiente que determina o ângulo de inclinação da linha.

Conhecendo a inclinação e a constante, você pode calcular (prever) o valor de y para qualquer x.

Esta função mais simples formou a base do modelo de análise de regressão com a ressalva de que não iremos prever o valor de y exatamente, mas dentro de um certo intervalo de confiança, ou seja, aproximadamente.

A constante é o ponto de intersecção da linha de regressão e do eixo y (intersecção F, geralmente denotada como “interceptor” em pacotes estatísticos). No nosso exemplo de votação na União das Forças de Direita, seu valor arredondado será 10,55. O coeficiente angular b será de aproximadamente -0,1 (como na análise de correlação, o sinal mostra o tipo de conexão - direta ou inversa). Assim, o modelo resultante terá a forma SP C = -0,1 x Sel. nós. + 10,55.

Assim, para o caso da “República da Adiguésia” com uma proporção de população rural de 47%, o valor previsto será de 5,63:

ATP = -0,10 x 47 + 10,55 = 5,63.

A diferença entre os valores originais e previstos é chamada de resto (já encontramos esse termo, fundamental para a estatística, na análise de tabelas de contingência). Assim, para o caso da “República da Adiguésia” o restante será igual a 3,92 - 5,63 = -1,71. Quanto maior o valor modular do restante, menos sucesso será o valor previsto.

Calculamos os valores previstos e resíduos para todos os casos:
Acontecendo Sentou-se. nós. THX

(original)

THX

(previsto)

Sobras
República da Adiguésia 47 3,92 5,63 -1,71 -
República de Altai 76 5,4 2,59 2,81
República do Bascortostão 36 6,04 6,78 -0,74
A República da Buriácia 41 8,36 6,25 2,11
A República do Daguestão 59 1,22 4,37 -3,15
A República da Inguchétia 59 0,38 4,37 3,99
Etc.

A análise da relação entre os valores iniciais e previstos serve para avaliar a qualidade do modelo resultante e sua capacidade preditiva. Um dos principais indicadores das estatísticas de regressão é o coeficiente de correlação múltipla R - o coeficiente de correlação entre os valores originais e previstos da variável dependente. Na análise de regressão pareada, é igual ao coeficiente de correlação de Pearson usual entre as variáveis ​​​​dependentes e independentes, no nosso caso - 0,63. Para interpretar significativamente o múltiplo R, ele deve ser convertido em um coeficiente de determinação. Isso é feito da mesma forma que na análise de correlação - por quadratura. O coeficiente de determinação R-quadrado (R 2) mostra a proporção de variação da variável dependente que é explicada pela(s) variável(is) independente(s).

No nosso caso, R 2 = 0,39 (0,63 2); isto significa que a variável “quota da população rural” explica aproximadamente 40% da variação da variável “apoio do RPS”. Quanto maior o coeficiente de determinação, maior será a qualidade do modelo.

Outro indicador da qualidade do modelo é o erro padrão da estimativa. Esta é uma medida de quão amplamente os pontos estão “espalhados” em torno da linha de regressão. A medida de spread para variáveis ​​de intervalo é o desvio padrão. Assim, o erro padrão da estimativa é o desvio padrão da distribuição dos resíduos. Quanto maior o seu valor, maior será a dispersão e pior será o modelo. No nosso caso, o erro padrão é 2,18. É por este valor que o nosso modelo irá “errar em média” na previsão do valor da variável “apoio do RPS”.

As estatísticas de regressão também incluem análise de variância. Com sua ajuda descobrimos: 1) que proporção da variação (dispersão) da variável dependente é explicada pela variável independente; 2) que proporção da variância da variável dependente é contabilizada pelos resíduos (parte inexplicável); 3) qual é a razão entre essas duas quantidades (proporção / "). As estatísticas de dispersão são especialmente importantes para estudos amostrais - mostram a probabilidade de haver uma relação entre as variáveis ​​​​independentes e dependentes na população. No entanto, para estudos contínuos (como em nosso exemplo) os resultados do estudo de análise de variância não são úteis. Nesse caso, eles verificam se o padrão estatístico identificado é causado por uma combinação de circunstâncias aleatórias, quão característico ele é para o complexo de condições em que o a população examinada está localizada, ou seja, fica estabelecido que o resultado obtido não é verdadeiro para algum agregado geral mais amplo, mas sim o grau de sua regularidade, livre de influências aleatórias.

No nosso caso, as estatísticas ANOVA são as seguintes:

SS df EM F significado
Regressar. 258,77 1,00 258,77 54,29 0.000000001
Restante 395,59 83,00 L,11
Total 654,36

O índice F de 54,29 é significativo no nível 0,0000000001. Conseqüentemente, podemos rejeitar com segurança a hipótese nula (de que a relação que descobrimos se deve ao acaso).

O critério t desempenha função semelhante, mas em relação aos coeficientes de regressão (angular e interseção F). Utilizando o critério /, testamos a hipótese de que na população geral os coeficientes de regressão são iguais a zero. No nosso caso, podemos novamente rejeitar com segurança a hipótese nula.

Múltiplas análises de regressão

O modelo de regressão múltipla é quase idêntico ao modelo de regressão pareada; a única diferença é que várias variáveis ​​​​independentes são incluídas sequencialmente na função linear:

Y = b1X1 + b2X2 +…+ bpXp + a.

Se houver mais de duas variáveis ​​independentes, não seremos capazes de ter uma ideia visual de sua relação; nesse sentido, a regressão múltipla é menos “visual” do que a regressão aos pares. Quando você tem duas variáveis ​​independentes, pode ser útil exibir os dados em um gráfico de dispersão 3D. Em pacotes de software estatístico profissional (por exemplo, Statistica) existe a opção de girar um gráfico tridimensional, o que permite representar bem visualmente a estrutura dos dados.

Ao trabalhar com regressão múltipla, em oposição à regressão pareada, é necessário determinar o algoritmo de análise. O algoritmo padrão inclui todos os preditores disponíveis no modelo de regressão final. O algoritmo passo a passo envolve a inclusão (exclusão) sequencial de variáveis ​​independentes com base no seu “peso” explicativo. O método stepwise é bom quando existem muitas variáveis ​​independentes; ela “limpa” o modelo de preditores francamente fracos, tornando-o mais compacto e conciso.

Uma condição adicional para a correção da regressão múltipla (juntamente com intervalo, normalidade e linearidade) é a ausência de multicolinearidade - a presença de fortes correlações entre variáveis ​​independentes.

A interpretação das estatísticas de regressão múltipla inclui todos os elementos que consideramos para o caso de regressão pareada. Além disso, existem outros componentes importantes nas estatísticas da análise de regressão múltipla.

Ilustraremos o trabalho com regressão múltipla usando o exemplo do teste de hipóteses que explicam as diferenças no nível de atividade eleitoral nas regiões russas. Estudos empíricos específicos sugeriram que os níveis de participação eleitoral são influenciados por:

Fator nacional (variável “população russa”; operacionalizada como a proporção da população russa nas entidades constituintes da Federação Russa). Supõe-se que um aumento na proporção da população russa leva a uma diminuição na participação eleitoral;

Fator de urbanização (a variável “população urbana”; operacionalizada como a parcela da população urbana nas entidades constituintes da Federação Russa; já trabalhamos com este fator como parte da análise de correlação). Supõe-se que um aumento na proporção da população urbana também leva a uma diminuição na participação eleitoral.

A variável dependente - “intensidade da atividade eleitoral” (“ativa”) é operacionalizada através de dados de participação média por região nas eleições federais de 1995 a 2003. A tabela de dados inicial para duas variáveis ​​independentes e uma dependente será a seguinte:

Acontecendo Variáveis
Ativos. Gor. nós. Rússia. nós.
República da Adiguésia 64,92 53 68
República de Altai 68,60 24 60
A República da Buriácia 60,75 59 70
A República do Daguestão 79,92 41 9
A República da Inguchétia 75,05 41 23
República da Calmúquia 68,52 39 37
República Karachai-Cherkess 66,68 44 42
República da Carélia 61,70 73 73
República de Komi 59,60 74 57
República Mari El 65,19 62 47

Etc. (após a limpeza das emissões, restam 83 dos 88 casos)

Estatísticas que descrevem a qualidade do modelo:

1. R múltiplo = 0,62; L-quadrado = 0,38. Consequentemente, o factor nacional e o factor urbanização explicam em conjunto cerca de 38% da variação da variável “actividade eleitoral”.

2. O erro médio é 3,38. Isto é exactamente o quão “errado em média” o modelo construído está ao prever o nível de participação.

3. A proporção /l de variação explicada e inexplicada é 25,2 no nível 0,000000003. A hipótese nula sobre a aleatoriedade das relações identificadas é rejeitada.

4. O critério / para os coeficientes constantes e de regressão das variáveis ​​“população urbana” e “população russa” é significativo ao nível de 0,0000001; 0,00005 e 0,007 respectivamente. A hipótese nula de que os coeficientes são aleatórios é rejeitada.

Estatísticas adicionais úteis na análise da relação entre os valores originais e previstos da variável dependente são a distância de Mahalanobis e a distância de Cook. A primeira é uma medida da singularidade do caso (mostra o quanto a combinação dos valores de todas as variáveis ​​​​independentes para um determinado caso se desvia do valor médio para todas as variáveis ​​​​independentes simultaneamente). A segunda é uma medida da influência do caso. Observações diferentes têm efeitos diferentes na inclinação da linha de regressão, e a distância de Cook pode ser usada para compará-las neste indicador. Isso pode ser útil ao limpar valores discrepantes (um caso discrepante pode ser considerado um caso excessivamente influente).

No nosso exemplo, casos únicos e influentes incluem o Daguestão.

Acontecendo Original

valores

Predska

valores

Sobras Distância

Mahalanobis

Distância
Adiguésia 64,92 66,33 -1,40 0,69 0,00
República de Altai 68,60 69.91 -1,31 6,80 0,01
A República da Buriácia 60,75 65,56 -4,81 0,23 0,01
A República do Daguestão 79,92 71,01 8,91 10,57 0,44
A República da Inguchétia 75,05 70,21 4,84 6,73 0,08
República da Calmúquia 68,52 69,59 -1,07 4,20 0,00

O próprio modelo de regressão possui os seguintes parâmetros: interseção Y (constante) = 75,99; b (horizontal) = -0,1; Kommersant (nas russo) = -0,06. Fórmula final:

Aativo, = -0,1 x Hor. us.n+- 0,06 x Rus. nós.n + 75,99.

Podemos comparar o “poder explicativo” dos preditores com base no valor do coeficiente 61. Neste caso, sim, uma vez que ambas as variáveis ​​independentes têm o mesmo formato percentual. Contudo, na maioria das vezes, a regressão múltipla trata de variáveis ​​medidas em diferentes escalas (por exemplo, nível de rendimento em rublos e idade em anos). Portanto, no caso geral, é incorreto comparar as capacidades preditivas das variáveis ​​usando um coeficiente de regressão. Nas estatísticas de regressão múltipla, existe um coeficiente beta (B) especial para esse fim, calculado separadamente para cada variável independente. Representa o coeficiente de correlação parcial (calculado após levar em conta a influência de todos os outros preditores) entre o fator e a resposta e mostra a contribuição independente do fator para a previsão dos valores de resposta. Na análise de regressão pareada, o coeficiente beta é compreensivelmente igual ao coeficiente de correlação pareada entre a variável dependente e independente.

Em nosso exemplo, beta (população das Terras Altas) = ​​-0,43, beta (população russa) = -0,28. Assim, ambos os factores afectam negativamente o nível de actividade eleitoral, enquanto a importância do factor urbanização é significativamente superior à importância do factor nacional. A influência combinada de ambos os fatores determina cerca de 38% da variação da variável “atividade eleitoral” (ver valor L-quadrado).

Análise de regressão

Regressão (linear) análise- um método estatístico para estudar a influência de uma ou mais variáveis ​​independentes sobre uma variável dependente. As variáveis ​​independentes também são chamadas de regressores ou preditores, e as variáveis ​​dependentes são chamadas de variáveis ​​de critério. Terminologia dependente E independente variáveis ​​reflete apenas a dependência matemática das variáveis ​​( veja Falsa correlação), em vez de relações de causa e efeito.

Objetivos da Análise de Regressão

  1. Determinação do grau de determinação da variação de uma variável critério (dependente) por preditores (variáveis ​​independentes)
  2. Prever o valor de uma variável dependente usando a(s) variável(is) independente(s)
  3. Determinação da contribuição das variáveis ​​independentes individuais para a variação da variável dependente

A análise de regressão não pode ser utilizada para determinar se existe relação entre as variáveis, uma vez que a presença de tal relação é um pré-requisito para a aplicação da análise.

Definição Matemática de Regressão

Uma relação estritamente de regressão pode ser definida da seguinte forma. Sejam variáveis ​​aleatórias com uma dada distribuição de probabilidade conjunta. Se para cada conjunto de valores for definida uma expectativa matemática condicional

(equação de regressão na forma geral),

então a função é chamada regressão valores de Y por valores, e seu gráfico é linha de regressão por, ou equação de regressão.

A dependência de se manifesta na mudança nos valores médios de Y com uma mudança em . Embora, para cada conjunto fixo de valores, o valor permaneça uma variável aleatória com uma certa dispersão.

Para esclarecer a questão de quão precisamente a análise de regressão estima a mudança em Y ao mudar , é usado o valor médio da dispersão de Y para diferentes conjuntos de valores (na verdade, estamos falando sobre a medida de dispersão da variável dependente em torno da linha de regressão).

Método dos mínimos quadrados (cálculo de coeficientes)

Na prática, a linha de regressão é mais frequentemente procurada na forma de uma função linear (regressão linear), que melhor se aproxima da curva desejada. Isso é feito usando o método dos mínimos quadrados, quando a soma dos desvios quadrados dos valores realmente observados de suas estimativas é minimizada (ou seja, estimativas usando uma linha reta que pretende representar a relação de regressão desejada):

(M - tamanho da amostra). Esta abordagem baseia-se no facto bem conhecido de que o montante que aparece na expressão acima assume um valor mínimo precisamente para o caso em que .

Para resolver o problema de análise de regressão pelo método dos mínimos quadrados, é introduzido o conceito funções residuais:

Condição mínima para a função residual:

O sistema resultante é um sistema de equações lineares com incógnitas

Se representarmos os termos livres no lado esquerdo das equações como uma matriz

e os coeficientes para as incógnitas no lado direito são a matriz

então obtemos a equação matricial: , que é facilmente resolvida pelo método de Gauss. A matriz resultante será uma matriz contendo os coeficientes da equação da linha de regressão:

Para obter as melhores estimativas, é necessário cumprir as pré-condições do OLS (condições de Gauss-Markov). Na literatura inglesa, tais estimativas são chamadas de BLUE (Best Linear Unbiased Estimators).

Interpretação dos Parâmetros de Regressão

Os parâmetros são coeficientes de correlação parciais; é interpretado como a proporção da variância de Y explicada pela fixação da influência dos restantes preditores, ou seja, mede a contribuição individual para a explicação de Y. No caso de preditores correlacionados, surge o problema da incerteza nas estimativas, que se tornam dependentes da ordem em que os preditores são incluídos no modelo. Nesses casos, é necessário utilizar métodos de correlação e análise de regressão stepwise.

Ao falar em modelos não lineares de análise de regressão, é importante atentar se estamos falando de não linearidade nas variáveis ​​independentes (do ponto de vista formal, facilmente reduzível à regressão linear), ou de não linearidade nos parâmetros estimados (causando graves dificuldades computacionais). No caso de não linearidade do primeiro tipo, do ponto de vista substantivo, é importante destacar o aparecimento no modelo de termos da forma , , indicando a presença de interações entre traços , etc. (ver Multicolinearidade).

Veja também

Ligações

  • www.kgafk.ru - Palestra sobre o tema “Análise de regressão”
  • www.basegroup.ru - métodos para seleção de variáveis ​​​​em modelos de regressão

Literatura

  • Norman Draper, Harry Smith Análise de regressão aplicada. Regressão Múltipla = Análise de Regressão Aplicada. - 3ª edição. - M.: “Dialética”, 2007. - P. 912. - ISBN 0-471-17082-8
  • Métodos robustos para estimação de modelos estatísticos: Monografia. - K.: PP "Sansparel", 2005. - P. 504. - ISBN 966-96574-0-7, UDC: 519.237.5:515.126.2, BBK 22.172+22.152
  • Radchenko Stanislav Grigorievich, Metodologia de análise de regressão: Monografia. - K.: "Korniychuk", 2011. - P. 376. - ISBN 978-966-7599-72-0

Fundação Wikimedia. 2010.

Como resultado do estudo do material do Capítulo 4, o aluno deverá:

saber

  • conceitos básicos de análise de regressão;
  • métodos de estimação e propriedades de estimativas de mínimos quadrados;
  • regras básicas para testar significância e estimativa intervalar de equações e coeficientes de regressão;

ser capaz de

  • utilizar dados amostrais para encontrar estimativas dos parâmetros de modelos de equações de regressão bidimensionais e múltiplas e analisar suas propriedades;
  • verificar a significância da equação e dos coeficientes de regressão;
  • encontrar estimativas intervalares de parâmetros significativos;

ter

  • habilidades em estimação estatística de parâmetros de equações de regressão bivariada e múltipla; habilidades para verificar a adequação dos modelos de regressão;
  • habilidades na obtenção de uma equação de regressão com todos os coeficientes significativos usando software analítico.

Conceitos Básicos

Depois de realizar uma análise de correlação, quando é identificada a presença de relações estatisticamente significativas entre as variáveis ​​​​e avaliado o grau de sua proximidade, geralmente procede-se a uma descrição matemática do tipo de dependências por meio de métodos de análise de regressão. Para tanto, é selecionada uma classe de funções que relaciona o indicador efetivo no e argumentos„ calcular estimativas dos parâmetros da equação de acoplamento e analisar a precisão da equação resultante.

Função|, descrevendo a dependência do valor médio condicional da característica resultante no dos valores de argumento fornecidos é chamado equação de regressão.

O termo "regressão" (do Lat. regressão – retiro, retorno a algo) foi introduzido pelo psicólogo e antropólogo inglês F. Galton e está associado a um dos seus primeiros exemplos, em que Galton, processando dados estatísticos relacionados com a questão da hereditariedade da altura, descobriu que se a altura de pais se desvia da altura média de todos os pais X polegadas, então a altura de seus filhos se desvia da altura média de todos os filhos em menos de x polegadas. A tendência identificada foi chamada Regressão à média.

O termo “regressão” é amplamente utilizado na literatura estatística, embora em muitos casos não caracterize com precisão a relação estatística.

Para descrever com precisão a equação de regressão, é necessário conhecer a lei de distribuição condicional do indicador efetivo você. Na prática estatística, geralmente não é possível obter tais informações, limitando-se a procurar aproximações adequadas para a função f(x você X 2,...l*), com base numa análise preliminar significativa do fenómeno ou em dados estatísticos iniciais.

No âmbito das suposições do modelo individual sobre o tipo de distribuição do vetor de indicadores<) может быть получен общий вид equações de regressão, Onde. Por exemplo, supondo que o conjunto de indicadores em estudo obedece à lei de distribuição normal ()-dimensional com um vetor de expectativas matemáticas

Onde, e a matriz de covariância,

onde está a dispersão sim,

A equação de regressão (expectativa matemática condicional) tem a forma

Assim, se uma variável aleatória multivariada ()

obedece à lei de distribuição normal dimensional (), então a equação de regressão do indicador efetivo no em variáveis ​​explicativas é linear em X visualizar.

No entanto, na prática estatística, geralmente é preciso limitar-se a encontrar aproximações adequadas para a função de regressão verdadeira desconhecida f(x), uma vez que o pesquisador não possui conhecimento exato da lei de distribuição de probabilidade condicional do indicador de desempenho analisado no para determinados valores de argumento X.

Vejamos a relação entre as estimativas verdadeiras, do modelo e de regressão. Deixe o indicador efetivo no relacionado ao argumento X razão

onde é uma variável aleatória que tem uma lei de distribuição normal, e e. A verdadeira função de regressão neste caso tem a forma

Suponha que a forma exata da verdadeira equação de regressão seja desconhecida para nós, mas temos nove observações de uma variável aleatória bidimensional relacionada pelas relações apresentadas na Fig. 4.1.

Arroz. 4.1. A posição relativa do verdadeirof(x) e teóricoopamodelos de regressão

Localização dos pontos na Fig. 4.1 permite-nos limitar-nos à classe de dependências lineares da forma

Usando o método dos mínimos quadrados, encontramos a estimativa da equação de regressão.

Para comparação, na Fig. 4.1 mostra gráficos da função de regressão verdadeira e da função de regressão teórica aproximada. A estimativa da equação de regressão converge para esta última em probabilidade opa com um aumento ilimitado no tamanho da amostra ().

Como escolhemos erroneamente uma função de regressão linear em vez de uma função de regressão verdadeira, o que, infelizmente, é bastante comum na prática da pesquisa estatística, nossas conclusões e estimativas estatísticas não terão a propriedade de consistência, ou seja, Não importa quanto aumentemos o número de observações, nossa estimativa amostral não convergirá para a verdadeira função de regressão

Se tivéssemos escolhido corretamente a classe de funções de regressão, então a imprecisão na descrição usando opa seria explicado apenas pela amostragem limitada e, portanto, poderia ser tão pequeno quanto desejado

Para melhor restaurar o valor condicional do indicador de desempenho e a função de regressão desconhecida dos dados estatísticos iniciais, os seguintes são usados ​​com mais frequência: critérios de adequação funções de perda.

1. Método dos mínimos quadrados, segundo o qual o desvio quadrático dos valores observados do indicador efetivo, , dos valores do modelo é minimizado, onde os coeficientes da equação de regressão; são os valores do vetor de argumentos no “-M observação:

O problema de encontrar uma estimativa do vetor está resolvido. A regressão resultante é chamada quadrado médio.

2. Método dos mínimos módulos, segundo o qual a soma dos desvios absolutos dos valores observados do indicador efetivo dos valores modulares é minimizada, ou seja,

A regressão resultante é chamada significa absoluto(mediana).

3. Método Minimax se resume a minimizar o módulo máximo de desvio do valor observado do indicador efetivo sim, do valor do modelo, ou seja,

A regressão resultante é chamada mínimo.

Em aplicações práticas, muitas vezes existem problemas em que uma variável aleatória é estudada sim, dependendo de um determinado conjunto de variáveis ​​e parâmetros desconhecidos. Vamos considerar () como (k + População geral 1)dimensional da qual uma amostra aleatória de P, onde () é o resultado da i-ésima observação. É necessário estimar parâmetros desconhecidos com base nos resultados das observações. A tarefa descrita acima refere-se a problemas de análise de regressão.

Análise de regressão é chamado de método de análise estatística da dependência de uma variável aleatória no nas variáveis ​​consideradas na análise de regressão como valores não aleatórios, independentemente da verdadeira lei de distribuição

Na modelagem estatística, a análise de regressão é um estudo utilizado para avaliar a relação entre variáveis. Este método matemático inclui muitos outros métodos para modelar e analisar múltiplas variáveis ​​onde o foco está na relação entre uma variável dependente e uma ou mais independentes. Mais especificamente, a análise de regressão ajuda-nos a compreender como o valor típico de uma variável dependente muda se uma das variáveis ​​independentes muda enquanto as outras variáveis ​​independentes permanecem fixas.

Em todos os casos, a estimativa alvo é uma função das variáveis ​​independentes e é chamada de função de regressão. Na análise de regressão também é interessante caracterizar a mudança na variável dependente em função da regressão, que pode ser descrita por meio de uma distribuição de probabilidade.

Problemas de análise de regressão

Este método de pesquisa estatística é amplamente utilizado para previsões, onde seu uso apresenta vantagens significativas, mas às vezes pode levar a ilusões ou falsas relações, por isso é recomendável utilizá-lo com cautela no referido assunto, pois, por exemplo, correlação não significa causalidade.

Um grande número de métodos foi desenvolvido para análise de regressão, como regressão linear e de mínimos quadrados ordinários, que são paramétricas. A sua essência é que a função de regressão é definida em termos de um número finito de parâmetros desconhecidos que são estimados a partir dos dados. A regressão não paramétrica permite que sua função esteja dentro de um conjunto específico de funções, que pode ser de dimensão infinita.

Como método de pesquisa estatística, a análise de regressão na prática depende da forma do processo de geração de dados e de como ele se relaciona com a abordagem de regressão. Como a verdadeira forma de geração do processo de dados é geralmente um número desconhecido, a análise de regressão dos dados muitas vezes depende, até certo ponto, de suposições sobre o processo. Estas suposições são por vezes testáveis ​​se houver dados suficientes disponíveis. Os modelos de regressão são frequentemente úteis mesmo quando os pressupostos são moderadamente violados, embora possam não funcionar com eficiência máxima.

Num sentido mais restrito, a regressão pode referir-se especificamente à estimativa de variáveis ​​de resposta contínua, em oposição às variáveis ​​de resposta discreta utilizadas na classificação. O caso da variável de saída contínua também é chamado de regressão métrica para distingui-lo de problemas relacionados.

História

A forma mais antiga de regressão é o conhecido método dos mínimos quadrados. Foi publicado por Legendre em 1805 e Gauss em 1809. Legendre e Gauss aplicaram o método ao problema de determinar, a partir de observações astronômicas, as órbitas de corpos ao redor do Sol (principalmente cometas, mas mais tarde também planetas menores recém-descobertos). Gauss publicou um desenvolvimento adicional da teoria dos mínimos quadrados em 1821, incluindo uma versão do teorema de Gauss-Markov.

O termo "regressão" foi cunhado por Francis Galton no século 19 para descrever um fenômeno biológico. A ideia era que a altura dos descendentes em relação aos seus ancestrais tende a regredir para baixo em direção à média normal. Para Galton, a regressão tinha apenas este significado biológico, mas mais tarde o seu trabalho foi continuado por Udney Yoley e Karl Pearson e trazido para um contexto estatístico mais geral. No trabalho de Yule e Pearson, a distribuição conjunta das variáveis ​​de resposta e explicativas é assumida como gaussiana. Esta suposição foi rejeitada por Fischer em artigos de 1922 e 1925. Fisher sugeriu que a distribuição condicional da variável resposta é gaussiana, mas a distribuição conjunta não precisa ser. Neste aspecto, a proposta de Fischer aproxima-se mais da formulação de Gauss de 1821. Antes de 1970, às vezes demorava até 24 horas para obter o resultado de uma análise de regressão.

Os métodos de análise de regressão continuam a ser uma área de pesquisa ativa. Nas últimas décadas, novos métodos foram desenvolvidos para regressão robusta; regressões envolvendo respostas correlacionadas; métodos de regressão que acomodam diferentes tipos de dados faltantes; regressão não paramétrica; Métodos de regressão Bayesiana; regressões nas quais as variáveis ​​preditoras são medidas com erro; regressão com mais preditores do que observações e inferência de causa e efeito com regressão.

Modelos de regressão

Os modelos de análise de regressão incluem as seguintes variáveis:

  • Parâmetros desconhecidos, designados beta, que podem ser escalares ou vetoriais.
  • Variáveis ​​independentes, X.
  • Variáveis ​​Dependentes, Y.

Diferentes campos da ciência onde a análise de regressão é usada usam termos diferentes no lugar de variáveis ​​dependentes e independentes, mas em todos os casos o modelo de regressão relaciona Y a uma função de X e β.

A aproximação é geralmente escrita como E(Y | X) = F(X, β). Para realizar a análise de regressão, o tipo de função f deve ser determinado. Menos comumente, baseia-se no conhecimento sobre a relação entre Y e X, que não depende de dados. Se tal conhecimento não estiver disponível, então a forma flexível ou conveniente F é escolhida.

Variável dependente Y

Suponhamos agora que o vetor de parâmetros desconhecidos β tenha comprimento k. Para realizar a análise de regressão, o usuário deve fornecer informações sobre a variável dependente Y:

  • Se N pontos de dados da forma (Y, X) forem observados, onde N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Se exatamente N = K forem observados e a função F for linear, então a equação Y = F(X, β) pode ser resolvida exatamente em vez de aproximadamente. Isto equivale a resolver um conjunto de N equações com N incógnitas (elementos β) que tem uma solução única desde que X seja linearmente independente. Se F for não linear, pode não haver solução ou podem existir muitas soluções.
  • A situação mais comum é onde N > pontos de dados são observados. Neste caso, há informação suficiente nos dados para estimar um valor único para β que melhor se ajuste aos dados, e um modelo de regressão onde a aplicação aos dados pode ser vista como um sistema sobredeterminado em β.

Neste último caso, a análise de regressão fornece ferramentas para:

  • Encontrar uma solução para os parâmetros desconhecidos β, que irá, por exemplo, minimizar a distância entre o valor medido e previsto de Y.
  • Sob certas suposições estatísticas, a análise de regressão utiliza o excesso de informações para fornecer informações estatísticas sobre os parâmetros desconhecidos β e os valores previstos da variável dependente Y.

Número necessário de medições independentes

Considere um modelo de regressão que possui três parâmetros desconhecidos: β 0 , β 1 e β 2 . Suponha que o experimentador faça 10 medições no mesmo valor do vetor de variável independente X. Nesse caso, a análise de regressão não produz um conjunto único de valores. O melhor que você pode fazer é estimar a média e o desvio padrão da variável dependente Y. Da mesma forma, medindo dois valores diferentes de X, você pode obter dados suficientes para regressão com duas incógnitas, mas não com três ou mais incógnitas.

Se as medições do experimentador foram feitas em três valores diferentes do vetor de variável independente X, então a análise de regressão fornecerá um conjunto único de estimativas para os três parâmetros desconhecidos em β.

No caso de regressão linear geral, a afirmação acima é equivalente ao requisito de que a matriz X T X seja invertível.

Pressupostos Estatísticos

Quando o número de medições N é maior que o número de parâmetros desconhecidos k e os erros de medição ε i , então, via de regra, o excesso de informação contido nas medições é então divulgado e utilizado para previsões estatísticas sobre os parâmetros desconhecidos. Esse excesso de informação é chamado de grau de liberdade de regressão.

Pressupostos Fundamentais

As suposições clássicas para análise de regressão incluem:

  • A amostragem é representativa da previsão de inferência.
  • O termo de erro é uma variável aleatória com média zero, que está condicionada às variáveis ​​explicativas.
  • Variáveis ​​independentes são medidas sem erros.
  • Como variáveis ​​independentes (preditores), são linearmente independentes, ou seja, não é possível expressar nenhum preditor como uma combinação linear dos demais.
  • Os erros não são correlacionados, ou seja, a matriz de covariância dos erros das diagonais e cada elemento diferente de zero é a variância dos erros.
  • A variância do erro é constante entre as observações (homocedasticidade). Caso contrário, então os mínimos quadrados ponderados ou outros métodos podem ser usados.

Estas condições suficientes para estimativa de mínimos quadrados têm as propriedades necessárias; em particular, estas suposições significam que as estimativas de parâmetros serão objetivas, consistentes e eficientes, especialmente quando levadas em conta na classe de estimadores lineares. É importante notar que as evidências raramente satisfazem as condições. Ou seja, o método é utilizado mesmo que as suposições não estejam corretas. A variação dos pressupostos pode por vezes ser utilizada como uma medida da utilidade do modelo. Muitas dessas suposições podem ser relaxadas em métodos mais avançados. Os relatórios de análise estatística normalmente incluem a análise de testes em dados amostrais e metodologia para a utilidade do modelo.

Além disso, as variáveis, em alguns casos, referem-se a valores medidos em locais pontuais. Pode haver tendências espaciais e autocorrelações espaciais em variáveis ​​que violam pressupostos estatísticos. A regressão geográfica ponderada é o único método que lida com esses dados.

Uma característica da regressão linear é que a variável dependente, que é Yi, é uma combinação linear de parâmetros. Por exemplo, a regressão linear simples utiliza uma variável independente, x i , e dois parâmetros, β 0 e β 1 , para modelar n pontos.

Na regressão linear múltipla, existem múltiplas variáveis ​​independentes ou funções delas.

Quando uma amostra aleatória é retirada de uma população, seus parâmetros permitem obter um modelo de regressão linear amostral.

Neste aspecto, o mais popular é o método dos mínimos quadrados. É usado para obter estimativas de parâmetros que minimizem a soma dos resíduos quadrados. Este tipo de minimização (que é típica da regressão linear) desta função leva a um conjunto de equações normais e a um conjunto de equações lineares com parâmetros, que são resolvidas para obter estimativas de parâmetros.

Sob a suposição adicional de que o erro populacional é geralmente propagado, um pesquisador pode usar essas estimativas de erro padrão para criar intervalos de confiança e realizar testes de hipóteses sobre seus parâmetros.

Análise de regressão não linear

Um exemplo onde a função não é linear em relação aos parâmetros indica que a soma dos quadrados deve ser minimizada utilizando um procedimento iterativo. Isso introduz muitas complicações que definem as diferenças entre os métodos de mínimos quadrados lineares e não lineares. Conseqüentemente, os resultados da análise de regressão ao usar um método não linear são às vezes imprevisíveis.

Cálculo do poder e tamanho da amostra

Geralmente não existem métodos consistentes em relação ao número de observações versus o número de variáveis ​​independentes no modelo. A primeira regra foi proposta por Dobra e Hardin e se parece com N = t^n, onde N é o tamanho da amostra, n é o número de variáveis ​​independentes e t é o número de observações necessárias para atingir a precisão desejada se o modelo tivesse apenas uma variável independente. Por exemplo, um pesquisador constrói um modelo de regressão linear usando um conjunto de dados que contém 1.000 pacientes (N). Se o pesquisador decidir que são necessárias cinco observações para definir com precisão a reta (m), então o número máximo de variáveis ​​independentes que o modelo pode suportar é 4.

Outros métodos

Embora os parâmetros do modelo de regressão sejam normalmente estimados usando o método dos mínimos quadrados, existem outros métodos que são usados ​​com muito menos frequência. Por exemplo, estes são os seguintes métodos:

  • Métodos bayesianos (por exemplo, regressão linear bayesiana).
  • Regressão percentual, utilizada para situações em que a redução de erros percentuais é considerada mais adequada.
  • Menores desvios absolutos, que são mais robustos na presença de outliers levando à regressão quantílica.
  • Regressão não paramétrica, que requer um grande número de observações e cálculos.
  • Uma métrica de ensino à distância que é aprendida para encontrar uma métrica de distância significativa em um determinado espaço de entrada.

Programas

Todos os principais pacotes de software estatístico realizam análises de regressão de mínimos quadrados. A regressão linear simples e a análise de regressão múltipla podem ser usadas em alguns aplicativos de planilha, bem como em algumas calculadoras. Embora muitos pacotes de software estatístico possam realizar vários tipos de regressão robusta e não paramétrica, esses métodos são menos padronizados; diferentes pacotes de software implementam métodos diferentes. Software de regressão especializado foi desenvolvido para uso em áreas como análise de exames e neuroimagem.

A análise de regressão é um dos métodos mais populares de pesquisa estatística. Pode ser utilizado para estabelecer o grau de influência das variáveis ​​independentes sobre a variável dependente. O Microsoft Excel possui ferramentas projetadas para realizar esse tipo de análise. Vejamos o que são e como usá-los.

Mas, para utilizar a função que permite realizar análises de regressão, primeiro você precisa ativar o Pacote de Análise. Só então as ferramentas necessárias para este procedimento aparecerão na faixa do Excel.


Agora, quando vamos para a guia "Dados", na faixa de opções da caixa de ferramentas "Análise" veremos um novo botão - "Análise de dados".

Tipos de análise de regressão

Existem vários tipos de regressões:

  • parabólico;
  • sedado;
  • logarítmico;
  • exponencial;
  • demonstrativo;
  • hiperbólico;
  • regressão linear.

Falaremos com mais detalhes sobre como realizar o último tipo de análise de regressão no Excel posteriormente.

Regressão Linear no Excel

Abaixo, a título de exemplo, apresenta-se uma tabela que mostra a temperatura média diária do ar exterior e o número de clientes da loja para o dia útil correspondente. Vamos descobrir por meio da análise de regressão exatamente como as condições climáticas na forma de temperatura do ar podem afetar o atendimento de um estabelecimento varejista.

A equação geral de regressão linear é a seguinte: Y = a0 + a1x1 +…+ akhk. Nesta fórmula S significa uma variável, a influência de fatores sobre os quais estamos tentando estudar. No nosso caso, este é o número de compradores. Significado x são os vários fatores que influenciam uma variável. Opções a são coeficientes de regressão. Ou seja, são eles que determinam a importância de um determinado fator. Índice k denota o número total desses mesmos fatores.


Análise de resultados de análise

Os resultados da análise de regressão são exibidos em forma de tabela no local especificado nas configurações.

Um dos principais indicadores é R-quadrado. Indica a qualidade do modelo. No nosso caso, esse coeficiente é de 0,705 ou cerca de 70,5%. Este é um nível aceitável de qualidade. Dependência inferior a 0,5 é ruim.

Outro indicador importante está localizado na célula na intersecção da linha "Intersecção Y" e coluna "Chances". Isso indica qual valor Y terá e, no nosso caso, é o número de compradores, com todos os demais fatores iguais a zero. Nesta tabela, esse valor é 58,04.

Valor na interseção do gráfico "Variável X1" E "Chances" mostra o nível de dependência de Y em X. No nosso caso, este é o nível de dependência do número de clientes da loja em relação à temperatura. Um coeficiente de 1,31 é considerado um indicador de influência bastante elevado.

Como você pode ver, usando o Microsoft Excel é muito fácil criar uma tabela de análise de regressão. Mas apenas uma pessoa treinada pode trabalhar com os dados de saída e compreender sua essência.

Materiais mais recentes na seção:

Diagramas elétricos gratuitamente
Diagramas elétricos gratuitamente

Imagine um fósforo que, após ser riscado em uma caixa, acende, mas não acende. Para que serve tal combinação? Será útil em teatro...

Como produzir hidrogênio a partir da água Produzindo hidrogênio a partir do alumínio por eletrólise
Como produzir hidrogênio a partir da água Produzindo hidrogênio a partir do alumínio por eletrólise

“O hidrogênio só é gerado quando necessário, então você só pode produzir o que precisa”, explicou Woodall na universidade...

Gravidade artificial na ficção científica Procurando a verdade
Gravidade artificial na ficção científica Procurando a verdade

Os problemas do sistema vestibular não são a única consequência da exposição prolongada à microgravidade. Astronautas que gastam...