Econometria I

Povão, o objetivo desse site é nivelar o conhecimento necessário para passar no curso de Econometria I noturno de Ciências Econômicas na UFF. Em alguns momentos, propositalmente, vamos preferir usar uma linguagem mais simples ao invés do jargão estatístico para facilitar a compreensão. Além disso, vamos relembrar alguns conceitos que você talvez não se lembre de estatística I e II.

Se você está procurando pelo conteúdo do curso da manhã ou deseja fornecer um feedback, envie um e-mail para jggmartins@id.uff.br (João Gabriel - desenvolvedor do site) ou joaostrauss@id.uff.br (João Strauss - monitor do curso de econometria I).

Resumo P1

Na primeira parte do curso (até a P1), vamos nos restringir a um modelo de regressão com dois coeficientes (\(\beta_0\) e \(\beta_1\)) e uma variável explicativa (\(X_1\)) - modelo de regressão simples. Eu diria que 70% da P1 consiste em conseguir resolver esse problema, não sugiro que você ignore os outros 30%, mas nessa seção vamos tratar de explicar o principal problema da P1.

Modelo Simples de Regressão Linear

$$ Y = \beta_0 + \beta_1X_1 + u $$

  • Onde:
  • \(Y\) = Variável dependente
  • \(\beta_0\) = Coeficiente do intercepto
  • \(\beta_1\) = Coeficiente da variável explicativa
  • \(X_1\) = Variável explicativa ou variável independente
  • \(u\) = residual/termo de erro

O exercício consiste em encontrar a melhor variável explicativa para a variável dependente (\(Y\)). Quanto maior a correlação entre as duas variáveis, maior será o valor de \(\beta_1\), ou seja, \(\beta_1\) representa o impacto que uma alteração unitária em \(X_1\) pode causar em \(Y\). Logo, quanto maior \(\beta_1\), maior será a parcela de Y que será explicada pela variável explicativa (\(X_1\)). Por sua vez, o “termo de erro” ou “residual” (\(u\)) serve para representar todo o restante que não pode ser explicado pela variável explicativa e pelo coeficiente de intercepto usado no modelo.

Porém, nunca conseguimos ter 100% de certeza de que aquele coeficiente (\(\beta_1\)) (por exemplo: 0,81) de fato impacta a variável explicativa (\(Y\)) na magnitude informada, isso porque no mundo real raramente teremos acesso aos dados populacionais, apenas a uma amostra desses dados. Por exemplo, digamos que a variável dependente (\(Y\)) seja o preço da corrida na Uber, e vamos considerar que \(X_1\) seja a distância entre o ponto de partida e o ponto de chegada em Kms. Logo, seria impossível montar um banco de dados com todas as distâncias entre dois pontos do planeta (\(X_1\)) e informar o preço ideal para cada corrida (\(Y\)), esses seriam os dados populacionais.

Portanto, nosso problema consiste em encontrar o melhor estimador de \(\beta_1\), usando uma amostra aleatória dos dados populacionais do problema.

Além disso, o curso de Econometria I não visa te ensinar a criar um modelo de regressão simples do zero, nossa tarefa consiste apenas em avaliar a qualidade dos modelos sugerido pelos exercícios.

Teste de Hipótese

Para avaliar se a relação entre \(Y\) e \(X\) de fato possui significância estatística, vamos preciar criar testes de hipótese. Eles ajudam o pesquisador a determinar se existem evidências suficientes para suportar uma determinada hipótese sobre a população com base nos dados amostrais. Essa hipótese normalmente é chamada de “hipótese alternativa” (\(H_1\)) e a hipótese consolidada sobre a população, ou melhor, o senso comum sobre a população, é chamado de “hipótese nula” (\(H_0\)).

No nosso caso, na P1, quase sempre a hipótese nula e alternativas serão:

$$ \begin{gather} H_0:\beta_1 = 0 \\ H_1:\beta_1 \neq 0 \end{gather} $$

A hipótese nula seria, nesse caso o coeficiente da variável explicativa (\(\beta_1\)) igual a zero. Ou seja, até que se rejeite essa hipótese, a variável explicativa selecionada não tem relação alguma com a variável dependente \(Y\).

Além disso, os teste de hipótese normalmente só são aplicados sobre os coeficientes das varivéis explicativas (\(\beta_{1,2,3,...}\)) (mesmo na P2). Via de regra, nos não vamos testar a significância estatística do intercepto (\(\beta_0\)).

Como você vai montar o seu teste de hipótese? Depende do exercício em questão. Dificilmente ele será dado pelo exercício, cabe ao pequisador determinar a hipótese nula e a alternativa.

Uma vez criado, existem três formas de rejeitar a hipótese nula:

Todos os testes seguem o mesmo princípio, você precisa determinar o nível de significância (\(\alpha\)) do seu teste (1%, 5%, 10%...) e verificar se um número de referência é maior ou menor do que o outro para rejeitar a hipótese nula. Considerando o teste de hipótese acima (\(H_0: \beta_1 = 0\)), ao rejeitar a hipótese nula, você pode inferir que variavel explicativa (\(X_1\)) em questão provavelmente consegue explicar a variação na variavel dependete (\(Y\)) dentro da população. Caso contrário - ao não rejeitar a hipótese nula, podemos inferir que o modelo em questão provavelmente não consegue explicar a variação na variável dependente (\(Y\)) dentro da população.

Vale ressaltar que todos os testes faram parte da sua primeira prova. Mas, vamos começar pelo tipo de teste mais utilizado:

1. Estatística-T (\(|t|\)) e Valor Critico (\(t^*\))

Para rejeitar a hipótese nula nesse teste, a estatística-t em módulo (\(|t|\)) precisa ser maior do que o valor crítico-t (\(t^*\)) encontrado na tabela-t.

Existem muitos “t”s em estatística (estatística-t, tabela-t, t-student, valor crítico-t...), para você entender esse tipo de teste, vamos precisar compreender a diferença entre esses "t"s:

Valor Crítico (\(t^*\))

Distribuição-T também chamado de T-Student, é um tipo de distribuição parecida com a “normal” - também possui o formato de sino, porém com caldas mais largas (maior variabilidade). Ela é usada no lugar da normal quando a amostra é pequena e o desvio padrão da população é desconhecido (pergunta de P1) (a distribuição normal também é chamada de “distribuição-z”).

Assumindo que estamos falando de uma amostra que obedece a uma distribuição t, podemos usar a tabela a seguir (tabela-t) para achar o valor crítico. Via de regra, vamos usar a distribuição t sempre que quisermos calcular a significância estatística do coeficiente individualmente.

(adicionar imagem da tabela-t)

  • Para descobrir o calor crítico-t na tabela precisamos dos seguintes dados:
  • graus de liberdade (\( gl \)) (eixo y na imagem)
  • nível de significância (\( \alpha \)) e tipo de teste (uma calda ou duas caldas) (eixo x na imagem)

Começando pelos graus de liberdade (\(gl\)), estes estão diretamente relacionados com o tamanho da amostra que você possui. Quanto maior o tamanho da amostra (\(n\)) mais a distribuição t se assemelha a distribuição normal (\(z\)) e maior será o \(gl\). Para calcular os graus de liberdade é muito simples, basta subtrair do tamanho da amostra (\(n\)) o número de coeficientes do modelo de regressão (\(k\)) (incluindo o intercepto - \(\beta_0\)). Observe a fórmula:

$$ gl=n-k $$

  • Onde:
  • \(gl\) = graus de liberdade (ou graus de liberdade dos resíduos);
  • \(n\) = número de observações da amostra;
  • \(k\) = número de coeficientes/parâmetros do modelo (incluindo o intercepto).

Como estamos no modelo simples de regressão linear, \(k\) será sempre igual a 2. Logo, \(gl = n - 2\).

Quando estudarmos os "SQs" (ainda nessa seção - resumo da P1), vamos observar que existe um "cara" chamado SQR. O grau de liberdade do SQR (soma dos quadrados dos resíduos) corresponde ao grau de liberdade do exercício em questão. Logo, também podemos usar o grau de liberdade (\(gl\)) do SQR para descobrir o número de observações da amostra (\(n\)) - apenas do SQR. Por exemplo, se SQR possui \(18gl\), logo: \(n = gl + k = 18 + 2 = 20\). Você NÃO deve utilizar os graus de liberdade da regressão (SQE) para encontrar o "n".

Vale lembrar que, na maioria dos casos, o valor exato de \(gl\) não deve constar na tabela-t, nesse caso, você deve considerar o grau de liberdade mais próximo.

O próximo passo consiste em descobrir o eixo x da tabela-t - o nível de significância (\(\alpha\)). O nível de significância estabelece o rigor do seu teste, quanto menor o nível de significância (por exemplo: \(\alpha = 1%\) ), mais difícil será para você rejeitar a hipótese nula. Ou seja, você incorre no risco de não rejeitar a hipótese nula quando na realidade ela é falsa (não reflete a população do exercício). Em estatística, isso é chamado de erro do tipo II. Mas não se preocupe, os erros do tipo I e II não costumam cair nas provas. Só expliquei para você entender o que ele representa.

Caso o nível de significância não seja informado no exercício, sempre considere \( \alpha \) = 5% ou 0,05. Quando um pesquisador estabelece esse nível de significância, ele está dizendo que há uma chance de 5% de rejeitar a hipótese nula quando ela é verdadeira. Ou seja, você reduz a chance de incorrer no erro do tipo II e aumenta a chance de cair no erro do tipo I - rejeitar a hipótese nula quando na realidade ela é verdadeira (descreve o comportamento da população).

Agora, só resta descobrir se estamos falando de um teste de uma ou duas caldas. Povão, isso é simples, se a hipótese alternativa for \(H_1:\beta_1<0\) ou \(H_1:\beta>0\) então esse é um teste unicaudal. Se a hipótese alternativa for \(H_1:\beta_1 \neq 0\) então esse teste é bicaudal. Quando estamos em um teste de duas caldas (maioria dos casos), precisamos dividir o nível de significância (\( \alpha \)) por dois (2) para encontrar o nível de significância do eixo X na tabela-t. Logo, considerando o nosso teste de hipótese (duas caldas), vamos precisar dividir 0,05 por 2 para encontrar o eixo x da tabela-t: 0,025.

Agora, basta traçar uma linha reta entre o \(gl\) e nível de significância (\( \alpha \)) na tabela-t para encontrar o valor crítico (\(t^*\)).

Estatística-T ou T-valor (\(|t|\))

Existem duas fórmulas para calcular a estatística t. Vamos precisar mostrar as duas fórmulas para entender a definição de estatística t:

$$ \begin{gather} t_{\beta_1}=\frac{\hat{\beta_1}-\beta_1}{EP(\hat{\beta_1})} \\ t_{\beta_1}=\frac{\hat{\beta_1}-\beta_1}{s} \end{gather} $$

  • Onde:
  • \(|t|\) = estatística t sempre em módulo;
  • \(\hat{\beta_1}\) = coeficiente amostral estimado (hipótese alternativa);
  • \(\beta_1\)= coeficiente populacional (hipótese nula);
  • \(EP(\hat{\beta_1})\) = erro padrão (em inglês, standard error) do estimador de \(\hat{\beta_1}\). Nesse contexto, pode ser definido como a diferença de uma estatística - o coeficiente \(\hat{\beta_1}\), no nosso exemplo, de uma amostra para a outra de uma mesma população dado a aleatoriedade da variabilidade das amostras. Quanto maior o tamanho da amostra e menor a variabilidade entre as observações da amostra, portanto, menor o erro padrão. Segue a fórmula do erro padrão: \(SE = \frac{s}{\sqrt{n}}\);
  • \(s\) = desvio padrão amostral. Nesse contexto, pode ser definido como a medida de dispersão dos coeficientes estimados das diferentes amostras da mesma população. Ou seja, o desvio padrão é uma medida de “dispersão” e o erro padrão é uma medida de “precisão”.

Se estamos usando a primeira fórmula, a estatística-t estabelece quantos erros padrão (EP) o coeficiente amostral estimado (\(\hat{\beta_1}\)) se distância do coeficiente populacional (\(\beta_1\)), porém, no nosso teste de hipótese, \(\beta_1=0\) (hipótese nula). Logo, quanto maior a diferença entre o estimador do coeficiente amostral (\(\hat{\beta_1}\)) e a hipótese nula e quanto menor o erro padrão (EP), maior será a estatística t, o que indica que a chance desse resultado ser um fruto do mero acaso é menor.

Se estamos usando a segunda fórmula, a estatística-t estabelece quantos desvio padrão (s) o coeficiente amostral estimado (\(\hat{\beta_1}\)) se distância do coeficiente populacional (\(\beta_1\)), porém, no nosso teste de hipótese, \(\beta_1=0\) (hipótese nula). Logo, quanto maior a diferença entre o estimador do coeficiente amostral (\(\hat{\beta_1}\)) e a hipótese nula e quanto menor o desvio padrão (s), maior será a estatística t, o que indica que a chance desse resultado ser um fruto do mero acaso é menor.

Voltando para a definição de estatística t, ambos os casos são validos, porém com interpretações ligeiramente diferentes. Normalmente, vamos usar o primeiro o caso (EP).

Finalmente, com a estatística t e o valor crítico, basta validar se a estatística t em termos absolutos (ex: |-2,534| = 2,534) do coeficiente amostral é maior do que o valor crítico obtido na tabela, se for o caso, você pode rejeitar a hipótese nula e inferir que a sua hipótese alternativa possui significância estatística para descrever o comportamento populacional.

Agora, vamos resolver o mesmo problema usando o p-valor e nível de significância.

2. P-valor e Nível de Significância (\(\alpha\))

Para rejeitar a hipótese nula nesse teste, o p-valor precisa ser menor do que o nível de significância (\(\alpha\)) sugerido pelo exercício.

Mas o que é o P-valor? Povão, esse conceito não é trivial, mas vou tentar explicar da forma mais simples possível. Primeiro, o "P" do p-valor vem da palavra "probabilidade". Ou seja, ele varia entre 0 e 1 (ou 0% e 100%). Para ser mais específico, o p-valor representa uma probabilidade condicional: dado que a hipótese nula é verdadeira, qual é a probabilidade do resultado amostral representar a população? Logo, se a hipótese nula for verdadeira, quanto menor o p-valor mais improvável será a observação do resultado da amostra. Um p-valor alto estaria confirmando a hipótese nula, em outras palavras, considerando o teste de hipótese em questão, um p-valor alto estaria dizendo que \( \hat{\beta_1} = \beta_1 = 0 \). Logo, com um p-valor alto você não tem motivos para rejeitar a hipótese nula, considerando a hipótese nula em questão (\(H_0:\beta_1=0\)).

O p-valor ajuda pesquisadores a quantificar a força das suas evidências contra a hipótese nula. Se o p-valor for menor ou igual do que o nível de significância estabelecido pelo experimento (geralmente, 5%), podemos rejeitar a hipótese nula. Por exemplo, se o p-valor do estimador de um coeficiente (\(\hat{\beta_1}\)) for menor do que 0.0001 existe grande chance do seu coeficiente representar uma grande correlação com a variável dependete \(Y\).

Caso ainda tenha dúvidas sobre o p-valor, assista o vídeo a seguir:

O p-valor do coeficiente normalmente é fornecido pelo próprio exercício. Porém, é possível que o professor peça para encontrar o p-valor a partir da estatística-t (\(|t|\)) (pergunta de P1).

  • Para isso, vamos considerar um exemplo com os seguintes dados:
  • \(gl = n - k = 30 - 2 = 28\)
  • estatística-t\((|t|)\) do coeficiente \(\hat{\beta_1}\) = 2,5
  • Resolução:
  • Encontre a linha na tabela-t que corresponde aos graus de liberdade do exemplo (28);
  • Nessa linha, encontre o(s) valor(es) crítico(s) \(t^*\) mais próximo(s) da estatística-t fornecida (2,5);
  • Feito isso, basta observar o nível de significância dessa coluna. Esse é o p-valor do coeficiente \(\hat{\beta_1}\), considerando um teste de hipótese e um eixo x da tabela-t bilateral (com duas caldas);
  • Por fim, basta considerar a(s) calda(s) do seu teste de hipótese e a forma como a tabela-t foi construida. Se o seu teste de hipótese é bilateral (com duas caldas) e o eixo x da tabela-t também leva em conta as duas caldas, você não precisa fazer mais nada, o valor encontrado na coluna, no passo anterior, é o seu p-valor. Porém, caso o teste de hipótese seja unilateral (possui uma calda) e o eixo x da tabela-t está considerando duas caldas, você precisa dividir o valor da coluna do passo anterior por 2 para encontrar o p-valor.

Com o p-valor em mãos, basta avaliar se ele é menor do que o nível de significância proposto pelo exercício, se for o caso, você pode rejeitar a hipótese nula.

3. Intervalo de Confiança (CI) e Hipótese Nula (\(H_0\))

Para rejeitar a hipótese nula nesse teste, a hipótese nula (\(\beta_1\)) precisa estar fora do intervalo de confiança (CI) encontrado no exercício.

O intervalo de confiança (CI) estabelece o intervalo em que a hipótese nula de \(\beta_1\) deve estar para que seja aceita, dado o nível de significância estabelecido pelo exercício (normalmente, \(\alpha = 0,05\)). Como em nosso exemplo a hipótese nula será: \(H_0:{\beta_1}=0\), caso o intervalo de confiança (CI) não contenha 0 (zero), podemos rejeitar a hipótese nula.

CI pode ser calculado usando a seguinte fórmula:

$$ CI = \hat{\beta_1} \pm t^* * EP(\hat{\beta_1}) $$

  • Onde:
  • \(\hat{\beta_1}\) = estimador do coeficiente de inclinação do modelo de regressão;
  • \(t^*\) = valor crítico t obtido na tabela-t;
  • \(EP(\hat{\beta_1})\) = erro padrão do estimador do coeficiente de inclinação do modelo de regressão.
  • Vamos fazer um exemplo com os seguintes dados:
  • Considere o teste de hipótese clássico;
  • Estimador do coeficiente angular (\(\hat{\beta_1}\)) = 2,5
  • Erro padrão do estimador do coeficiente angular (\(EP(\hat{\beta_1})\)) = 0,5
  • Tamanho da amostra (n) = 30
  • \(k\) = 2;
  • E vamos considerar que o nível de significancia não foi informado, logo, vamos usar \( \alpha = 0,05 \).
  • Resolução:
  • Com isso, vamos começar calculando o valor crítico (\(t^*\)) na tabela-t: Para o nível de significância de 5% e graus de liberdade \(gl = n - k = 30 - 2 = 28\), o valor crítico (\(t^*\)) na tabela-t seria de 2,048.
  • Agora, basta substituir na fórmula: $$ \begin{gather} CI = \hat{\beta_1} \pm t^* * EP(\hat{\beta_1}) \\ CI = 2,5 \pm 2,048*0,5 \\ CI = 2,5 \pm 1,024 \\ CI = (1,476; 3,524) \end{gather} $$
  • Portanto, à um nível de significância de 5%, o intervalo de confiança de \(\beta_1\) é (1,476 ; 3,524).

Como o intervalo não contém zero (hipótese nula no nosso teste de hipótese), podemos rejeitar a hipótese nula \(H_0:{\beta_1}=0\) ao nível de significância de 5%. Isso indica que o \(\beta_1\) é significativamente diferente de zero, sugerindo que a relação entre a variável explicativa (\(X_1\)) e a variável dependente (\(Y\)) possui significância estatística.

Qualidade do Modelo de Regressão Simples

Ta beleza, povão?

Nesta seção vamos explicar como podemos avaliar a qualidade do modelo de regressão. Ou seja, quão bem a variavel explicativa selecionada (\(X_1\)) pelo pesquisador consegue explicar a variação na variavel dependente (\(Y\))?

Preste atenção pois essa matéria também faz parte daqueles “70%” da P1.

Vamos começar explicando o coeficiente de determinação (\(R^2\)):

Coeficiente de Determinação (\(R^2\))

O coeficiente de determinação mensura quão bem a variável independente (\(X_1\)) explica a variação na variável dependente (\(Y\)), dentro de uma determinada amostra. Essa estatística indica a proporção da variação na variável dependente (\(Y\)) que é explicada pela variação na variável explicativa (\(X_1\)). Seu valor também varia entre 0 e 1 (ou, 0% e 100%). Zero (0) indica que a variável explicativa (\(X_1\)) não explica a variação na variável dependente (\(Y\)), um (1) por sua vez, quer dizer que toda a variação de \(Y\) é explicada pela variação na varivel independente \(X_1\).

O \(R^2\) é medido dentro do contexto da amostra, ou seja, amostras diferentes da mesma população podem resultar em coeficientes de determinação diferentes, mas servem como estimadores do \(R^2\) populacional. Quanto maior o R ao quadrado, mais o modelo de regressão simples consegue explicar o que acontece com a variável dependente dentro da população.

Nesse caso, como estamos falando de um modelo de regressão simples - com uma unica variável explicativa, o coeficiente de determinação (\(R^2\)) servirá bem esse propósito. Por sua vez, existem uma situção em que o coeficiente de determinação não é recomendado:

Quando queremos comparar a qualidade de dois modelos de regressão com quantidades diferentes de variaveis explicativas (X), como por exemplo, um modelo de regressão simples e um modelo de regressão múltiplo.

Isso acontece pois sempre que aumentamos o número de variaveis explicativas (\(k\)), o \(R^2\) será positivamente impactado, mesmo que as variaveis explicativas (\(X\)) adicionadas não ajudem a explicar a variação da variável dependente (\(Y\)).

Obs: Na P1, não precisamos “ajustar” o coeficiente de determinação. Vamos “ajustar” o \(R^2\) pela quantidade de variaveis explicativas (\(k\)) na seção de Resumo P2.

Segue a fórmula de calculo do \(R^2\):

$$ \begin{gather} R^2=\frac{SQE}{SQT} \\ R^2=1-\frac{SQR}{SQT} \end{gather} $$

  • Onde:
  • \(R^2\) = coeficiente de determinação;
  • \(SQT\) = soma total dos quadrados da variável dependente (\(y\)) (SST em inglês) - soma da diferença entre o valor observado de \(y\) e a sua média amostral \(\bar{y}\) ao quadrado;
  • \(SQE\) = soma dos quadrados explicados pelo modelo de regressão (SSR em inglês) - soma da diferença entre o valor estimado pelo modelo de regressão \(\hat{y}\) para aquela observação e a média amostral \(\bar{y}\) ao quadrado;
  • \(SQR\) = soma dos quadrados dos resíduos da variável dependente (y) ou soma dos quadrados dos erros (SSE em inglês) - soma da diferença entre o valor observado de y e o valor estimado pelo modelo \(\hat{y}\) ao quadrado.

A fórmula é simples, porém, o que essa razão representa na prática?

O SQR representa a variabilidade de \(Y\) que não pode ser explicada pelas variáveis explicativas do modelo. Ou seja, o residual (u). Portanto, quanto maior o SQR relativamente ao SQT, maior será a proporção da variação da variável dependente (\(Y\)) que não pode ser explicada pelo modelo de regressão. Essa razão menos 1 informa, em termos percentuais, a variação de \(Y\) que é explicada pelo modelo.

Vamos aproveitar para entender os conceitos adjacentes a \(R^2\), os “SQs”.

Decomposição da Soma Total dos Quadrados (”SQs”)

No contexto do modelo de regressão, os “SQs” são um conjunto de estatísticas que ajudam a medir a efetividade do modelo de regressão. Sempre serão calculados com base nas observações das variaveis dependentes (\(y\)) da amostra.

A fórmula do Coeficiente de Determinação (\(R^2\)) está intimamente ligada ao SQT, portanto, os dois possuem interpretações parecidas. Porém, diferente do \(R^2\) que está preocupado em explicar a proporção da variável dependente que é explicada pelo modelo de regressão, o SQT está preocupado em determinar a variação total da variável dependente (\(y\)) que precisa ser explicada pelo modelo de regressão. Como você pode ver na fórmula abaixo, o SQT pode ser calculado pela soma de SQE e SQR, onde SQE representa a variação que pode ser explicada pelo modelo de regressão e SQR representa a parte que não pode ser explicada pelo modelo - o residual (u).

$$ \begin{gather} SQT=SQE+SQR \end{gather} $$

  • Onde:
  • Soma Total dos Quadrados (SQT)
  • Se por acaso for necessário calcular o SQT usando as observações da amostra (isso não costuma acontecer), sem usar a fórmula acima, ela pode ser calculado pela soma da diferença das variaveis dependentes (\(y\)) em relação a sua média (\(\bar{y}\)) elevado ao quadrado:

    $$ \begin{gather} SQT = \sum^n_{i=1}(y_i-\bar{y})^2 \end{gather} $$

    Logo, quanto maior o SQT, maior a variabilidade da amostra em relação a média. Portanto, o SQT pode variar de 0 (zero) a mais infinito.

    Imagine um “gráfico de bolinhas” (scatter chart) com as variaveis dependentes (\(y\)), agora desenhe uma linha horizontal que representa a média das variaveis dependentes da amostra (\(\bar{y}\)). A distância de cada observação para essa linha horizontal representa a variação total dos dados (SQT).

  • Soma dos Quadrados Explicada pela Regressão (SQE)
  • Quantifica quanto da variação total de \(y\) é capturada pelo modelo de regressão.

    $$ \begin{gather} SQE=\sum^n_{i=1}(\hat{y}_i - \bar{y})^2 \end{gather} $$

    Um SQE maior relativo ao SQT sugere um modelo mais ajustado. Talvez você não tenha entendido o valor de \(\hat{y}_i\), mas ele é calculado para cada linha da sua tabela (amostra) usando o valor de \(x_1\) e o modelo de regressão criado: \(\hat{y}_i=\beta_0+\beta_1x_i\).

    A distância da linha de regressão e a linha de média representa a variação que é explicada pelo modelo (SQE).

  • Soma dos Quadrados dos Resíduos (SQR)
  • Quantifica a variabilidade total de \(y\) que não é explicada pelo modelo de regressão.

    $$ \begin{gather} SQR=\sum^n_{i=1}(y_i-\hat{y}_i)^2 \end{gather} $$

    Um SQR maior sugere um encaixe menor do modelo de regressão com os dados da amostra.

    A distância de cada ponto de dados da linha do modelo de regressão representa a variação que não é explicada pelo modelo - o residual (SQR).

    Além disso, precisamos fazer duas observações sobre o SQR:

    (1) Considerando o nosso testde de hipótese clássico, onde \(H_0: \beta_1 = 0 \), ao não rejeitar a hipótese nula podemos dizer que SQT = SQR.

    (2) A segunda observação é um lembrete do que foi dito na seção sobre os graus de liberdade (\(gl\)). O grau de liberdade dos resíduos (SQR) corresponde ao grau de liberdade do exercício. Logo, você pode usa-lo para descobrir o valor de \(n\).

Fórmulas P1

Fechado, povão? Esses são os "70%" da P1.

Sabendo aplicar as fórmulas a seguir você deve conseguir fazer a primeira prova:

Fórmula Estatística

\( Y = \beta_0 + \beta_1X_1 + u \)

Modelo de Regressão Simples. Utilizado para explicar a variação de \(Y\) a partir de \(X_1\) com dados amostrais. Considere \(\beta_0\) como o intercepto, \(\beta_1\) como a inclinação do modelo e \(u\) como termo de erro ou residual.

\( H_0: \beta_1 = 0 \\ H_a: \beta_1 \neq 0 \)

Teste de Hipótese "Clássico". Utilizado para avaliar o comportamento da população. Considere duas caldas nesse caso (bilateral). Esse caso "clássico" não será usado em todas as questões.

\(\alpha\)

Nível de significância. Utilizado em testes de hipótese. Se não informado pelo exercício, considere 5%.

\(gl = n - 2\)

Grau de Liberdade dos Resíduos (gl.). Utilizado para descobrir o valor crítico na tabela-t. Considere \(n\) igual ao tamanho da amostra.

Tabela-T ou T-Student

Valor Crítico-T \(t^*\). Usada em testes de hipótese e no calculo do intervalo de confiança (CI).

\(|t_{\beta_1}|=\frac{\hat{\beta_1}-\beta_1}{EP_{\beta_1}}\)

Estatística-T \(|t|\). Utilizada em testes de hipótese. Caso seja maior do que o valor crítico (\(t^*\)), podemos rejeitar a hipótese nula. Também pode ser usada para encontrar o p-valor na tabela-t.

P-valor

P-valor. Utilizado em testes de hipótese. Caso seja menor do que o nível de significância (\(\alpha\)), podemos rejeitar a hipótese nula.

\(CI = \hat{\beta_1} \pm t^* * EP(\hat{\beta_1})\)

Intervalo de Confiança (CI). Usado em testes de hipótese. Se a hipótese nula não estiver dentro do intervalo, podemos rejeitar a hipótese nula.

\(SQT=SQE+SQR\)

Soma Total dos Quadrados (SQT). Utilizado para calcular o \(R^2\). Considere SQE a soma dos quadrados da regressão e SQR a soma dos quadrados dos resíduos.

\( R^2=\frac{SQE}{SQT} \\ R^2=1-\frac{SQR}{SQT} \)

R2. Utilizado para medir a variação de \(Y\) explicada pelo modelo, em termos percentuais.

Resumo P2

As análises feitas na primeira parte do curso continuam verdadeiras, a não ser por algumas relações que se restringem ao caso específico da regressão simples com uma variável explicativa. Primeiramente, vamos lembrar de como normalmente testamos a significância estatística de uma variável explicativa de um modelo bastante simples (como fizemos na primeira parte do curso), para, em seguida, partimos para o caso de múltiplas variáveis explicativas.

Modelo de Regressão Múltipla

Considere a regressão:

$$ \begin{gather} Y_t = \beta_0 + \beta_1X_t + u_t \end{gather} $$

Caso seja do nosso interesse testar a significância estatística de Xt, aplicamos o seguinte teste:

$$ \begin{gather} H_0: \beta_1 = 0 \\ H_1: \beta_1 \neq 0 \end{gather} $$

Para melhor compreensão do teste de hipótese (seja para o caso de uma variável ou múltiplas), é útil entendermos que o teste acima possui uma outra formulação:

$$ \begin{gather} H_0: Y_t = \beta_0 + u_t \\ H_1: Y_t = \beta_0 + \beta_1X_t + u_t \end{gather} $$

  • Onde:
  • \(H_0\) = Modelo Restrito (MR)
  • \(H_1\) = Modelo Irrestrito (MI)

A nossa interpretação continua sendo a mesma, caso aceitemos a hipótese nula, estaríamos concluindo que há evidencias estatísticas para que \(X_t\) seja não significativo, ou seja, de pouco interesse para explicar \(Y_t\), por isso excluímos o parâmetro \(\beta_1\) da regressão. Evidentemente, caso rejeitemos a hipótese nula, há evidencias estatísticas para dizermos que \(X_t\) é estatisticamente significativo, ou seja, útil em alguma medida para explicar \(Y_t\).

Modelo Restrito (MR) e Irrestrito (MI)

O conceito de modelo restrito e irrestrito certamente é simples, mas é indispensável quando estamos testando hipóteses sobre uma regressão com múltiplas variáveis explicativas. Além de simples, o conceito é intuitivo. Visualmente, no teste de hipótese logo acima, podemos ver que o modelo restrito é mais enxuto do que o modelo irrestrito, isso ocorre exatamente pelo fato de ser uma versão reduzida do modelo com todas as variáveis explicativas possíveis, por definição, o modelo restrito irá aplicar todas as restrições que estão sendo testadas no teste de hipóteses ao modelo. Já o irrestrito, será igual ao modelo “original”, sem aplicar nenhuma restrição. Segue mais um exemplo abaixo:

Modelo de Regressão-Multipla:

$$ \begin{gather} Y_t = \beta_0 + \beta_1X_{t1} + \beta_2X_{t2} + \\ \beta_3X_{t3} + \beta_4X_{t4} + u_t \end{gather} $$

Exemplo de teste de hipótese:

$$ \begin{gather} H_0: \beta_3 = \beta_4 = 0 \\ H_1: Algum \beta \neq 0 \end{gather} $$

O modelo restrito (MR) será sempre a hipótese nula. Nesse exemplo, MR seria:

$$ \begin{gather} H_0: Y_t = \beta_0 + \beta_1X_{t1} + \beta_2X_{t2} + u_t \end{gather} $$

O modelo irrestrito (MI) será sempre a hipótese alternativa. Nesse exemplo MI seria:

$$ \begin{gather} H_1: Y_t = \beta_0 + \beta_1X_{t1} + \beta_2X_{t2} + \\ \beta_3X_{t3} + \beta_4X_{t4} + u_t \end{gather} $$

Vale ressaltar o impacto de modelo restrito e irrestrito nos "SQs". O valor de SQT não muda entre o modelo restriro e irrestrito, dado que SQT representa a variação de \(Y\) que precisa ser explicada pelo modelo de regressão. Porém, no modelo restrito, ou seja, quando a hipótese nula não é rejeitada, toda a variação de \(Y\) deve ser explicada pela soma dos quadrados dos resíduos (SQR). Logo, \(SQT = SQR\).

Teste F

Inicialmente, uma pergunta que pode surgir é: qual é a utilidade de migrarmos da estatística t para a F? A resposta está no objetivo que o pesquisador tem quando está testando uma hipótese, caso o interesse seja apenas descobrir se uma variável é estatisticamente significativa, basta usarmos o conhecimento que temos até o momento (estatística t), entretanto, se for do interesse descobrir se um conjunto de variáveis explicativas são significativas, precisamos recorrer a um outro ferramentário estatístico (F). Até o momento o cálculo da estatística F tem sido feito somente pela relação existente com a estatística t. Como sabemos que a primeira é, por definição, a razão de duas distribuições qui-quadrado, conseguimos inferir que t2 = F (isso serve apenas quando há uma restrição na hipótese nula!). Segue breve revisão abaixo.

Considerando X ~ N(0,1) e X2 ~ X2n (qui-quadrado com n graus de liberdade), e que X e Y são independentes, é possível dizer que:

$$ \begin{gather} t^2 = (\frac{X_1}{\square\frac{X_2}{n}})^2 = \frac{X_1^2}{\frac{X_2}{n}} = \frac{\frac{X_1^2}{1}}{\frac{X_2}{n}} ~ F_{1,n} \end{gather} $$

Entretanto essa forma de se chegar à estatística F é bastante restrita, sendo útil apenas para um caso específico. Nessa seção iremos mostrar mais duas formas mais gerais de se chegar à estatística F.

$$ \begin{gather} F = \frac{\frac{(SQR_{MR}-SQR_{MI})}{q}}{\frac{SQR_{MI}}{n-k}} \\ \\ F = \frac{\frac{(R^2_{MI}-R^2_{MR})}{q}}{\frac{(1-R^2_{MI})}{n-k}} \end{gather} $$

  • Onde:
  • \(q\) = número de coeficientes na hipótese nula (sem considerar o intercepto). Também chamado de "número de restrições";
  • \(n-k\) ou \(gl_{MI}\) = "n" representa o número de observações e "k" o número de coeficientes/parametros (\(\beta\)) do modelo irrestrito (também pode ser entendido como os graus de liberdade do modelo irrestrito);
  • \(SQR_{MR}\) = Soma dos quadrados dos resíduos (SQR) do modelo restrito (quando a hipótese nula não é rejeitada);
  • \(SQR_{MI}\) = Soma dos quadrados dos resíduos (SQR) do modelo irrestrito (quando a hipótese nule á rejeitada);
  • \(R^2_{MI}\) = \(R^2\) do modelo irrestrito;
  • \(R^2_{MR}\) = \(R^2\) do modelo restrito;

Dica para gravar as duas fórmulas: o númerador das duas precisa ser sempre positivo. Por isso a ordem do MR e MI mudam no numerador.

Dica para achar \(R^2\) e \(SQR\): o \(SQT\) do modelo restrito e irrestrito não mudam. Logo, você pode usa-lo para chegar ao \(SQR\) e, consequentemente, ao \(R^2\).

Com as duas fórmulas acima conseguimos calcular a estatística F, processo que ficará mais claro na seção de exemplos práticos. Por fim é importante ressaltar como funciona o processo de aceitação ou rejeição de hipóteses com a F.

Como já foi dito nos parágrafos acima, a estatística F vai ser utilizada na realização de testes sobre a significância conjunta das variáveis explicativas, ou seja, sobre o quão relevantes algumas variáveis de fato são para o modelo. O método de se fazer isso, essencialmente, não é diferente do que já estamos acostumados. Vamos precisar de algumas coisas: 1. A distribuição F, 2. Nível de significância, 3. Nossa estatística F. Simples!

gráfico da distribuicao-f

A estatística F, diferente da t e normal, possui apenas valores positivos (ver gráfico acima), tendo em vista que, por definição, é a razão de duas qui-quadrado. Dessa forma não é necessário dividir o alpha (grau de significância) por 2, podemos concentrar tudo num lado só.

Por último, a F possui 2 graus de Liberdade (Fgrau 1, grau 2), o resulta em uma tabela inédita. Teremos tabelas diferentes para cada grau de significância (1%,2,5%,5%,10%...), assim sendo possível incluirmos na tabela os dois graus de liberdade (um na linha e outro na coluna). Segue exemplo abaixo,

tabela-f

\(R^2\) Ajustado (\(\bar{R^2}\))

Como vimos na primeira parte do curso, o \(R^2\) possui um problema intrínseco. Quanto maior o número de variaveis explicativas, maior será o \(R^2\) - mesmo que essas variáveis não ajudem a explicar a variavel dependente (\(Y\)). Isso incentiva o pesquisador a inserir cada vez mais variáveis explicativas no modelo de regressão, tendo em vista que esse acréscimo de variáveis beneficia o \(R^2\) - na medida em que também aumenta o SQE.

Para resolver esse problema existe o \(R^2\) ajustado (\(\bar{R^2}\)), iremos brevemente destacar algumas de suas características. Observe a fórmula a seguir:

$$ \begin{gather} \bar{R^2} = 1 - (1 - R^2)\frac{n-1}{n-k} \end{gather} $$

  • Considerando que k é o número de parâmetros na regressão (considerando o intercepto) e n é o número de observações na amostra, podemos dizer que quando k > 1, \(\bar{R^2} \lt R^2\).
  • É possível termos \(\bar{R^2}\) negativo! Basta tudo que está a direita do primeiro “1” ser maior que 1, para isso acontecer: \(R^2\) = 0 ou \(k \gt n\). No último caso, estamos dizendo que o número de coeficientes do modelo de regressão é maior do que o tamanho da amostra.
  • \(\bar{R^2}\) ajustado pode ser igual ao \(R^2\) padrão, basta que \(R^2 = 1\).

Variáveis Dummy

Considere a regressão abaixo:

$$ \begin{gather} Y_t = \beta_0 + \beta_1D_{1t} + \beta_2D_{2t} + \beta_3X_t \end{gather} $$

  • Onde:
  • \(Y_t\) = Nota dos estudantes de econometria;
  • \(D_{1t}\) = Variável binária (dummy) que assume valor 1 caso o estudante faça a prova em menos de uma hora e 0 caso o contrário;
  • \(D_{2t}\) = Variável binária (dummy) que assume valor 1 caso o estudante faça a prova de lápis e 0 caso contrário;
  • \(X_t\) = Número de horas estudadas (não é uma dummy).

Note que as variáveis dummy são essas que assumem apenas dois valores (1 ou 0), elas buscam captar possíveis diferenças entre uma determinada amostra e a categoria-base. Qual é a categoria-base desse modelo? (pergunta de P2) Boa pergunta, nesse caso, a categoria base seria a pessoa que leva mais uma hora para fazer a prova (\(D_{1t} = 0\)) e faz a prova a caneta (\(D_{2t} = 0\)). O valor esperado para categoria-base é o intercepto (\(\beta_0\)).

Digamos que a regressão acima, ao ser estimada, tenha o seguinte resultado:

$$ \begin{gather} Y_t = 0,5 - 3D_{1t} + 1D_{2t} + 0,5X_t \end{gather} $$

O que podemos dizer a partir do resultado acima?

É valido interpretar, primeiramente, o cenário “base”, em que as dummys assumem o valor 0. Nesse caso, estaríamos olhando para aquele estudante que termina a prova em mais de 1 hora e faz a prova de caneta. Nesse caso ficaríamos apenas com o intercepto e o coeficiente angular (0,5 + 0,5X).

Está claro que quanto mais horas estudadas, maior tende a ser a nota do aluno, agora vamos analisar o impacto das dummys (a primeira vista).

\(D_{1t}\): Pode-se dizer, considerando o sinal negativo (-3) e sem olhar a significância estatística da estimação, que alunos que terminam a prova em menos de uma hora tendem a ter notas menores.

\(D_{2t}\): Pode-se dizer, considerando o sinal positivo e sem olhar a significância estatística da estimação, que alunos que não utilizam lápis tendem a ter resultados melhores na prova (são mais confiantes talvez?).

Essa análise seria uma primeira etapa, agora para concluir vamos olhar para a significância estatística dos parâmetros estimados para as variáveis binárias (nível de significância de 5%).

Parâmetro P-Valor
B1 <0,001
B2 0,2

Apesar do que foi dito acima, quando olhamos para a significância estatística concluímos que há evidencias estatísticas, ao nível de 5% de significância, para se dizer que não há diferença relevante entre os alunos que utilizam lápis ou caneta para fazer a prova.