Distribuição amostral da média

A figura a seguir copiada do livro dos Profs Wilton Bussab e Pedro Morettin (Estatística Básica) é uma ilustração do Teorema Central do Limite. Faça um código computacional para produzir um resultado semelhante.

Figura 10.5: Histogramas correspondentes à distribuição amostral da média amostral para amostras extraídas de algumas populações.

Figura 10.5: Histogramas correspondentes à distribuição amostral da média amostral para amostras extraídas de algumas populações.

Seguem algums ideias iniciais para o Caso 1 da figura.

## estimativa para 1 amostra simulada
(am <- runif(2))
(m1 <- mean(am))
## Repetindo para várias (N) amostras de tamanho n
N <- 100000
n <- 10

ams <- matrix(runif(n*N), ncol=n)
estimativas <- rowMeans(ams)
length(estimativas)
hist(estimativas, freq=FALSE)
lines(density(estimativas))

## Montando uma função
damUnif <- function(n, N=100000, plot=TRUE){
    ams <- matrix(runif(n*N), ncol=n)
    estimativas <- rowMeans(ams)
    if(plot){
        hist(estimativas, freq=FALSE)
        lines(density(estimativas))
        curve(dnorm(x, m=0.5, sd=sqrt(1/(12*n))),from=0.2, to=0.8, col=2, add=TRUE)
    }
    return(invisible())
}
damUnif(2)
damUnif(5)
damUnif(25)

Uma outra opção é sortear uma população (finita) e dela extrair valores.

## Pop finita
POP <- runif(1536)
(am <- sample(POP, 2))
mean(am)

Distribuição amostral da variância

Implemente uma ilustração computacional para avaliar propriedades do estimador da variância de uma população normal.
Avalie as propriedades de (não) tendenciosidade (vício), variância/erro padrão, erro quadrático médio, eficiência (relativa) e consistência.
Veja aqui uma rápida revisão das propriedades dos estimadores. Considere diferentes tamanhos de amostra, por exemplo, \(n=10, 20, 30\).
Considere os estimadores a seguir (e/ou outros que queira propor/adotar). \[ \hat{\sigma}^2 = \frac{\sum_{i=1}^n (y_i - \overline{y})^2}{n} \;\;;\;\; S^2 = \frac{\sum_{i=1}^n (y_i - \overline{y})^2}{n-1} \;\;;\;\; {\rm DM}^2 = \left(\frac{\sum_{i=1}^n |y_i - \overline{y}|}{n}\right)^2 \] Lembre-se que, neste caso, temos uma distribuição amostral conhecida para \(S^2\) que pode ser usada como referência. \[ \frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1}. \]

Algumas ideias para começar:

N <- 100000
n <- 10
mu <- 70; sigma <- 10

(am <- rnorm(n, m=mu, sd=sigma))
var(am)                     ## S^2
(n-1)*var(am)/n             ## \hat{sigma}^2
(mean(abs(am-mean(am))))^2  ## DM^2

ams <- matrix(rnorm(n*N, m=mu, sd=sigma), ncol=n)
dim(ams)
S2 <- apply(ams, 1, var)
hist(S2, freq=F)
## escalonando
S2sc <- (n-1)*S2/sigma^2
## ou poderia ter calculado diretamente por
S2sc <- apply(ams, 1,
              function(y) (n-1)*var(y)/(sigma^2))
##
hist(S2sc, freq=F)
lines(density(S2sc))
curve(dchisq(x, df=n-1), from=0, to=30, col=2, add=T)

Vício: \(E[S^2] = \sigma^2\) ?

mean(S2)
sigma^2
(mean(S2) - sigma^2)/sigma^2

## variância e erro padrão do estimador
var(S2)
sd(S2)

## Fazer para uma sequencia de valores de n
## ...

Distribuição amostral da variância (cont)

Repita o exercicio anterior para observações provenientes de \(Y \sim {\rm G}(2,4)\).

Continuação de exercício da primeira lista

Considere a atividade proposta na lista anterior:
Crie um vetor \(u\) de 200 elementos em que o primeiro elementos é 0 e os seguintes são dados por: \[ U_t = \begin{cases} U_{t-1} & \text{com probabilidade } p \\ |1 - U_{t-1}| & \text{com probabilidade } (1-p) \end{cases} \]

Em uma aula anterior discutimos os seguintes itens.

Agora vamos explorar propriedades de estimador(es) usando simulação.
Para uma seleção de valores da probabilidade \(p\) faça um procedimento para verificar/obter numericamente usando simulações:

Veja aqui uma rápida revisão das propriedades dos estimadores.

Voce consegue imaginar ou outro estimador para \(p\)?
Repita o estudo para este novo estimador.

Revisão propriedades de estimadores

Seja \(T\) um estimador de um parâmetro \(\theta\).

  1. O estimador é dito não-viciado se \({\rm E}[T] = \theta\).
  2. A variância do estimador é \({\rm E}[(T - \text{E}[T])^2]\) e o erro padrão é a raiz quadrada deste valor.
  3. O erro quadrático médio (MSE de sigla em inglês) é \({\rm MSE}(T) = {\rm E}[(T - \theta)^2] = {\rm Var[T]} + (\text{E}(T) - \theta)^2\).
  4. Um estimador \(T_2\) é dito mais eficiente que \(T_1\) se \(\text{Var}(T_1) > \text{Var}(T_2)\) para todos valores de \(\theta\).
  5. \(T\) é dito consistente se \(\underset{n \to \infty}{\lim} \text{Pr}(|T_n - \theta| > \epsilon) = 0\).