Vamos verificar primeiramente por meio do gráfico de dispersão a relação entre x e y.
plot(x,y)
O comportamento é linear. Logo, é possível ajustarmos uma regressão linear simples. Segue o ajuste.
sumxy = sum(x*y)
sumxsumy = sum(x)*sum(y)
sumx = sum(x)
sumx2 = sum(x^2)
b = (sumxy - sumxsumy/14)/(sumx2 - (sumx)^2/14)
a = mean(y) - b*mean(x)
reg = lm(y ~ x)
coef(reg)
## (Intercept) x
## 15.852502 2.262589
A equação ajustada foi \(\hat{y} = 15,853 + 2,263x\).
Para responder tal questão iremos calcular o coeficiente de determinação (\(r^2\)).
SQerro = sum(residuals(reg)^2)
SQtotal= sum((y - mean(y))^2)
r2 = 1 - SQerro/SQtotal
r2
## [1] 0.8356105
#ou
summary(reg)$r.squared
## [1] 0.8356105
Segue os cálculos manual e por meio do R
.
rSQx = sqrt(sum((x - mean(x))^2))
sb = sqrt(SQerro/12)/rSQx
b = coef(reg)[2]
t = b/sb
pt(-t,12)*2
## x
## 4.804248e-06
#ou
summary(reg)[[4]][2,4]
## [1] 4.804248e-06
Segue os cálculos para verificarmos a normalidade dos erros e a homocedasticidade.
erro = residuals(reg)
# 1 passo: ordenar a variável
errood = sort(erro)
# 2 passo:
probt = (1:14 - 0.5)/14
# 3 passo:
quantt = qnorm(probt)
# 4 passo: fazer um gráfico do quantil observado vs teorico
plot(errood ~ quantt)
# 5 passo: vamos determinar a linha de referência.
num = diff(quantile(errood,
prob=c(0.25, 0.75)))
deno = diff(qnorm(c(0.25,0.75)))
bl = num/deno
bl
## 75%
## 4.76779
al = quantile(errood,
prob=c(0.25,0.75))-bl*qnorm(c(0.25,0.75))
al
## 25% 75%
## -0.2787505 -0.2787505
plot(errood ~ quantt)
abline(al,bl)
Podemos verificar que os pontos estão próximos da linha de referência, o que indica normalidade dos erros. Abaixo segue o gráfico para verificarmos a homocedasticidade.
plot(erro ~ x)
abline(h=0)
Verificamos também que não há nenhuma tendência nos erros e que os mesmos estão dipersos ao longo do eixo x. Isto indica homocedasticidade.