Capítulo 5 Estatística Inferencial: Mergulhando Além da Amostra

No capítulo anterior, vimos como a Estatística Descritiva nos ajuda a organizar e resumir os dados que coletamos (nossas “radiografias”). Mas e se quisermos ir além? E se quisermos tirar conclusões sobre um corpo d’água inteiro — um rio, um lago — com base apenas em algumas amostras que coletamos? É aí que entra a Estatística Inferencial!

5.1 O que é a Estatística Inferencial?

Pense na Estatística Descritiva como descrever o que você vê em suas mãos (a amostra). A Estatística Inferencial, por sua vez, é a arte e a ciência de usar o que você vê em suas mãos para fazer previsões e tirar conclusões sobre o que está lá fora, sem precisar ver tudo.

  • Nosso Desafio: Raramente conseguimos medir tudo. Não dá para contar todos os peixes de um rio, nem medir a qualidade da água em cada gota de um lago. Precisamos tomar decisões e entender o todo a partir de apenas uma parte.

A Estatística Inferencial nos fornece as ferramentas para fazer essas “apostas educadas” e quantificar a nossa confiança nelas.

5.2 População vs. Amostra: A Grande Diferença

Para entender a inferência, precisamos diferenciar dois conceitos fundamentais:

  • População: É o grupo completo de indivíduos, objetos ou medições sobre os quais queremos tirar conclusões.
    • Exemplo em Águas: Todos os peixes-dourados que vivem no Lago Paranoá. A qualidade da água em todos os pontos de um trecho de 100 km de um rio. Todos os microrganismos de um metro cúbico de sedimento de lago.
    • A população é o “todo” que nos interessa.
  • Amostra: É um subconjunto (uma parte) da população que é efetivamente coletado e estudado.
    • Exemplo em Águas: Os 50 peixes-dourados que você conseguiu capturar no Lago Paranoá para análise. As 10 coletas de água que você fez ao longo dos 100 km do rio. Uma pequena porção de sedimento.
    • A amostra é o “pedaço” que temos para trabalhar.

Nosso objetivo na inferência é usar as características da amostra para dizer algo sobre as características da população.

5.3 Parâmetros vs. Estatísticas: Quem é Quem?

Quando falamos de população e amostra, usamos termos diferentes para suas características:

  • Parâmetros: São as características verdadeiras e desconhecidas da população. Geralmente, queremos descobrir o valor de um parâmetro.
    • Exemplo em Águas: A verdadeira média de pH da água do Rio Doce. A proporção exata de espécies invasoras em um determinado lago.
    • Parâmetros são representados por letras gregas (ex: \(\mu\) para a média populacional, \(\sigma\) para o desvio padrão populacional).
  • Estatísticas: São as características calculadas a partir da amostra. Elas são usadas para estimar os parâmetros da população.
    • Exemplo em Águas: A média de pH calculada a partir das suas 10 amostras de água do Rio Doce. A proporção de espécies invasoras observada nos 50 peixes-dourados capturados.
    • Estatísticas são representadas por letras latinas (ex: \(\bar{x}\) para a média amostral, \(s\) para o desvio padrão amostral).

5.4 O Coração da Inferência: Generalização e Incerteza

A Estatística Inferencial trabalha com a ideia de que, se a nossa amostra foi coletada de forma adequada (representativa da população), o que observamos nela pode nos dar pistas sobre a população.

  • Generalização: É o processo de estender as conclusões da amostra para a população.
    • Exemplo: Se a média de oxigênio dissolvido nas suas 5 amostras de um lago é de 6 mg/L, você pode querer generalizar que a média de oxigênio dissolvido em todo o lago é próxima de 6 mg/L.
  • Incerteza e Probabilidade: Como nunca temos certeza absoluta (afinal, não vimos toda a população!), a Estatística Inferencial sempre lida com a probabilidade. Ela não nos dá respostas exatas, mas sim a probabilidade de que nossas conclusões estejam corretas, ou um intervalo onde o valor verdadeiro provavelmente se encontra.
    • Exemplo: Em vez de dizer “a média do lago é 6 mg/L”, a inferência nos permite dizer: “estamos 95% confiantes de que a média de oxigênio dissolvido no lago está entre 5.5 mg/L e 6.5 mg/L”.

5.5 As Duas Grandes Ferramentas da Inferência

A Estatística Inferencial possui duas abordagens principais para fazer essas generalizações:

  1. Estimação: Tenta prever o valor de um parâmetro populacional.
    • Estimativa Pontual: Um único valor (ex: “A média de pH do rio é 7.2”).
    • Estimativa por Intervalo (Intervalo de Confiança): Um intervalo de valores dentro do qual o parâmetro populacional provavelmente está, com um certo nível de confiança (ex: “Estamos 90% confiantes de que o pH médio do rio está entre 7.0 e 7.4”).
  2. Teste de Hipóteses: Ajuda a tomar decisões sobre a população testando afirmações ou suposições.
    • Exemplo: Um pesquisador pode levantar a hipótese de que “o nível de poluição do Lago X não mudou após a implementação de novas regulamentações”. O teste de hipóteses usa os dados da amostra para decidir se há evidências suficientes para rejeitar essa afirmação ou não.

5.6 Por que isso é Crucial para Quem Estuda Águas?

  • Tomada de Decisão Informada: Se você é um profissional da área, precisa tomar decisões sobre a qualidade da água, impacto ambiental, saúde de ecossistemas aquáticos. A inferência permite que essas decisões sejam baseadas em evidências e com um entendimento claro dos riscos.
  • Eficiência de Recursos: Não é possível monitorar cada litro de água. A inferência nos ajuda a otimizar a coleta de dados, fazendo inferências válidas com o menor esforço e custo possível.
  • Compreensão Científica: Permite que pesquisadores testem teorias, comparem diferentes ambientes aquáticos ou avaliem a eficácia de intervenções.

Com a Estatística Inferencial, passamos de “o que encontramos aqui” para “o que isso nos diz sobre o todo”, transformando dados brutos em conhecimento acionável para proteger e entender nossos preciosos recursos hídricos.

5.7 Intervalos de Confiança: Estimando a Média com Incerteza

No mundo real, nunca sabemos o valor exato de um parâmetro (como a média de pH de um lago inteiro). O que fazemos é usar nossa amostra para fazer uma estimativa. Mas quão boa é essa estimativa? É aí que entram os Intervalos de Confiança!

Um Intervalo de Confiança (IC) é como um “abraço” em torno da nossa estimativa pontual (a média da amostra). Ele nos dá uma faixa de valores onde, com uma certa porcentagem de confiança, acreditamos que o verdadeiro parâmetro populacional (a verdadeira média do lago, por exemplo) se encontra.

Vamos explorar duas formas importantes de construir esses abraços.

5.7.1 1. Intervalo de Confiança para a Média (com \(\sigma\) desconhecido) - Usando a Distribuição \(t\) de Student

Essa é a ferramenta mais comum quando queremos estimar a média de uma população, mas não sabemos o desvio padrão da população (\(\sigma\)), o que é a situação mais frequente na prática.

  • A Ideia Central:
    • Calculamos a média da nossa amostra (\(\bar{x}\)).
    • Estimamos o desvio padrão da população usando o desvio padrão da nossa amostra (\(s\)).
    • Como estamos usando o \(s\) (que é uma estimativa e tem sua própria variabilidade), e não o \(\sigma\) verdadeiro, não podemos usar a distribuição Normal padrão. Em vez disso, usamos a distribuição \(t\) de Student.
  • Por que a \(t\) de Student?
    • A distribuição \(t\) de Student é como uma “prima” da distribuição Normal, mas com “caudas” mais pesadas. Isso significa que ela atribui maior probabilidade a valores mais extremos, o que é importante quando temos pequenas amostras e mais incerteza.
    • Ela tem um parâmetro chamado graus de liberdade (gl), que é \(n-1\) (tamanho da amostra menos 1). Quanto menor o \(n\), mais “gordinhas” são as caudas da \(t\). À medida que \(n\) aumenta (e, portanto, os graus de liberdade aumentam), a distribuição \(t\) se aproxima cada vez mais da distribuição Normal.
  • Quando Usar (e Suas Condições):
    • População Normal: Idealmente, a população de onde a amostra foi retirada deve ser aproximadamente normal.
    • Grande Amostra (n \(\ge\) 30): Se a amostra for grande, o Teorema do Limite Central (TLC) nos ajuda, fazendo com que a distribuição das médias amostrais seja aproximadamente normal, mesmo que a população não seja. Nesse caso, a \(t\) de Student ainda é robusta e a escolha padrão.
    • Pequena Amostra (Ex: n=4): Aqui está o desafio! Se a população não for normal e \(n\) for muito pequeno, a suposição da \(t\) de Student é comprometida. A \(t\) de Student não consegue “corrigir” uma população altamente não-normal com poucos dados.

5.7.2 2. Intervalo de Confiança Bootstrap: A Alternativa Não Paramétrica

O Bootstrap é uma técnica moderna e poderosa que nos permite construir intervalos de confiança sem fazer suposições sobre a distribuição da população. Ele é uma alternativa “não paramétrica”.

  • A Ideia Central (A Resamostragem!):
    • Imagine que a sua amostra original é a “melhor representação” da população que você tem.
    • O Bootstrap cria muitas (milhares!) de “novas” amostras a partir da sua amostra original, através de um processo chamado resamostragem com reposição. Isso significa que ele pega um dado da sua amostra, anota, e o coloca de volta para poder ser selecionado novamente.
    • Para cada uma dessas milhares de novas amostras (as “amostras bootstrap”), ele calcula a estatística de interesse (por exemplo, a média).
    • Ao fazer isso, ele constrói uma distribuição empírica de como a média (ou outra estatística) varia. Essa distribuição é chamada de distribuição bootstrap da estatística.
  • Como Construir o IC (Método Percentil):
    • Uma vez que você tem as milhares de médias bootstrap, você simplesmente ordena essas médias.
    • Para um IC de 95%, você pega o valor no 2.5º percentil e o valor no 97.5º percentil dessa distribuição ordenada. Esses serão os limites inferior e superior do seu intervalo de confiança.
  • Quando Usar (e Suas Condições):
    • Não Requer Normalidade: É a grande vantagem! Pode ser usado mesmo que a população não seja normal ou quando a distribuição é desconhecida.
    • Requer Amostra de Tamanho Razoável: Aqui está o calcanhar de Aquiles para amostras muito pequenas. Embora não exija normalidade, o Bootstrap precisa de uma amostra original com dados suficientes para que as resamostragens possam realmente capturar a variabilidade e a forma da distribuição da população. Com poucos dados (como \(n=4\)), o universo de amostras bootstrap é muito limitado, e o IC resultante pode ser instável e impreciso.
    • Não é uma “Bala de Prata”: Ele não cria informação que não está na amostra. Se a amostra original é ruim ou muito pequena, o Bootstrap não pode fazer milagres.

Em Resumo:

  • A \(t\) de Student é a escolha clássica e robusta quando há indícios de normalidade da população (ou amostra grande), mesmo com \(\sigma\) desconhecido.
  • O Bootstrap é um método flexível e não paramétrico, ideal quando a normalidade é uma suposição duvidosa, mas ele se apoia na riqueza da sua amostra para funcionar bem.

A escolha entre eles muitas vezes depende do tamanho da sua amostra e do conhecimento que você tem sobre a distribuição da população.

5.8 Aplicação Prática

Vamos contiuar usando os dados dos capítulos anteriores.

# Intervalos de Confiança para a média de cada parâmetro de qualidade da água, agrupados por data, usando a distribuição t de Student
ci_t_inferior = aggregate(.~datafactor,data=dados_brutos_cachoeira[,-c(1:2)],function(x)t.test(x)$conf.int[1])

ci_t_superior = aggregate(.~datafactor,data=dados_brutos_cachoeira[,-c(1:2)],function(x)t.test(x)$conf.int[2])

# Intervalo bootstrap
# Vamos pegar uma data em específico, no caso, 2024-07-23
dad072024 = subset(dados_brutos_cachoeira, datafactor=="2024-07-23")

# Vamos calcular para variável colTermotolerantes
reamo072024 = NULL

for(i in 1:10000){
     vec <- sample(dad072024$colTermotolerantes,replace=TRUE)    
     reamo072024[i]  <- mean(vec)
}

hist(reamo072024)

ci_boot_inferior = quantile(reamo072024,prob=0.025)
ci_boot_superior = quantile(reamo072024,prob=0.975)

abline(v=ci_boot_inferior,col='red')
abline(v=ci_boot_superior,col='red')

# Intervalo bootstrap para o IQA
# Neste caso devemos calcular o IQA para cada amostra e, depois, utilizamos o mesmo raciocínio das variáveis anteriores. Vamos aproveitar o IQA já calculado no capítulo 3.
# Para 2024-07-23

reamoIQA072024 = NULL
for(i in 1:10000){
     vec <- sample(IQA[1:4],replace=TRUE)    
     reamoIQA072024[i]  <- mean(vec)
}

hist(reamoIQA072024)

ci_boot_inferiorIQA = quantile(reamoIQA072024,prob=0.025)
ci_boot_superiorIQA = quantile(reamoIQA072024,prob=0.975)

abline(v=ci_boot_inferiorIQA,col='red')
abline(v=ci_boot_superiorIQA,col='red')