Capítulo 4 Estatística Descritiva
A Estatística Descritiva é como a “radiografia” dos seus dados. Ela nos permite organizar, resumir e apresentar informações de forma clara e compreensível, revelando padrões, tendências e características importantes que estariam escondidas em um mar de números brutos.
Vamos explorar algumas das ferramentas mais poderosas dessa área!
4.1 Tabela de Distribuição de Frequência
Imagine que você coletou a DBO de 100 amostras de água. Olhar para 100 números soltos é confuso, certo? É aí que entra a Tabela de Distribuição de Frequência!
O que é? É uma forma organizada de mostrar quantas vezes cada valor (ou faixa de valores) aparece em um conjunto de dados. Ela agrupa os dados e nos mostra a frequência (quantidade de ocorrências) de cada grupo.
Para que serve?
- Facilita a visualização da distribuição dos dados.
- Identifica os valores mais comuns (e os menos comuns).
- É o primeiro passo para criar gráficos como histogramas.
4.2 Média (Aritmética)
A “Média” é provavelmente a medida estatística mais conhecida e utilizada no dia a dia.
O que é? É o valor central ou o “valor típico” de um conjunto de dados. Calcula-se somando todos os valores e dividindo pelo número total de valores.
Fórmula Simples: \(\text{Média} = \frac{\text{Soma de todos os valores}}{\text{Número total de valores}}\)
Para que serve?
- Fornece um resumo conciso do “nível” geral dos dados.
- É muito usada para comparar diferentes grupos (ex: a média de produção de duas fazendas).
4.3 Desvio Padrão
A média nos diz o “centro” dos dados, mas e se todos os valores estiverem muito próximos da média, ou muito espalhados? O Desvio Padrão responde a essa pergunta!
O que é? É uma medida que quantifica a dispersão ou a variabilidade dos dados em relação à média. Em outras palavras, ele nos diz o quão “espalhados” os dados estão.
Como interpretar?
- Desvio Padrão baixo: Os dados tendem a estar muito próximos da média. (Mais consistência)
- Desvio Padrão alto: Os dados estão mais espalhados, distantes da média. (Menos consistência)
Para que serve?
- Ajuda a entender a consistência de um processo ou fenômeno.
- Essencial para controle de qualidade, análise de risco e muitos testes estatísticos.
4.4 Coeficiente de Variação (CV)
O Desvio Padrão é ótimo, mas e se quisermos comparar a variabilidade de conjuntos de dados que têm médias muito diferentes? O CV entra em cena!
O que é? É uma medida relativa de dispersão. Ele expressa o desvio padrão como uma porcentagem da média. Isso o torna útil para comparar a variabilidade de conjuntos de dados com unidades de medida ou escalas diferentes.
Fórmula Simples: \(\text{CV} = \frac{\text{Desvio Padrão}}{\text{Média}} \times 100\%\)
Como interpretar? Quanto menor o CV, mais consistente (homogêneo) é o conjunto de dados em relação à sua média.
Para que serve?
- Comparar a variabilidade entre diferentes amostras ou populações, mesmo que tenham unidades ou magnitudes distintas.
- Decidir qual investimento é mais “estável” ou qual processo é mais “confiável”.
4.5 Boxplot (Diagrama de Caixa)
O Boxplot é um gráfico visualmente poderoso que resume a distribuição de um conjunto de dados de forma compacta.
O que é? É um gráfico que exibe a distribuição de um conjunto de dados usando cinco números importantes: o valor mínimo, o primeiro quartil (Q1), a mediana (Q2), o terceiro quartil (Q3) e o valor máximo.
Os 5 Números do Boxplot:
- Mínimo: O menor valor do conjunto de dados.
- Q1 (Primeiro Quartil): 25% dos dados estão abaixo deste valor.
- Mediana (Q2): O valor central dos dados (50% estão abaixo, 50% estão acima).
- Q3 (Terceiro Quartil): 75% dos dados estão abaixo deste valor.
- Máximo: O maior valor do conjunto de dados.
Para que serve?
- Identifica rapidamente a mediana e a dispersão dos dados.
- Mostra a simetria da distribuição.
- É excelente para identificar outliers (valores atípicos que se afastam muito dos demais).
- Permite comparar visualmente a distribuição de diferentes grupos.
4.6 Aplicação Prática
Vamos continuar utilizando a base de dados do exemplo anterior.
# Tabela de distribuição de frequências
library(fdth)
dados_brutos_cachoeira$datafactor = factor(dados_brutos_cachoeira$Data )
# Apenas de uma variável e Data
tabCol = fdt(dados_brutos_cachoeira[1:4,3],by="datafactor")
tabCol## Class limits f rf rf(%) cf cf(%)
## [332.64,1719.93) 1 0.25 25 1 25
## [1719.93,3107.21) 1 0.25 25 2 50
## [3107.21,4494.5) 2 0.50 50 4 100

## 2024-07-23.colTermotolerantes
## Class limits f rf rf(%) cf cf(%)
## [332.64,1719.93) 1 0.25 25 1 25
## [1719.93,3107.21) 1 0.25 25 2 50
## [3107.21,4494.5) 2 0.50 50 4 100
##
## 2024-07-23.ph
## Class limits f rf rf(%) cf cf(%)
## [5.94,6.249) 1 0.25 25 1 25
## [6.249,6.559) 2 0.50 50 3 75
## [6.559,6.868) 1 0.25 25 4 100
##
## 2024-07-23.od
## Class limits f rf rf(%) cf cf(%)
## [7.524,8.517) 3 0.75 75 3 75
## [8.517,9.511) 0 0.00 0 3 75
## [9.511,10.5) 1 0.25 25 4 100
##
## 2024-07-23.vt
## Class limits f rf rf(%) cf cf(%)
## [-0.909,0.101) 2 0.5 50 2 50
## [0.101,1.111) 0 0.0 0 2 50
## [1.111,2.121) 2 0.5 50 4 100
##
## 2024-07-23.nt
## Class limits f rf rf(%) cf cf(%)
## [12.029,14.244) 2 0.50 50 2 50
## [14.244,16.459) 1 0.25 25 3 75
## [16.459,18.675) 1 0.25 25 4 100
##
## 2024-07-23.ft
## Class limits f rf rf(%) cf cf(%)
## [3.712,4.626) 2 0.50 50 2 50
## [4.626,5.54) 1 0.25 25 3 75
## [5.54,6.454) 1 0.25 25 4 100
##
## 2024-07-23.turb
## Class limits f rf rf(%) cf cf(%)
## [1.495,1.67) 1 0.25 25 1 25
## [1.67,1.845) 2 0.50 50 3 75
## [1.845,2.02) 1 0.25 25 4 100
##
## 2024-07-23.resttot
## Class limits f rf rf(%) cf cf(%)
## [362.34,390.703) 3 0.75 75 3 75
## [390.703,419.067) 0 0.00 0 3 75
## [419.067,447.43) 1 0.25 25 4 100
##
## 2024-07-23.dbo
## Class limits f rf rf(%) cf cf(%)
## [26.849,28.736) 3 0.75 75 3 75
## [28.736,30.624) 0 0.00 0 3 75
## [30.624,32.512) 1 0.25 25 4 100
##
## 2024-07-23.temp
## Class limits f rf rf(%) cf cf(%)
## [24.849,26.026) 1 0.25 25 1 25
## [26.026,27.204) 1 0.25 25 2 50
## [27.204,28.381) 2 0.50 50 4 100
##
## 2024-09-25.colTermotolerantes
## Class limits f rf rf(%) cf cf(%)
## [196.02,230.67) 2 0.5 50 2 50
## [230.67,265.32) 0 0.0 0 2 50
## [265.32,299.97) 2 0.5 50 4 100
##
## 2024-09-25.ph
## Class limits f rf rf(%) cf cf(%)
## [6.534,6.814) 3 0.75 75 3 75
## [6.814,7.093) 0 0.00 0 3 75
## [7.093,7.373) 1 0.25 25 4 100
##
## 2024-09-25.od
## Class limits f rf rf(%) cf cf(%)
## [6.237,6.851) 2 0.5 50 2 50
## [6.851,7.466) 0 0.0 0 2 50
## [7.466,8.08) 2 0.5 50 4 100
##
## 2024-09-25.vt
## Class limits f rf rf(%) cf cf(%)
## [0.495,0.7677) 1 0.25 25 1 25
## [0.7677,1.04) 1 0.25 25 2 50
## [1.04,1.313) 2 0.50 50 4 100
##
## 2024-09-25.nt
## Class limits f rf rf(%) cf cf(%)
## [5.356,5.587) 2 0.5 50 2 50
## [5.587,5.819) 0 0.0 0 2 50
## [5.819,6.05) 2 0.5 50 4 100
##
## 2024-09-25.ft
## Class limits f rf rf(%) cf cf(%)
## [1.386,1.607) 1 0.25 25 1 25
## [1.607,1.829) 2 0.50 50 3 75
## [1.829,2.05) 1 0.25 25 4 100
##
## 2024-09-25.turb
## Class limits f rf rf(%) cf cf(%)
## [2.693,2.788) 2 0.5 50 2 50
## [2.788,2.884) 0 0.0 0 2 50
## [2.884,2.98) 2 0.5 50 4 100
##
## 2024-09-25.resttot
## Class limits f rf rf(%) cf cf(%)
## [268.29,296.02) 2 0.5 50 2 50
## [296.02,323.75) 0 0.0 0 2 50
## [323.75,351.48) 2 0.5 50 4 100
##
## 2024-09-25.dbo
## Class limits f rf rf(%) cf cf(%)
## [7.574,8.284) 1 0.25 25 1 25
## [8.284,8.995) 2 0.50 50 3 75
## [8.995,9.706) 1 0.25 25 4 100
##
## 2024-09-25.temp
## Class limits f rf rf(%) cf cf(%)
## [26.235,26.681) 2 0.5 50 2 50
## [26.681,27.127) 0 0.0 0 2 50
## [27.127,27.573) 2 0.5 50 4 100
##
## 2024-11-22.colTermotolerantes
## Class limits f rf rf(%) cf cf(%)
## [108.9,314.327) 1 0.25 25 1 25
## [314.327,519.753) 2 0.50 50 3 75
## [519.753,725.18) 1 0.25 25 4 100
##
## 2024-11-22.ph
## Class limits f rf rf(%) cf cf(%)
## [6.138,6.381) 1 0.25 25 1 25
## [6.381,6.625) 2 0.50 50 3 75
## [6.625,6.868) 1 0.25 25 4 100
##
## 2024-11-22.od
## Class limits f rf rf(%) cf cf(%)
## [3.069,3.46) 2 0.50 50 2 50
## [3.46,3.851) 1 0.25 25 3 75
## [3.851,4.242) 1 0.25 25 4 100
##
## 2024-11-22.vt
## Class limits f rf rf(%) cf cf(%)
## [0.891,1.099) 1 0.25 25 1 25
## [1.099,1.307) 2 0.50 50 3 75
## [1.307,1.515) 1 0.25 25 4 100
##
## 2024-11-22.nt
## Class limits f rf rf(%) cf cf(%)
## [2.495,3.458) 2 0.50 50 2 50
## [3.458,4.42) 1 0.25 25 3 75
## [4.42,5.383) 1 0.25 25 4 100
##
## 2024-11-22.ft
## Class limits f rf rf(%) cf cf(%)
## [0.7326,1.882) 3 0.75 75 3 75
## [1.882,3.032) 0 0.00 0 3 75
## [3.032,4.181) 1 0.25 25 4 100
##
## 2024-11-22.turb
## Class limits f rf rf(%) cf cf(%)
## [1.109,1.123) 1 0.25 25 1 25
## [1.123,1.137) 1 0.25 25 2 50
## [1.137,1.151) 2 0.50 50 4 100
##
## 2024-11-22.resttot
## Class limits f rf rf(%) cf cf(%)
## [314.82,318.623) 1 0.25 25 1 25
## [318.623,322.427) 2 0.50 50 3 75
## [322.427,326.23) 1 0.25 25 4 100
##
## 2024-11-22.dbo
## Class limits f rf rf(%) cf cf(%)
## [6.781,7.659) 2 0.50 50 2 50
## [7.659,8.536) 1 0.25 25 3 75
## [8.536,9.413) 1 0.25 25 4 100
##
## 2024-11-22.temp
## Class limits f rf rf(%) cf cf(%)
## [26.631,27.012) 1 0.25 25 1 25
## [27.012,27.394) 2 0.50 50 3 75
## [27.394,27.775) 1 0.25 25 4 100
plot(tabelas)
# Estatísticas pontuais
medias = aggregate(.~ Data,data=dados_brutos_cachoeira[,-2],mean)
medias## Data colTermotolerantes ph od vt nt ft turb resttot
## 1 2024-07-23 2836.50 6.4 8.650 0.650 14.8075 4.8125 1.7650 391.25
## 2 2024-09-25 246.25 6.8 7.150 0.975 5.7050 1.7075 2.8325 309.50
## 3 2024-11-22 437.00 6.5 3.575 1.250 3.6900 1.9175 1.1325 320.75
## dbo temp datafactor
## 1 28.6525 26.950 1
## 2 8.6100 26.875 2
## 3 7.9275 27.250 3
## Data colTermotolerantes ph od vt nt ft
## 1 2024-07-23 1841.56338 0.3366502 1.2151817 1.6217275 2.6652627 1.1343831
## 2 2024-09-25 54.64049 0.3366502 0.7505553 0.3593976 0.2972653 0.2619637
## 3 2024-11-22 252.94795 0.2581989 0.4645787 0.2516611 1.3536863 1.5175062
## turb resttot dbo temp datafactor
## 1 0.202402240 34.998810 2.3985881 1.4106736 0
## 2 0.119268604 41.669333 0.8015402 0.4349329 0
## 3 0.009574271 2.217356 1.0779417 0.2516611 0
## Data colTermotolerantes ph od vt nt ft
## 1 2024-07-23 64.92379 5.260159 14.04834 249.49653 17.99941 23.57160
## 2 2024-09-25 22.18903 4.950738 10.49728 36.86130 5.21061 15.34195
## 3 2024-11-22 57.88283 3.972291 12.99521 20.13289 36.68527 79.13983
## turb resttot dbo temp datafactor
## 1 11.4675490 8.9453826 8.371305 5.2344104 0
## 2 4.2107186 13.4634356 9.309410 1.6183551 0
## 3 0.8454102 0.6913034 13.597499 0.9235271 0