Capítulo 4 Estatística Descritiva

A Estatística Descritiva é como a “radiografia” dos seus dados. Ela nos permite organizar, resumir e apresentar informações de forma clara e compreensível, revelando padrões, tendências e características importantes que estariam escondidas em um mar de números brutos.

Vamos explorar algumas das ferramentas mais poderosas dessa área!

4.1 Tabela de Distribuição de Frequência

Imagine que você coletou a DBO de 100 amostras de água. Olhar para 100 números soltos é confuso, certo? É aí que entra a Tabela de Distribuição de Frequência!

  • O que é? É uma forma organizada de mostrar quantas vezes cada valor (ou faixa de valores) aparece em um conjunto de dados. Ela agrupa os dados e nos mostra a frequência (quantidade de ocorrências) de cada grupo.

  • Para que serve?

    • Facilita a visualização da distribuição dos dados.
    • Identifica os valores mais comuns (e os menos comuns).
    • É o primeiro passo para criar gráficos como histogramas.

4.2 Média (Aritmética)

A “Média” é provavelmente a medida estatística mais conhecida e utilizada no dia a dia.

  • O que é? É o valor central ou o “valor típico” de um conjunto de dados. Calcula-se somando todos os valores e dividindo pelo número total de valores.

  • Fórmula Simples: \(\text{Média} = \frac{\text{Soma de todos os valores}}{\text{Número total de valores}}\)

  • Para que serve?

    • Fornece um resumo conciso do “nível” geral dos dados.
    • É muito usada para comparar diferentes grupos (ex: a média de produção de duas fazendas).

4.3 Desvio Padrão

A média nos diz o “centro” dos dados, mas e se todos os valores estiverem muito próximos da média, ou muito espalhados? O Desvio Padrão responde a essa pergunta!

  • O que é? É uma medida que quantifica a dispersão ou a variabilidade dos dados em relação à média. Em outras palavras, ele nos diz o quão “espalhados” os dados estão.

  • Como interpretar?

    • Desvio Padrão baixo: Os dados tendem a estar muito próximos da média. (Mais consistência)
    • Desvio Padrão alto: Os dados estão mais espalhados, distantes da média. (Menos consistência)
  • Para que serve?

    • Ajuda a entender a consistência de um processo ou fenômeno.
    • Essencial para controle de qualidade, análise de risco e muitos testes estatísticos.

4.4 Coeficiente de Variação (CV)

O Desvio Padrão é ótimo, mas e se quisermos comparar a variabilidade de conjuntos de dados que têm médias muito diferentes? O CV entra em cena!

  • O que é? É uma medida relativa de dispersão. Ele expressa o desvio padrão como uma porcentagem da média. Isso o torna útil para comparar a variabilidade de conjuntos de dados com unidades de medida ou escalas diferentes.

  • Fórmula Simples: \(\text{CV} = \frac{\text{Desvio Padrão}}{\text{Média}} \times 100\%\)

  • Como interpretar? Quanto menor o CV, mais consistente (homogêneo) é o conjunto de dados em relação à sua média.

  • Para que serve?

    • Comparar a variabilidade entre diferentes amostras ou populações, mesmo que tenham unidades ou magnitudes distintas.
    • Decidir qual investimento é mais “estável” ou qual processo é mais “confiável”.

4.5 Boxplot (Diagrama de Caixa)

O Boxplot é um gráfico visualmente poderoso que resume a distribuição de um conjunto de dados de forma compacta.

  • O que é? É um gráfico que exibe a distribuição de um conjunto de dados usando cinco números importantes: o valor mínimo, o primeiro quartil (Q1), a mediana (Q2), o terceiro quartil (Q3) e o valor máximo.

  • Os 5 Números do Boxplot:

    • Mínimo: O menor valor do conjunto de dados.
    • Q1 (Primeiro Quartil): 25% dos dados estão abaixo deste valor.
    • Mediana (Q2): O valor central dos dados (50% estão abaixo, 50% estão acima).
    • Q3 (Terceiro Quartil): 75% dos dados estão abaixo deste valor.
    • Máximo: O maior valor do conjunto de dados.
  • Para que serve?

    • Identifica rapidamente a mediana e a dispersão dos dados.
    • Mostra a simetria da distribuição.
    • É excelente para identificar outliers (valores atípicos que se afastam muito dos demais).
    • Permite comparar visualmente a distribuição de diferentes grupos.

4.6 Aplicação Prática

Vamos continuar utilizando a base de dados do exemplo anterior.

# Tabela de distribuição de frequências
library(fdth)

dados_brutos_cachoeira$datafactor = factor(dados_brutos_cachoeira$Data )

# Apenas de uma variável e Data
tabCol = fdt(dados_brutos_cachoeira[1:4,3],by="datafactor") 
tabCol
##       Class limits f   rf rf(%) cf cf(%)
##   [332.64,1719.93) 1 0.25    25  1    25
##  [1719.93,3107.21) 1 0.25    25  2    50
##   [3107.21,4494.5) 2 0.50    50  4   100
plot(tabCol)

tabelas = fdt(dados_brutos_cachoeira,by="datafactor")
tabelas
## 2024-07-23.colTermotolerantes 
##       Class limits f   rf rf(%) cf cf(%)
##   [332.64,1719.93) 1 0.25    25  1    25
##  [1719.93,3107.21) 1 0.25    25  2    50
##   [3107.21,4494.5) 2 0.50    50  4   100
## 
## 2024-07-23.ph 
##   Class limits f   rf rf(%) cf cf(%)
##   [5.94,6.249) 1 0.25    25  1    25
##  [6.249,6.559) 2 0.50    50  3    75
##  [6.559,6.868) 1 0.25    25  4   100
## 
## 2024-07-23.od 
##   Class limits f   rf rf(%) cf cf(%)
##  [7.524,8.517) 3 0.75    75  3    75
##  [8.517,9.511) 0 0.00     0  3    75
##   [9.511,10.5) 1 0.25    25  4   100
## 
## 2024-07-23.vt 
##    Class limits f  rf rf(%) cf cf(%)
##  [-0.909,0.101) 2 0.5    50  2    50
##   [0.101,1.111) 0 0.0     0  2    50
##   [1.111,2.121) 2 0.5    50  4   100
## 
## 2024-07-23.nt 
##     Class limits f   rf rf(%) cf cf(%)
##  [12.029,14.244) 2 0.50    50  2    50
##  [14.244,16.459) 1 0.25    25  3    75
##  [16.459,18.675) 1 0.25    25  4   100
## 
## 2024-07-23.ft 
##   Class limits f   rf rf(%) cf cf(%)
##  [3.712,4.626) 2 0.50    50  2    50
##   [4.626,5.54) 1 0.25    25  3    75
##   [5.54,6.454) 1 0.25    25  4   100
## 
## 2024-07-23.turb 
##  Class limits f   rf rf(%) cf cf(%)
##  [1.495,1.67) 1 0.25    25  1    25
##  [1.67,1.845) 2 0.50    50  3    75
##  [1.845,2.02) 1 0.25    25  4   100
## 
## 2024-07-23.resttot 
##       Class limits f   rf rf(%) cf cf(%)
##   [362.34,390.703) 3 0.75    75  3    75
##  [390.703,419.067) 0 0.00     0  3    75
##   [419.067,447.43) 1 0.25    25  4   100
## 
## 2024-07-23.dbo 
##     Class limits f   rf rf(%) cf cf(%)
##  [26.849,28.736) 3 0.75    75  3    75
##  [28.736,30.624) 0 0.00     0  3    75
##  [30.624,32.512) 1 0.25    25  4   100
## 
## 2024-07-23.temp 
##     Class limits f   rf rf(%) cf cf(%)
##  [24.849,26.026) 1 0.25    25  1    25
##  [26.026,27.204) 1 0.25    25  2    50
##  [27.204,28.381) 2 0.50    50  4   100
## 
## 2024-09-25.colTermotolerantes 
##     Class limits f  rf rf(%) cf cf(%)
##  [196.02,230.67) 2 0.5    50  2    50
##  [230.67,265.32) 0 0.0     0  2    50
##  [265.32,299.97) 2 0.5    50  4   100
## 
## 2024-09-25.ph 
##   Class limits f   rf rf(%) cf cf(%)
##  [6.534,6.814) 3 0.75    75  3    75
##  [6.814,7.093) 0 0.00     0  3    75
##  [7.093,7.373) 1 0.25    25  4   100
## 
## 2024-09-25.od 
##   Class limits f  rf rf(%) cf cf(%)
##  [6.237,6.851) 2 0.5    50  2    50
##  [6.851,7.466) 0 0.0     0  2    50
##   [7.466,8.08) 2 0.5    50  4   100
## 
## 2024-09-25.vt 
##    Class limits f   rf rf(%) cf cf(%)
##  [0.495,0.7677) 1 0.25    25  1    25
##   [0.7677,1.04) 1 0.25    25  2    50
##    [1.04,1.313) 2 0.50    50  4   100
## 
## 2024-09-25.nt 
##   Class limits f  rf rf(%) cf cf(%)
##  [5.356,5.587) 2 0.5    50  2    50
##  [5.587,5.819) 0 0.0     0  2    50
##   [5.819,6.05) 2 0.5    50  4   100
## 
## 2024-09-25.ft 
##   Class limits f   rf rf(%) cf cf(%)
##  [1.386,1.607) 1 0.25    25  1    25
##  [1.607,1.829) 2 0.50    50  3    75
##   [1.829,2.05) 1 0.25    25  4   100
## 
## 2024-09-25.turb 
##   Class limits f  rf rf(%) cf cf(%)
##  [2.693,2.788) 2 0.5    50  2    50
##  [2.788,2.884) 0 0.0     0  2    50
##   [2.884,2.98) 2 0.5    50  4   100
## 
## 2024-09-25.resttot 
##     Class limits f  rf rf(%) cf cf(%)
##  [268.29,296.02) 2 0.5    50  2    50
##  [296.02,323.75) 0 0.0     0  2    50
##  [323.75,351.48) 2 0.5    50  4   100
## 
## 2024-09-25.dbo 
##   Class limits f   rf rf(%) cf cf(%)
##  [7.574,8.284) 1 0.25    25  1    25
##  [8.284,8.995) 2 0.50    50  3    75
##  [8.995,9.706) 1 0.25    25  4   100
## 
## 2024-09-25.temp 
##     Class limits f  rf rf(%) cf cf(%)
##  [26.235,26.681) 2 0.5    50  2    50
##  [26.681,27.127) 0 0.0     0  2    50
##  [27.127,27.573) 2 0.5    50  4   100
## 
## 2024-11-22.colTermotolerantes 
##       Class limits f   rf rf(%) cf cf(%)
##    [108.9,314.327) 1 0.25    25  1    25
##  [314.327,519.753) 2 0.50    50  3    75
##   [519.753,725.18) 1 0.25    25  4   100
## 
## 2024-11-22.ph 
##   Class limits f   rf rf(%) cf cf(%)
##  [6.138,6.381) 1 0.25    25  1    25
##  [6.381,6.625) 2 0.50    50  3    75
##  [6.625,6.868) 1 0.25    25  4   100
## 
## 2024-11-22.od 
##   Class limits f   rf rf(%) cf cf(%)
##   [3.069,3.46) 2 0.50    50  2    50
##   [3.46,3.851) 1 0.25    25  3    75
##  [3.851,4.242) 1 0.25    25  4   100
## 
## 2024-11-22.vt 
##   Class limits f   rf rf(%) cf cf(%)
##  [0.891,1.099) 1 0.25    25  1    25
##  [1.099,1.307) 2 0.50    50  3    75
##  [1.307,1.515) 1 0.25    25  4   100
## 
## 2024-11-22.nt 
##   Class limits f   rf rf(%) cf cf(%)
##  [2.495,3.458) 2 0.50    50  2    50
##   [3.458,4.42) 1 0.25    25  3    75
##   [4.42,5.383) 1 0.25    25  4   100
## 
## 2024-11-22.ft 
##    Class limits f   rf rf(%) cf cf(%)
##  [0.7326,1.882) 3 0.75    75  3    75
##   [1.882,3.032) 0 0.00     0  3    75
##   [3.032,4.181) 1 0.25    25  4   100
## 
## 2024-11-22.turb 
##   Class limits f   rf rf(%) cf cf(%)
##  [1.109,1.123) 1 0.25    25  1    25
##  [1.123,1.137) 1 0.25    25  2    50
##  [1.137,1.151) 2 0.50    50  4   100
## 
## 2024-11-22.resttot 
##       Class limits f   rf rf(%) cf cf(%)
##   [314.82,318.623) 1 0.25    25  1    25
##  [318.623,322.427) 2 0.50    50  3    75
##   [322.427,326.23) 1 0.25    25  4   100
## 
## 2024-11-22.dbo 
##   Class limits f   rf rf(%) cf cf(%)
##  [6.781,7.659) 2 0.50    50  2    50
##  [7.659,8.536) 1 0.25    25  3    75
##  [8.536,9.413) 1 0.25    25  4   100
## 
## 2024-11-22.temp 
##     Class limits f   rf rf(%) cf cf(%)
##  [26.631,27.012) 1 0.25    25  1    25
##  [27.012,27.394) 2 0.50    50  3    75
##  [27.394,27.775) 1 0.25    25  4   100
plot(tabelas)

# Estatísticas pontuais
medias = aggregate(.~ Data,data=dados_brutos_cachoeira[,-2],mean) 
medias
##         Data colTermotolerantes  ph    od    vt      nt     ft   turb resttot
## 1 2024-07-23            2836.50 6.4 8.650 0.650 14.8075 4.8125 1.7650  391.25
## 2 2024-09-25             246.25 6.8 7.150 0.975  5.7050 1.7075 2.8325  309.50
## 3 2024-11-22             437.00 6.5 3.575 1.250  3.6900 1.9175 1.1325  320.75
##       dbo   temp datafactor
## 1 28.6525 26.950          1
## 2  8.6100 26.875          2
## 3  7.9275 27.250          3
desviosp = aggregate(.~ Data,data=dados_brutos_cachoeira[,-2],sd) 
desviosp
##         Data colTermotolerantes        ph        od        vt        nt        ft
## 1 2024-07-23         1841.56338 0.3366502 1.2151817 1.6217275 2.6652627 1.1343831
## 2 2024-09-25           54.64049 0.3366502 0.7505553 0.3593976 0.2972653 0.2619637
## 3 2024-11-22          252.94795 0.2581989 0.4645787 0.2516611 1.3536863 1.5175062
##          turb   resttot       dbo      temp datafactor
## 1 0.202402240 34.998810 2.3985881 1.4106736          0
## 2 0.119268604 41.669333 0.8015402 0.4349329          0
## 3 0.009574271  2.217356 1.0779417 0.2516611          0
coefv = aggregate(.~ Data,data=dados_brutos_cachoeira[,-2],function(x)sd(x)/mean(x) * 100)
coefv 
##         Data colTermotolerantes       ph       od        vt       nt       ft
## 1 2024-07-23           64.92379 5.260159 14.04834 249.49653 17.99941 23.57160
## 2 2024-09-25           22.18903 4.950738 10.49728  36.86130  5.21061 15.34195
## 3 2024-11-22           57.88283 3.972291 12.99521  20.13289 36.68527 79.13983
##         turb    resttot       dbo      temp datafactor
## 1 11.4675490  8.9453826  8.371305 5.2344104          0
## 2  4.2107186 13.4634356  9.309410 1.6183551          0
## 3  0.8454102  0.6913034 13.597499 0.9235271          0
# Boxplot
boxplot(dados_brutos_cachoeira[1:4,3])