Desvio padrão
Variância e desvio padrão são
medidas de dispersão que indicam a regularidade de um conjunto de dados em
função da média aritmética.
Imagine a
seguinte situação: o dono de uma microempresa pretende saber, em média, quantos
produtos são produzidos por cada funcionário em um dia. O chefe tem
conhecimento que nem todos conseguem fazer a mesma quantidade de peças, mas
pede que seus funcionários façam um registro de sua produção em uma semana de
trabalho. Ao fim desse período, chegou-se à seguinte tabela:
Para saber a
produção média de seus funcionários, o chefe faz o cálculo da média
aritmética de produção, isto é, a soma do número de peças produzido em cada dia
dividida pela quantidade analisada de dias.
A partir desse
cálculo, temos a produção diária média de cada funcionário. Mas se observarmos
bem a tabela, veremos que há valores distantes da média. O funcionário B, por exemplo, produz uma média de 12,8 peças por dia. No entanto, houve um dia em que ele
produziu 16 peças e outro dia
em que ele confeccionou apenas 10 peças. Será
que o processo utilizado pelo dono da empresa é suficiente para o seu
propósito?
Para esse
exemplo, ficou fácil concluir que há uma grande variação entre a produção de
cada funcionário. Mas e se essa fosse uma grande empresa, com mais de mil
funcionários, ou se fosse observada a produção em um ano, será que
conseguiríamos definir essa variação com tanta facilidade?
O estudo da Estatística apresenta medidas de dispersão que
permitem a análise da dispersão dos dados.
Inicialmente veremos a variância, uma medida de dispersão que mostra quão distantes os valores estão
da média. Nesse caso, como estamos analisando todos
os valores de cada funcionário, e não apenas uma “amostra”, trata-se do cálculo
da variância populacional (var).
O cálculo da
variância populacional é obtido através da soma dos quadrados da diferença
entre cada valor e a média aritmética, dividida pela quantidade de elementos
observados. Observe o cálculo simplificado para esse exemplo:
Observação: se estivéssemos trabalhando com a variância amostral, dividiríamos pela quantidade
de elementos observados subtraída de um (– 1). Nesse exemplo, teríamos: 5 dias – 1 = 4 dias.Vamos então
calcular a variância populacional para cada
funcionário:
Variância
→ Funcionário A:
var (A) = (10 – 10)² + (9 – 10)² + (11 –
10)² + (12 – 10)² + (8 – 10)²
5
var (A) = 10 = 2,0
5
Variância
→ Funcionário B:
var (B) = (15 – 12,8)² + (12 – 12,8)² +
(16 – 12,8)² + (10 – 12,8)² + (11 – 12,8)²
5
var (B) = 26,8 = 5,36
5
Variância
→ Funcionário C:
var (C) = (11 – 10,4)² + (10 – 10,4)² +
(8 – 10,4)² + (11 – 10,4)² + (12 – 10,4)²
5
var (C) = 9,2 = 1,84
5
Variância
→ Funcionário D:
var (D) = (8 – 11)² + (12 – 11)² + (15 –
11)² + (9 – 11)² + (11 – 11)²
5
var (D) = 30 = 6,0
5
Podemos
afirmar que a produção diária do funcionário C é mais uniforme do que a dos demais
funcionários, assim como a quantidade de peças diárias de D é
a mais desigual. Quanto maior for a variância,
mais distantes da média estarão os valores, e quanto menor for a variância,
mais próximos os valores estarão da média.
Em algumas
situações, apenas o cálculo da variância pode não ser suficiente, pois essa é
uma medida de dispersão muito influenciada por valores que estão muito
distantes da média. Além disso, o fato de a variância ser calculada “ao
quadrado” causa uma certa camuflagem dos valores, dificultando sua
interpretação. Uma alternativa para solucionar esse problema é o desvio padrão, outra medida de dispersão.
O desvio padrão (dp) é simplesmente o resultado
positivo da raiz quadrada da variância. Na prática, o desvio padrão
indica qual é o “erro” se quiséssemos substituir um dos valores coletados pelo
valor da média. Vamos agora calcular o desvio padrão da produção diária de cada
funcionário:
Desvio
Padrão → Funcionário A:
dp(A) = √var (A)
dp(A)
= √2,0
dp(A)
≈ 1,41
Desvio
Padrão → Funcionário B:
dp(B) = √var (B)
dp(B)
= √5,36
dp(B)
≈ 2,32
Desvio
Padrão → Funcionário C:
dp(C) = √var (C)
dp(C)
= √1,84
dp(C)
≈ 1,36
Desvio
Padrão → Funcionário D:
dp(D) = √var (D)
dp(D)
= √6,0
dp(D)
≈ 2,45
Podemos ver a
utilização do desvio padrão na apresentação da média aritmética, informando o
quão “confiável” é esse valor. Isso é feito da seguinte forma:
média aritmética (x) ± desvio padrão (dp)
Se o dono da
empresa de nosso exemplo pretende concluir seu relatório com a produção média
diária de seus funcionários, ele fará da seguinte forma:
Funcionário A: 10,0 ± 1,41 peças por dia
Funcionário
B: 12,8 ± 2,32 peças por dia
Funcionário
C: 10,4 ± 1,36 peças por dia
Funcionário
D: 11,0 ± 2,45 peças por dia
V