Entendendo Testes Estatísticos: Um Guia Leigo

@lasinskas·há 7 meses·6 min de leitura

Você já se perguntou como os cientistas sabem se algo é realmente diferente ou se é só coincidência?

Por exemplo:

Um novo remédio funcionou melhor que o antigo — ou foi sorte?
Pessoas que fazem yoga dormem melhor — ou isso é só impressão?
Comer chocolate antes do treino melhora o desempenho — ou é efeito placebo?

Essas perguntas estão por toda parte.

E a resposta delas vem de um conjunto de ferramentas poderosas (e um pouco misteriosas para quem nunca as estudou): os testes estatísticos.

Mas calma — a ideia aqui não é te transformar em estatístico.

É te mostrar como funciona a lógica por trás dessas ferramentas, de um jeito acessível, quase como um mapa para não se perder nos números.

A lógica por trás dos testes estatísticos

Todo teste estatístico tenta responder uma única pergunta:

"Existe diferença entre os grupos que estou comparando — e ela é real?"

Pra isso, ele segue um processo simples, quase como um fluxograma de decisões.

Você só precisa responder três perguntas:

O que estou medindo? (Tipo de variável)
Meus dados seguem uma distribuição normal? (Pressupostos)
Quantos grupos quero comparar e como eles se relacionam? (Independentes ou pareados)

Com essas três respostas, você já sabe qual ferramenta usar.

Entendendo cada tipo de teste

Testes de Pressupostos

"O filtro de qualidade dos dados"

Antes de comparar grupos, precisamos saber os comportamentos dos nossos dados. A ideia é entender se eles seguem padrões conhecidos ou não.

Teste de Shapiro-Wilk / Kolmogorov-Smirnov

→ Verifica se os dados têm aquele formato de sino — a famosa Distribuição Normal.

Se não tiver, a gente muda de ferramenta.

Teste de Shapiro-Wilk

Teste de Levene

→ Verifica se a variância entre os grupos é parecida — e isso independe da normalidade.

Imagine duas turmas com notas diferentes — uma pode ter notas concentradas (todo mundo parecido) e outra espalhada (notas muito diversas).

Teste de Levene

Antes, um conceito importante: dados pareados

Quando falamos de amostras pareadas, estamos comparando algo que tem relação direta — geralmente, a mesma pessoa em dois momentos diferentes.

Por exemplo: medir o desempenho de um grupo antes e depois de um treinamento.

Essa ideia de "antes e depois" é a forma mais intuitiva de entender o que significa uma amostra dependente.

Amostras pareadas e não pareadas

Fluxograma

Um outro guia muito completo é:

https://www.scribbr.com/statistics/statistical-tests/

Fluxograma de testes estatísticos

Testes para distribuições normais

"Quando os dados são bem comportados"

Teste t de Student (independentes)

Compara médias de dois grupos diferentes.

Exemplo: altura média de homens vs. mulheres.

Teste t Pareado

Compara o "antes e depois" nas mesmas pessoas.

Exemplo: medir a pressão de pacientes antes e após um medicamento.

Teste t — Valor é comparado a tabela t

ANOVA

Serve para três ou mais grupos.

Diz se há alguma diferença — mas não qual grupo é diferente (pra isso usamos testes post hoc).

Teste ANOVA — Valor é comparado a tabela F

Testes para distribuições não normais

"Quando os dados não seguem a distribuição normal"

Mann-Whitney

Alternativa ao Teste t.

Compara medianas de dois grupos independentes.

Teste Mann-Whitney — Valor comparado a tabela de referência

Kruskal-Wallis

Alternativa à ANOVA para três ou mais grupos.

Foca na posição (ranking) dos dados, não nas médias.

Teste de Kruskal-Wallis — Valor comparado a tabela de referência

Friedman

Alternativa à ANOVA de medidas repetidas, quando os dados não são normais.

Perfeito para comparar resultados em vários momentos nos mesmos indivíduos.

Teste de Friedman — Valor comparado a tabela de referência

Wilcoxon

É a alternativa pareada ao teste t pareado, quando os dados não são normais.

Ele compara antes vs. depois (amostras dependentes).

Teste de Wilcoxon — Valor comparado a tabela de referência

(Obs.: existe uma outra versão do Wilcoxon para grupos independentes, mas na prática usa-se o nome Mann-Whitney nesse caso.)

E quando os dados são categóricos?

Até agora, falamos de testes usados para números — altura, pressão, tempo de reação, nota, lucro…

Mas e quando os dados não são números contínuos, e sim categorias?

Exemplos:

Pessoas fumam ou não fumam
Clientes clicam ou não clicam no anúncio
Resultado de teste: positivo ou negativo

Nesses casos, não faz sentido calcular médias.

O foco passa a ser a contagem: quantas pessoas escolheram cada categoria.

E aí entra o protagonista desse mundo:

Teste Qui-quadrado (χ²)

Teste Qui-quadrado

Ele responde perguntas como:

"As diferenças nas proporções entre os grupos são reais ou foi só sorte?"

Ou seja, ele verifica se duas variáveis categóricas estão associadas.

Exemplos:

Existe relação entre fumar e ter câncer?
A taxa de cliques muda conforme o modelo do anúncio?
Homens e mulheres têm a mesma preferência por um produto?

💡 Importante:

O Qui-quadrado não depende de normalidade (nem poderia — categorias não têm distribuição normal!).

E ele não compara médias, só proporções.

Se algumas categorias tiverem pouquíssimos casos, usamos o
Teste Exato de Fisher

E qual a diferença entre o qui-quadrado e os outros na prática?

O teste qui-quadrado se encaixa quando o foco é comportamento de categorias (proporções), e não diferenças numéricas médias. Ele substitui o teste t quando os dados deixam de ser números contínuos e viram contagens ou categorias.

Testes Post Hoc

"O zoom da estatística"

Se o teste principal diz que há diferença, o Post Hoc mostra onde exatamente ela está.

É o passo "detetive" da análise.

Existem diversos testes post hoc disponíveis, e a escolha depende das características dos dados.

Tukey: Comumente usado para comparar todas as médias entre si.
Bonferroni: Um método rigoroso de correção.
Dunnett: Útil quando o objetivo é comparar cada grupo a um grupo de controle.
Games-Howell: Usado quando a variância entre os grupos não é homogênea.

Conclusão

A escolha do teste certo não é sobre decorar fórmulas.

É sobre entender o tipo de pergunta que você está fazendo aos seus dados.

Com o fluxograma certo, até quem nunca estudou estatística pode navegar por esse universo com segurança!

Uma última analogia

Usar o teste estatístico errado é como tentar apertar um parafuso com um martelo.

Pode até funcionar, mas o risco de quebrar o experimento é enorme.

Então, antes de qualquer gráfico bonito ou p-valor, lembre-se: a estatística é, antes de tudo, um exercício de escolha inteligente.