Entendendo Testes Estatísticos: Um Guia Leigo
Você já se perguntou como os cientistas sabem se algo é realmente diferente ou se é só coincidência?
Por exemplo:
- Um novo remédio funcionou melhor que o antigo — ou foi sorte?
- Pessoas que fazem yoga dormem melhor — ou isso é só impressão?
- Comer chocolate antes do treino melhora o desempenho — ou é efeito placebo?
Essas perguntas estão por toda parte.
E a resposta delas vem de um conjunto de ferramentas poderosas (e um pouco misteriosas para quem nunca as estudou): os testes estatísticos.
Mas calma — a ideia aqui não é te transformar em estatístico.
É te mostrar como funciona a lógica por trás dessas ferramentas, de um jeito acessível, quase como um mapa para não se perder nos números.
A lógica por trás dos testes estatísticos
Todo teste estatístico tenta responder uma única pergunta:
"Existe diferença entre os grupos que estou comparando — e ela é real?"
Pra isso, ele segue um processo simples, quase como um fluxograma de decisões.
Você só precisa responder três perguntas:
- O que estou medindo? (Tipo de variável)
- Meus dados seguem uma distribuição normal? (Pressupostos)
- Quantos grupos quero comparar e como eles se relacionam? (Independentes ou pareados)
Com essas três respostas, você já sabe qual ferramenta usar.
Entendendo cada tipo de teste
Testes de Pressupostos
"O filtro de qualidade dos dados"
Antes de comparar grupos, precisamos saber os comportamentos dos nossos dados. A ideia é entender se eles seguem padrões conhecidos ou não.
- Teste de Shapiro-Wilk / Kolmogorov-Smirnov
→ Verifica se os dados têm aquele formato de sino — a famosa Distribuição Normal.
Se não tiver, a gente muda de ferramenta.

- Teste de Levene
→ Verifica se a variância entre os grupos é parecida — e isso independe da normalidade.
Imagine duas turmas com notas diferentes — uma pode ter notas concentradas (todo mundo parecido) e outra espalhada (notas muito diversas).

Antes, um conceito importante: dados pareados
Quando falamos de amostras pareadas, estamos comparando algo que tem relação direta — geralmente, a mesma pessoa em dois momentos diferentes.
Por exemplo: medir o desempenho de um grupo antes e depois de um treinamento.
Essa ideia de "antes e depois" é a forma mais intuitiva de entender o que significa uma amostra dependente.

Fluxograma
Um outro guia muito completo é:
https://www.scribbr.com/statistics/statistical-tests/

Testes para distribuições normais
"Quando os dados são bem comportados"
Compara médias de dois grupos diferentes.
Exemplo: altura média de homens vs. mulheres.
- Teste t Pareado
Compara o "antes e depois" nas mesmas pessoas.
Exemplo: medir a pressão de pacientes antes e após um medicamento.

Serve para três ou mais grupos.
Diz se há alguma diferença — mas não qual grupo é diferente (pra isso usamos testes post hoc).

Testes para distribuições não normais
"Quando os dados não seguem a distribuição normal"
- Mann-Whitney
Alternativa ao Teste t.
Compara medianas de dois grupos independentes.

- Kruskal-Wallis
Alternativa à ANOVA para três ou mais grupos.
Foca na posição (ranking) dos dados, não nas médias.

- Friedman
Alternativa à ANOVA de medidas repetidas, quando os dados não são normais.
Perfeito para comparar resultados em vários momentos nos mesmos indivíduos.

- Wilcoxon
É a alternativa pareada ao teste t pareado, quando os dados não são normais.
Ele compara antes vs. depois (amostras dependentes).

(Obs.: existe uma outra versão do Wilcoxon para grupos independentes, mas na prática usa-se o nome Mann-Whitney nesse caso.)
E quando os dados são categóricos?
Até agora, falamos de testes usados para números — altura, pressão, tempo de reação, nota, lucro…
Mas e quando os dados não são números contínuos, e sim categorias?
Exemplos:
- Pessoas fumam ou não fumam
- Clientes clicam ou não clicam no anúncio
- Resultado de teste: positivo ou negativo
Nesses casos, não faz sentido calcular médias.
O foco passa a ser a contagem: quantas pessoas escolheram cada categoria.
E aí entra o protagonista desse mundo:
Teste Qui-quadrado (χ²)

Ele responde perguntas como:
"As diferenças nas proporções entre os grupos são reais ou foi só sorte?"
Ou seja, ele verifica se duas variáveis categóricas estão associadas.
Exemplos:
- Existe relação entre fumar e ter câncer?
- A taxa de cliques muda conforme o modelo do anúncio?
- Homens e mulheres têm a mesma preferência por um produto?
💡 Importante:
O Qui-quadrado não depende de normalidade (nem poderia — categorias não têm distribuição normal!).
E ele não compara médias, só proporções.
Se algumas categorias tiverem pouquíssimos casos, usamos o
Teste Exato de Fisher
E qual a diferença entre o qui-quadrado e os outros na prática?
O teste qui-quadrado se encaixa quando o foco é comportamento de categorias (proporções), e não diferenças numéricas médias. Ele substitui o teste t quando os dados deixam de ser números contínuos e viram contagens ou categorias.
Testes Post Hoc
"O zoom da estatística"
Se o teste principal diz que há diferença, o Post Hoc mostra onde exatamente ela está.
É o passo "detetive" da análise.
Existem diversos testes post hoc disponíveis, e a escolha depende das características dos dados.
- Tukey: Comumente usado para comparar todas as médias entre si.
- Bonferroni: Um método rigoroso de correção.
- Dunnett: Útil quando o objetivo é comparar cada grupo a um grupo de controle.
- Games-Howell: Usado quando a variância entre os grupos não é homogênea.
Conclusão
A escolha do teste certo não é sobre decorar fórmulas.
É sobre entender o tipo de pergunta que você está fazendo aos seus dados.
Com o fluxograma certo, até quem nunca estudou estatística pode navegar por esse universo com segurança!
Uma última analogia
Usar o teste estatístico errado é como tentar apertar um parafuso com um martelo.
Pode até funcionar, mas o risco de quebrar o experimento é enorme.
Então, antes de qualquer gráfico bonito ou p-valor, lembre-se: a estatística é, antes de tudo, um exercício de escolha inteligente.