O que é um teste A/B

Antes de entrar em experimentação avançada - peeking, MDE, bootstrapping - vale começar pela fundação. Não porque seja simples, mas porque a maioria dos times que usa teste A/B de forma errada está errando exatamente aqui: no básico.
O conceito
Teste A/B é um experimento controlado. Você divide usuários em pelo menos dois grupos. Um grupo vê a versão A - o controle, geralmente o que já existe. O outro vê a versão B - o tratamento, o que você quer testar.
A diferença crítica em relação a comparar períodos históricos: num teste A/B bem conduzido, a única coisa diferente entre os grupos é o que você decidiu testar. O clima, o dia da semana, o comportamento sazonal - tudo isso afeta os dois grupos igualmente, porque eles existem ao mesmo tempo.
É isso que permite a inferência causal: se a métrica foi diferente entre os grupos, é por causa da mudança. Não por causa do tempo.
O que torna um resultado interpretável
Um teste A/B pode ser tecnicamente executado e ainda assim não dizer nada confiável. Para ser interpretável, precisa de quatro elementos:
→ Aleatorização: cada unidade tem mesma probabilidade de ir para A ou B. Sem isso, os grupos podem ser sistematicamente diferentes antes do teste começar - e qualquer diferença de resultado reflete essa assimetria, não a mudança.
→ Tamanho de amostra planejado antes: você calcula quanto precisa para enxergar o efeito que importa. Não "rodamos até sentir que tinha dados suficientes".
→ Métrica principal definida antes: se você decide depois qual métrica "ganhou", está fazendo múltiplas comparações sem controle. Isso infla o risco de falso positivo.
→ Regra de decisão clara: quando parar, quem decide, com base em quê. Sem isso, o peeking contamina o resultado.
O que um teste A/B responde - e o que não responde
Um experimento bem desenhado responde: "essa mudança causou essa diferença na métrica, nessa população, nesse período?"
Ele não responde: por que o usuário se comportou assim, se o efeito vai durar no longo prazo, se vai funcionar para outros segmentos, ou se faz sentido de negócio lançar.
Essa distinção importa. Times que tratam teste A/B como oráculo tomam decisões ruins mesmo com metodologia correta.
Para o BA
Você não precisa executar o experimento. Mas antes de consumir um resultado, vale perguntar:
→ A amostra foi calculada antes ou "esperamos ter dados suficientes"?
→ Qual era a métrica principal - e ela foi definida antes do teste começar?
→ Alguém olhou o resultado durante o teste?
Se não souber responder essas perguntas, o resultado pode ser válido. Mas você não tem como saber.
Próximo post da série: O que é p-value - e por que "significativo" pode enganar.
📎 Referências: Kohavi, Tang & Xu - "Trustworthy Online Controlled Experiments" (Cambridge University Press, 2020).