O que é um teste A/B

@lasinskas·há 3 meses·3 min de leitura

Teste A/B

Antes de entrar em experimentação avançada - peeking, MDE, bootstrapping - vale começar pela fundação. Não porque seja simples, mas porque a maioria dos times que usa teste A/B de forma errada está errando exatamente aqui: no básico.

O conceito

Teste A/B é um experimento controlado. Você divide usuários em pelo menos dois grupos. Um grupo vê a versão A - o controle, geralmente o que já existe. O outro vê a versão B - o tratamento, o que você quer testar.

A diferença crítica em relação a comparar períodos históricos: num teste A/B bem conduzido, a única coisa diferente entre os grupos é o que você decidiu testar. O clima, o dia da semana, o comportamento sazonal - tudo isso afeta os dois grupos igualmente, porque eles existem ao mesmo tempo.

É isso que permite a inferência causal: se a métrica foi diferente entre os grupos, é por causa da mudança. Não por causa do tempo.

O que torna um resultado interpretável

Um teste A/B pode ser tecnicamente executado e ainda assim não dizer nada confiável. Para ser interpretável, precisa de quatro elementos:

→ Aleatorização: cada unidade tem mesma probabilidade de ir para A ou B. Sem isso, os grupos podem ser sistematicamente diferentes antes do teste começar - e qualquer diferença de resultado reflete essa assimetria, não a mudança.

→ Tamanho de amostra planejado antes: você calcula quanto precisa para enxergar o efeito que importa. Não "rodamos até sentir que tinha dados suficientes".

→ Métrica principal definida antes: se você decide depois qual métrica "ganhou", está fazendo múltiplas comparações sem controle. Isso infla o risco de falso positivo.

→ Regra de decisão clara: quando parar, quem decide, com base em quê. Sem isso, o peeking contamina o resultado.

O que um teste A/B responde - e o que não responde

Um experimento bem desenhado responde: "essa mudança causou essa diferença na métrica, nessa população, nesse período?"

Ele não responde: por que o usuário se comportou assim, se o efeito vai durar no longo prazo, se vai funcionar para outros segmentos, ou se faz sentido de negócio lançar.

Essa distinção importa. Times que tratam teste A/B como oráculo tomam decisões ruins mesmo com metodologia correta.

Para o BA

Você não precisa executar o experimento. Mas antes de consumir um resultado, vale perguntar:

→ A amostra foi calculada antes ou "esperamos ter dados suficientes"?

→ Qual era a métrica principal - e ela foi definida antes do teste começar?

→ Alguém olhou o resultado durante o teste?

Se não souber responder essas perguntas, o resultado pode ser válido. Mas você não tem como saber.

Próximo post da série: O que é p-value - e por que "significativo" pode enganar.

📎 Referências: Kohavi, Tang & Xu - "Trustworthy Online Controlled Experiments" (Cambridge University Press, 2020).