As empresas digitais começaram a adotar a cultura da experimentação para tomar decisões orientadas por dados e melhorar seus KPIs. No entanto, antes de iniciar a experimentação e testar novas ideias, é importante entender o conceito de resultado com significância estatística. Ao testar uma hipótese, o resultado é declarado estatisticamente significativo se for possível descartar a chance de que ele tenha acontecido por acaso e atribuí-lo a um efeito realmente existente. Quando o resultado é significativo, você tem a confiança de que o efeito é real e que não houve sorte (ou azar) na escolha da amostra. No entanto, ao aceitar ou reprovar uma hipótese, não é possível ter 100% de certeza sobre o resultado. Ainda assim, você pode ter algum nível de confiança ou de significância para saber se está no caminho certo.
Em uma estrutura estatística, um resultado é declarado estatisticamente significativo se o valor-p (probabilidade de não observar nenhum efeito) do teste estiver abaixo do limite do nível de significância escolhido. Na prática, um nível de significância ɑ (normalmente 0,05 ou 5%) é previamente definido como um padrão sugerido pelo setor. Com a significância estatística, é possível ter algum grau de confiança de que o efeito observado é real, não devido ao acaso.
Como a significância estatística é usada nos testes
Um teste A/B ou multivariável envolve uma comparação controlada do desempenho de variações de uma determinada métrica, como taxa de conversão, receita média, entre outras. Antes de tomar qualquer decisão crítica para os negócios, como implementar a variação que apresentar a melhor métrica, é preciso garantir que os resultados tenham significância estatística.
Em estatística, existem dois domínios, conhecidos como frequentista e bayesiano, que oferecem abordagens distintas para testar hipóteses. O método frequentista pressupõe que uma métrica tem um único valor, enquanto o método bayesiano a descreve como uma distribuição de valores possíveis com um certo grau de crença associado a eles.
Na abordagem frequentista, ao testar a hipótese nula (nenhum efeito presente entre as variações), a probabilidade de obter um resultado pelo menos tão extremo quanto o observado é estimada. Essa estatística é chamada de valor-p no domínio frequentista e fornece a medida de evidência contra a hipótese nula. Quanto menor for o valor, mais forte será a evidência contra a hipótese nula. Depois de coletar o tamanho de amostra necessário para o experimento, se valor-p ficar abaixo do nível de significância definido, o resultado observado será declarado estatisticamente significativo.
Como a VWO calcula a significância estatística
A VWO é uma das principais plataformas de experimentos em conformidade com a abordagem bayesiana. As duas estatísticas que a VWO calcula para cada variação em um teste são probabilidade de ser a melhor (PBB) e perda potencial (PL).
- A PBB representa as chances de uma variação superar todas as outras. O limite do nível de significância para a PBB é 95% (1-ɑ).
- A PL representa a perda média que provavelmente ocorrerá na implementação da variação se ela tiver um desempenho pior em relação às outras. O nível de significância da decisão em PL é chamado de limite de cuidado (TOC). O TOC é um valor crítico, pois representa a perda que a empresa pode suportar se a variação recomendada tiver um desempenho inferior ao esperado após sua implementação. Ele é estimado a partir deste cálculo: valor métrico para a linha de base * modo de certeza * 10%.
Quando a PBB e a PL ultrapassam seus respectivos níveis de significância, a VWO recomenda a variação como a melhor opção para a sua empresa e declara o resultado estatisticamente significativo. O uso da métrica PL com PBB garante que, mesmo que um teste tenha declarado um resultado falso positivo, o impacto geral do erro será tolerável para a empresa. Experimente a calculadora de significância estatística gratuita da VWO ou solicite uma demonstração com nossos especialistas em produtos para entender em detalhes como funcionam os relatórios da VWO.
Armadilhas da significância estatística
Depois de observar dados suficientes, é importante garantir a significância estatística antes de extrair qualquer insight dos dados, a fim de manter os erros de tipo 1 e tipo 2 sob controle. No entanto, se houver problemas na forma como o experimento foi realizado e as suposições do teste forem violadas, a verificação da significância estatística não será uma metodologia robusta, podendo resultar em um aumento da taxa de erro. Alguns problemas que podem ocorrer durante a realização de um experimento, bem como na obtenção de insights a partir de dados de amostra insuficientes, são:
- Imprecisão na coleta de dados
- A significância estatística não leva em conta a robustez do processo de coleta de dados e pode acabar fornecendo insights que não fazem sentido.
- Problemas com a randomização
- Se a randomização da população não for aleatória, mas tendenciosa para um experimento, efeitos inexistentes poderão ser indicados como significativos.
- Erros de cobertura
- A marcação incorreta do visitante pode resultar em múltiplos pontos de dados duplicados de um único usuário. Isso causa a distorção dos dados coletados e pode fazer com que os efeitos pareçam ser mais ou menos pronunciados do que realmente são.
Esses erros podem influenciar consideravelmente os insights obtidos a partir de um resultado com significância estatística. É preciso monitorar os erros de amostragem e não amostragem antes de tomar uma decisão crítica. A significância estatística por si só não é um critério robusto para definir a tomada de decisões, devendo ser complementada com correções dos erros de não amostragem.
Algumas preocupações das empresas em relação à significância estatística
Algumas preocupações surgem quando as empresas analisam a significância estatística, o que inclui saber como:
- escolher o nível de significância (ɑ)
- escolher a abordagem estatística apropriada
- contextualizar a significância estatística nos negócios
Muitos trabalhos acadêmicos especificam ɑ de 0,05 para o nível de significância. No entanto, não há nenhuma justificativa matemática robusta para escolher esse valor. A única explicação apresentada por seus criadores é que, em muitas aplicações, estar errado em uma a cada 20 vezes é considerado aceitável. Em situações em que é preciso ser mais cauteloso com os erros, é possível diminuir ainda mais o valor de ɑ com a compensação de executar o experimento por um período mais longo.
A segunda preocupação é selecionar um método de análise estatística adequado. Mesmo depois de escolher entre as abordagens bayesiana e frequentista, haverá várias formas para testar uma hipótese. A estrutura do teste estatístico é definida a partir do tipo de dados, do número de pontos de dados e da pergunta que está sendo feita. Um método de análise estatística pode ajudar a determinar como coletar os dados e qual é o tamanho necessário da amostra. Portanto, uma metodologia de teste estatístico deve ser identificada durante o próprio projeto do experimento. Se um método estatístico errado for usado em um experimento, ele poderá produzir resultados sem sentido.
A terceira preocupação é entender como usar os resultados do teste para tomar uma decisão. Nesses experimentos, a significância estatística determina se há alguma diferença matemática (não importa o quão pequena ela seja) no desempenho das variações. Até mesmo uma diferença de 0,00001% tem significância estatística em um teste, mas pode ser praticamente insignificante para o seu negócio. Ainda assim, mesmo que o teste indique que não há diferença significativa, ela ainda poderá ter alguma utilidade para a sua empresa. Portanto, o ideal é identificar primeiro o que é estrategicamente importante para sua organização e usar o resultado do teste estatístico para tomar uma decisão.