Multi-Armed Bandit (MAB): Teste A/B sem arrependimentos
A maioria dos leitores deste blog já está familiarizada com os testes A/B. Mas aqui vai um lembrete rápido: teste A/B é um experimento em que uma versão diferente da original (ou “controle”) é exibida a um visitante aleatório em uma propriedade digital na tentativa de encontrar uma variação otimizada capaz de maximizar as conversões.
Por exemplo, será que um botão vermelho receberia mais cliques dos usuários do que um azul? Quem sabe? Bem, com um teste A/B você saberia. Testes A/B realizados sistematicamente utilizando ferramentas eficazes podem melhorar bastante as taxas de conversão. Um exemplo disso é o Tinkoff Bank, um banco em Moscou que registrou um aumento de 36% nas conversões.
No entanto, a busca pela maximização dos números vem acompanhada de um custo: enquanto os testes A/B são executados, uma parcela considerável do tráfego do site é direcionada à variante de pior desempenho, reduzindo algumas métricas importantes de negócios (como vendas ou conversões).
Dizem que, em um teste A/B, o custo para aumentar as conversões são as próprias conversões. Touché.
Vamos considerar o exemplo de Jim, um analista de UX que trabalha em uma fabricante de dispositivos móveis que fará um grande lançamento na semana que vem. Para estimular a demanda e promover as vendas, Jim decide rodar uma promoção relâmpago no aplicativo da empresa durante três dias.
Mas há um detalhe: ele sabe que o aplicativo tem uma navegação ruim. Jim realizou uma pesquisa com os usuários ativos e chegou à conclusão de que os visitantes têm dificuldade para encontrar o produto.
Para melhorar a navegação, Jim decide fazer um experimento e cria uma variação do aplicativo com uma navegação mais intuitiva, que leva os usuários diretamente ao funil de vendas da promoção relâmpago. O objetivo é testar se a nova versão acabará com a dificuldade dos usuários de encontrar o aparelho que será lançado. Resumidamente, Jim está tentando melhorar um KPI crucial: a porcentagem de sessões em que os usuários conseguiram encontrar o novo dispositivo.
Ele analisa os dados obtidos no experimento e percebe que os ajustes feitos na navegação do aplicativo apresentaram melhorias significativas. Jim fica empolgado e decide compartilhar os primeiros resultados com a equipe de liderança sênior, na expectativa de que eles também fiquem entusiasmados. Prestes a entrar no escritório da CMO, levando consigo uma cópia dos resultados iniciais para convencer a executiva de que vale a pena direcionar mais tráfego à nova variação, Jim é parado por um cientista de dados.
“Jim, esses resultados são ótimos. Mas eles são estatisticamente robustos? Onde está a significância?”.
“Nós não podemos esperar todo esse tempo! A promoção termina em três dias!”, Jim responde.
Quem está certo? Jim, que tem a missão de fazer o melhor possível em apenas três dias, ou o cientista de dados, que questionou a significância estatística do experimento? Ambos estão certos. Vamos explicar o porquê.
Lembra quando dissemos que o custo para aumentar as conversões são as próprias conversões? A situação em que Jim se encontra justifica uma abordagem que visa minimizar o custo de execução de um teste A/B. A perda de conversões causada pela variação com desempenho ruim é chamada de arrependimento bayesiano.
Minimizar o arrependimento é especialmente importante em situações urgentes ou nas quais o custo das variações ruins é tão alto que as empresas hesitam em executar testes A/B.
Como Jim tem apenas três dias para maximizar as vendas, ele não pode perder conversões até que a significância estatística seja descoberta, o que pode levar semanas (ou até meses, se o site tiver pouco tráfego). Se esperar pela significância estatística, Jim não conseguirá usar os resultados, já que o período de três dias terá terminado.
Mas se ele tivesse algoritmos Multi-Armed Bandit à sua disposição, esse tipo de problema não teria acontecido. Vamos entender como o processo seria.
O que é um teste Multi-Armed Bandit (MAB)?
MAB é um tipo de teste A/B que usa aprendizado de máquina para se aprimorar com os dados coletados na realização do teste e aumentar dinamicamente a alocação de visitantes nas variações de melhor desempenho. Isso significa que, com o decorrer do tempo, as variações que não são boas recebem cada vez menos tráfego.
O principal conceito por trás do MAB é a “alocação dinâmica de tráfego”, um método estatisticamente robusto que identifica continuamente em que grau uma versão supera as outras e direciona a maior parte do tráfego de forma dinâmica e em tempo real a ela.
Ao contrário dos testes A/B, o MAB maximiza o número total de conversões no decorrer do teste. Em contrapartida, a certeza estatística fica em segundo plano, já que o foco é voltado às conversões e à descoberta das taxas de conversão exatas (de todas as variações, incluindo aquelas com pior desempenho).
Qual é o problema da metodologia Multi-Armed Bandit?
O conceito de MAB foi inspirado em um experimento mental em que um jogador escolhe entre diversas máquinas caça-níqueis com taxas de pagamento diferentes. Sua tarefa é ganhar o máximo de dinheiro possível com elas. Coloque-se no lugar desse jogador. Como você maximizaria seus ganhos?
Como várias máquinas caça-níqueis estão à disposição, você pode jogar em todas elas para determinar as possibilidades de pagamento, coletando dados suficientes até descobrir qual máquina é a melhor.
Essa abordagem revelará a taxa de pagamento exata de todas as máquinas. No entanto, durante o processo, você perderá muito dinheiro com aquelas que pagam pouco. É isso o que pode acontecer em um teste A/B. Uma alternativa seria manter o foco em poucas máquinas por um breve período, avaliando continuamente os ganhos para maximizar seus investimentos nos caça-níqueis com retornos maiores. É isso o que acontece na abordagem Multi-Armed Bandit.
Multi-Armed Bandit em funcionamento
Fonte da imagem: towards data science
Exploração e aproveitamento
Os dois pilares que sustentam o MAB nos ajudam a entender esse algoritmo: exploração e aproveitamento. Por padrão, a maioria dos testes A/B clássicos funcionam no modo exploração. Afinal, determinar resultados estatisticamente significativos é a razão de sua existência, o que gera uma exploração perpétua.
Em um teste A/B, o foco está na descoberta da taxa de conversão exata das variações. Já o MAB adiciona um elemento ao experimento: o aproveitamento. Devido ao propósito do teste MAB de maximizar as conversões e lucros, o aproveitamento e a exploração ocorrem paralelamente, como se formassem os trilhos de um trem. Imagine o algoritmo explorando os dados de vários visitantes por segundo, descobrindo linhas de base vencedoras que mudam constantemente e alocando a maior parte do tráfego dinamicamente à variação com a chance mais alta de ser a vencedora naquele instante (aproveitamento).
Pode até parecer que o MAB usa práticas heurísticas para alocar mais tráfego à variação com melhor desempenho. No entanto, nos bastidores, a implementação do MAB pela VWO é estatisticamente robusta. A VWO usa um modelo matemático para atualizar continuamente as taxas de conversão estimadas das variações e alocar o tráfego em uma proporção diretamente associada a cada uma delas.
À medida que a estimativa da versão com melhor desempenho é aprimorada, essa variação recebe uma porcentagem maior do tráfego. Se estiver interessado em aprender a matemática por trás do algoritmo MAB da VWO, leia artigos sobre um conceito chamado Thompson Sampling ou solicite uma demonstração junto aos nossos especialistas em otimização.
Ao longo do ciclo do teste, o algoritmo se equilibra entre as fases de exploração e aproveitamento. À medida que as variações com melhor desempenho geram mais conversões, a divisão do tráfego continua aumentando até atingir um ponto em que a maioria dos usuários é direcionada à versão que produziu os resultados superiores. Dessa forma, o MAB permite que o Jim, do exemplo anterior, implemente progressivamente a melhor versão do aplicativo móvel sem ter que esperar que seus testes atinjam a significância estatística.
Exploração versus aproveitamento em testes A/B e Multi-Armed Bandit
Por que o teste A/B é melhor que o MAB
Ao considerar os prós e contras do algoritmo Multi-Armed Bandit e do teste A/B, é preciso entender que ambos atendem a casos de uso distintos devido aos seus focos diferentes. Um teste A/B é realizado para coletar dados com confiança estatística. A empresa analisa esses dados, interpreta-os em um contexto mais amplo e toma uma decisão.
Já o algoritmo Multi-Armed Bandit maximiza uma determinada métrica (no caso da VWO, conversões de um tipo específico). Não existe um estágio intermediário de interpretação e análise, pois o algoritmo MAB ajusta o direcionamento do tráfego automaticamente. Isso significa que o teste A/B é perfeito para casos em que:
- O objetivo é coletar dados para tomar uma decisão de negócios crítica. Por exemplo, se você precisar definir o posicionamento de um produto, os dados de engajamento sobre diferentes posições obtidos em um teste A/B são um indicador importante (embora não seja o único).
- O objetivo é entender o impacto causado por todas as variações com confiança estatística. Por exemplo, se você se esforçou no desenvolvimento de um novo produto, não deseja apenas otimizar suas vendas, mas coletar informações sobre seu desempenho para incorporar tudo o que foi aprendido no desenvolvimento futuro de um produto ainda melhor.
A CityCliq registrou um aumento de 90% em seu CTR após realizar testes A/B para definir o posicionamento de seu produto. Além disso, os dados coletados pela empresa poderão ser usados como base para futuros testes.
Benefícios dos testes Multi-Armed Bandit
Já o MAB é perfeito para casos em que:
- A alocação eficiente dos recursos nas variações mais promissoras é essencial, especialmente quando há restrições de recursos. A abordagem ajuda a reduzir o custo de oportunidade decorrente do direcionamento do tráfego a uma variação de baixo desempenho.
- Não é necessário interpretar os resultados/desempenhos das variações, apenas maximizar as conversões. Por exemplo, se estiver testando um esquema de cores, seu único desejo é selecionar aquele que maximize o número de conversões.
- A janela de oportunidade para a otimização é curta e não há tempo suficiente para reunir resultados estatisticamente significativos. Por exemplo, situações em que é preciso otimizar os preços de uma oferta por tempo limitado.
Concluindo, é justo afirmar que tanto os testes A/B quanto MAB têm suas vantagens e desvantagens. A dinâmica entre ambos são complementares, não excludentes.
Casos de uso para o teste Multi-Armed Bandit
A seguir, apresentaremos algumas situações comuns nas quais o algoritmo MAB se mostrou claramente superior aos testes A/B:
1. O custo de oportunidade das conversões perdidas é muito alto
Imagine que você vende diamantes ou carros on-line. Cada conversão que não é realizada representa milhares de reais em oportunidade perdida. Nesse caso, o foco do MAB na maximização de conversões é perfeito para atender às necessidades de otimização do seu site.
2. Otimização da taxa de cliques (CTR) em veículos de notícias que cobrem eventos urgentes
Criar manchetes atrativas era o trabalho dos editores, mas essa abordagem está claramente ultrapassada (pergunte aos nossos amigos do The Washington Post). A vida útil cada vez mais curta das notícias tornou essencial a otimização rápida. Os veículos otimizam e testam manchetes, thumbnails de fotos, thumbnails de vídeos, notícias recomendadas e artigos populares para estimular o número máximo de cliques em pouco tempo.
3. Otimização contínua
Ferramentas de otimização têm a capacidade de adicionar ou remover múltiplos elementos das variações para realizar testes simultâneos. Em um teste A/B tradicional, existe pouca liberdade para organizar múltiplas mudanças depois que o experimento é lançado, porque a integridade dos dados é sagrada.
4. Otimização das receitas com tráfego baixo
Se não houver tráfego suficiente, os testes A/B podem levar muito tempo para produzir significância estatística. Em casos como esses, uma empresa pode executar um teste MAB, já que ele é capaz de detectar a versão com o melhor potencial muito mais rapidamente e direcionar uma quantidade crescente de tráfego a ela.
Compreendendo as limitações do MAB: Situações em que o teste A/B é claramente a melhor escolha
1. Foco na significância estatística
Apesar de todas as suas vantagens, os experimentos Multi-Armed Bandit não são a melhor escolha se você quiser encontrar uma versão vencedora estatisticamente robusta. Os testes A/B ainda são a forma mais rápida de atingir a significância estatística, mesmo que você perca algumas conversões no decorrer do processo.
2. Otimização de múltiplas métricas
Equipes avançadas de experimentação monitoram quatro ou mais objetivos por experimento, já que cada teste é formado por objetivos primários e secundários. Embora os testes MAB funcionem bem na otimização de uma métrica importante, eles não são ideais quando há vários objetivos, pois só levam em consideração o principal deles durante a alocação do tráfego.
3. Análise pós-experimento
A maioria dos profissionais que realizam os experimentos gosta de analisar detalhadamente os dados coletados para verificar como diferentes segmentos reagiram às modificações feitas. Essa análise pode ser conduzida com testes A/B, mas não é viável com algoritmos MAB, pois não há dados suficientes disponíveis sobre as variações que apresentaram baixo desempenho.
4. Incorporação dos aprendizados de todas as variações (incluindo as piores) nas decisões de negócios
Durante a realização de um teste, o MAB destina a maior parte do tráfego à variação com melhor desempenho. Isso significa que as variações com performance inferior não recebem tráfego suficiente para atingir a confiança estatística. Por isso, embora você saiba com alto nível de confiança qual é a taxa de conversão da variação com o melhor desempenho, o mesmo não pode ser dito sobre as outras versões. Se esse tipo de informação for importante para tomar uma decisão de negócios (talvez você queira saber qual é o grau de diferença entre a variação perdedora e a vencedora), realizar um teste A/B é a melhor opção.
Como implementar um teste Multi-Armed Bandit
A implementação de um teste MAB se assemelha à execução de um teste A/B, mas há algumas diferenças. Primeiro, faça uma pesquisa para identificar o problema que está causando atritos na jornada do visitante. Crie uma hipótese para alcançar o seu objetivo, que deve se alinhar à dificuldade a ser solucionada. Por exemplo, você pode definir como objetivo aumentar o número de formulários preenchidos pelos visitantes para solucionar o problema das baixas conversões no seu site.
Ao configurar o teste, observe que o tamanho da amostra, que não costuma ser motivo de muita preocupação em testes A/B, é essencial para o algoritmo MAB. O ideal é que os testes MAB sejam realizados em páginas com alto volume de tráfego. Conteúdos que recebem poucas visitas podem prolongar o tempo até que a significância seja atingida, pois o MAB aloca dinamicamente o tráfego com base no desempenho das variações por meio da relação de exploração e aproveitamento.
Sendo assim, mais tempo e mais dados são necessários para que o MAB faça os ajustes com eficácia. Um alto volume de tráfego é melhor dividido entre as variações, gerando resultados mais confiáveis.
Use a nossa calculadora de duração de testes A/B para definir o tráfego e a duração do seu teste MAB. Leve em consideração fatores como volume atual de tráfego no seu site, número de variações (incluindo a versão de controle) e a significância estatística desejada.
Conclusão
Se você é novo no mundo da otimização de conversões e experiências e ainda não trabalha com testes, deveria começar agora mesmo. De acordo com a Bain & Co, as empresas que aprimoram continuamente a experiência do cliente crescem entre 4% a 8% mais rápido do que a concorrência.
Assista a este vídeo se quiser entender melhor a diferença entre testes A/B e MAB.
Tanto os testes A/B quanto MAB são metodologias de otimização eficazes. O algoritmo MAB é uma excelente alternativa para quem tem um prazo apertado e está disposto a abrir mão da significância estatística em troca de mais conversões em um curto período. Entre em contato conosco pelo e-mail sales@vwo.com para obter mais informações sobre o MAB ou para solicitar uma demonstração junto aos nossos especialistas em MAB.