¿Qué son los tests Multi Armed Bandit (MAB)?

La mayoría de los lectores de este blog ya estarán familiarizados con el A/B Testing, pero para refrescaros la memoria, el test A/B es un experimento en el que a un visitante aleatorio que accede a tu web se le enseña una versión de la misma que no es la original (conocida como la «versión de control»), para encontrar la versión que maximiza las conversiones.

Por ejemplo, puede que utilizar un botón de color rojo haga que se maximicen los clics, o quizá lo haga un botón azul. ¿Quién sabe? ¡Qué complicado! Bien, un test A/B lo sabría resolver. Hacer tests A/B de forma sistemática, con unas herramientas de A/B testing efectivas, puede llevar a una gran mejora en las conversiones; como comprobó el banco Tinkoff, en Moscú, con un aumento del 36 %.

Sin embargo, esta búsqueda de maximizar conversiones tiene un coste inevitable. Mientras que se realizan los tests A/B, una gran parte del tráfico se dirige a una variante perdida que reduce de forma directa las métricas de los negocios (como ventas o conversiones).

Se dice que en un test A/B, el coste de aumentar las conversiones son las conversiones en sí mismas. Y así es.

Pongamos como ejemplo a Jim, un analista de experiencias de usuario, que trabaja para una compañía móvil que va a lanzar su último y mejor teléfono la semana que viene. Para fomentar la demanda y favorecer las ventas, Jim decide activar las ventas relámpago en la app móvil de la compañía durante 3 días.

Pero Jim es consciente de que la navegación por la app es mala ( llegó a esta conclusión tras hacer una encuesta a usuarios activos) y que los visitantes tendrán dificultades para localizar el producto.

Para mejorar la navegación, decide hacer un experimento en el que crea una variación de la web más intuitiva que lleva al usuario directamente al embudo de ventas relámpago y así comprobar si esta versión podría solucionar las dificultades de llegar hasta el nuevo teléfono. En resumen, Jim está intentando mejorar el siguiente Indicador Clave de Rendimiento (KPI en inglés): el porcentaje de sesiones en las que el usuario encontró el nuevo aparato.

Estudia los datos recogidos en el experimento, y comprueba que los ajustes hechos en la app han resultado ser una gran mejora. Jim está encantado. Quiere compartir sus primeros resultados con el personal directivo para que también se entusiasme. Pero justo cuando se dispone a entrar en el despacho de la directora de marketing con una copia de las primeras tendencias para intentar convencerla de que dirija más tráfico hacia la nueva navegación, le asaltan típicas dudas de un científico de datos.

«Jim, estas tendencias están genial, pero ¿son estadísticamente sólidas? «¿Cuál es su relevancia?»

«¡No tenemos tiempo que perder!» «¡La oferta acaba en 3 días!» Jim hace una mueca, dubitativo.

¿Quién crees que tiene razón? Jim, cuyo objetivo es obtener los mejores resultados durante los próximos 3 días. ¿O la científica de datos que cuestiona la relevancia estadística? Ambas partes tienen razón, te explicamos por qué.

¿Te acuerdas de aquella cuestión inicial sobre que el coste de aumentar las conversiones eran las propias conversiones? La situación de Jim garantiza un enfoque que minimiza el coste de realizar un test A/B. La pérdida de conversiones provocada por una variación de bajo rendimiento se denomina arrepentimiento bayesiano.

Minimizar este arrepentimiento es particularmente importante en situaciones de urgencia, o en casos en los que el coste de escasez de variaciones sea tan alto que la empresa se plantea si realizar tests A/B.

Como Jim solo tiene una ventana de tres días de maniobra para maximizar las ventas, no tiene tiempo para preocuparse de la relevancia estadística perdiendo conversiones, lo que, a veces, puede llevar semanas (o meses, en webs de poco tráfico). Si espera a la relevancia estadística, no podrá utilizar los resultados porque la ventana de 3 días habrá finalizado.

Si Jim hubiera podido utilizar algoritmos Multi-Armed Bandit (MAB), nunca hubiera tenido este problema. Y es por lo siguiente.

slot machines signifying multi-armed bandit algorithm

¿En qué consiste el multi-armed bandit testing?

El MAB es un tipo de A/B testing que utiliza el aprendizaje automático para aprender de los datos recogidos durante el test, e incrementar la distribución de visitantes de forma dinámica para obtener variaciones de mejor rendimiento. Lo que quiere decir que, las variaciones que no son buenas van perdiendo cada vez más distribución de tráfico.

El concepto principal de MAB es conseguir una «distribución dinámica del tráfico». Es un método sólido estadísticamente para identificar de manera continua hasta qué punto una versión está superando a las demás y encaminar la mayor parte del tráfico de forma dinámica y en tiempo real a la variante ganadora.

Al contrario que los tests A/B, un MAB maximiza el número total de conversiones durante el transcurso del test. La contrapartida es que la certeza estadística pasa a un segundo plano, ya que la atención se centra en las conversiones y en averiguar las tasas de conversión exactas (de todas las variaciones, incluidas las de peor rendimiento).

¿Qué es el problema del multi-armed bandit?

Se le denomina MAB a un experimento en el que alguien que apuesta tiene que elegir entre varias máquinas tragaperras con distintos premios. El objetivo del jugador es maximizar la cantidad de dinero que gana. Imagina por un instante que ese jugador eres tú. ¿Cómo maximizarías tus ganancias?

Como tienes varias máquinas entre las que elegir, puedes establecer las posibilidades de conseguir un premio probando suerte en cada máquina, observado los datos que te da hasta asegurarte cuál es la mejor opción.

Con esta técnica obtendrás el índice de beneficios exacto de todas las máquinas, pero para entonces te habrás gastado mucho dinero en el juego y habrás obtenido poco beneficio. Esto también puede ocurrir en un test A/B. La alternativa es: centrarse en menos máquinas, evaluar de forma continua las ganancias y maximizar tu inversión en ellas para un mayor reembolso. Esto es lo que ocurre si aplicamos un enfoque multi-armed bandit.

an illustration of how multi armed bandit functions

Multi-Armed bandit en acción

Fuente de la imagen: towards data science

Exploración y explotación

Para entender mejor el MAB, hay dos pilares que alimentan este algoritmo: «exploración» y «explotación». La mayoría de los tests A/B habituales están centrados a propósito en la «exploración». Después de todo, su razón de ser es determinar resultados estadísticamente relevantes, es decir, están en exploración constante.

Un test A/B se centra en descubrir la tasa de conversión exacto de variaciones. El MAB le da un toque al A/B testing: la explotación. Debido al propósito de «maximizar conversiones y beneficios» del MAB, la explotación y exploración funcionan en paralelo, similar al funcionamiento de las vías del tren. , Es como si el algoritmo estuviera explorando a muchos visitantes por segundo a un ritmo constante, hasta llegar a las bases de referencia ganadoras que cambian constantemente y asignar continuamente y de forma dinámica la mayor parte de su tráfico a la variante que tiene más posibilidades de ganar en ese instante (explotación).

Puede parecer que un MAB hace uso de recursos heurísticos para asignar más tráfico para así obtener un mejor rendimiento de la variación. Sin embargo, la implementación de VWO de un MAB es estadísticamente sólida. VWO utiliza un modelo matemático que está constantemente actualizando la tasa de conversión estimada de las variaciones y distribuye el tráfico en proporción directa a esas estimaciones.

Según mejora la estimación de la variación del buen rendimiento, la variación consigue un mayor porcentaje de tráfico. Si quieres saber más sobre las matemáticas del algoritmo MAB de VWO, igual te interesa conocer el concepto denominado Thompson Sampling o puedes solicitar una demostración a nuestros especialistas en optimización para saber más sobre su funcionamiento.

A lo largo del ciclo del test, el algoritmo mantiene el equilibrio entre las fases de exploración y explotación. A medida que los mejores resultados obtienen más conversiones, la división del tráfico sigue ampliándose y llega a un punto en el que la gran mayoría de los usuarios reciben la variante con mejores resultados. De este modo, y retomando el ejemplo anterior, el MAB permite a Jim, desplegar progresivamente la mejor versión de su aplicación móvil, sin tener que esperar a que sus pruebas alcancen significación estadística.

Exploración versus explotación en A/B testing y selección de Bandit

Por qué el A/B testing es mejor que el MAB

Cuando estudiamos las ventajas y desventajas del multi-armed bandit frente al A/B testing, comprendemos que ambos resuelven casos prácticos debido a sus distintos enfoques. Un test A/B se realiza para recoger datos que tienen asociada una fiabilidad estadística. Después, las empresas utilizan los datos recogidos, los interpretan en contextos más grandes y posteriormente toman una decisión.

En cambio, los algoritmos multi-armed bandit maximizan la métrica establecida (que en el contexto de VWO son unas conversiones concretas). No hay una fase intermedia de interpretación y análisis, ya que el algoritmo MAB ajusta el tráfico de forma automática. Lo que quiere decir que el A/B testing es perfecto para casos en los que:

El objetivo es recoger datos para tomar una decisión de negocio crítica. Por ejemplo: si estás decidiendo la colocación de un producto, en un test A/B los datos de interacción en distintas colocaciones es un dato importante, pero no el único.
El objetivo es conocer el impacto de todas las variaciones con fiabilidad estadística. Por ejemplo: si te esfuerzas en desarrollar un nuevo producto, no solo quieres optimizarlo para las ventas, sino que también quieres recopilar información sobre su rendimiento de manera que la siguiente vez puedas incorporar dichos aprendizajes y desarrollar un mejor producto.

CityCliq obtuvo un incremento del 90 % en tasa de clics (CTR en inglés) tras ejecutar tests A/B en colocación de producto y con los datos de estas pruebas están mejor preparados para los próximos tests.

Beneficios del multi-armed bandit testing

Por otro lado, el MAB es perfecto para casos en los que:

La asignación eficiente de recursos a las variaciones más prometedoras es crucial, en concreto cuando hay una preocupación por la limitación de recursos. Esto ayuda a reducir el coste de oportunidad vinculado a dirigir el tráfico a una variación inferior.
No hace falta interpretar los resultados u/o el rendimiento de las variaciones, solo nos centramos en maximizar conversiones. Por ejemplo: si estás probando una combinación de colores, solo te interesa utilizar el que maximiza las conversiones.
La ventana de oportunidad de optimización es muy pequeña y no hay tiempo suficiente para recopilar resultados estadísticamente significativos. Por ejemplo: oferta de optimización de precios por tiempo limitado.

comparison between multi arm bandit and ab testing

En resumen, es justo decir que tanto el A/B como MAB tienen sus ventajas y desventajas, y la dinámica entre ambos es complementaria y sin ser competitiva.

Casos prácticos de multi-armed bandit testing

Te dejamos algunos ejemplos reales en los que el MAB a demostrado ser claramente superior al A/B testing:

1. El coste de oportunidad de las conversiones perdidas es demasiado alto

Imagina que vendes diamante (o un coche) por internet. Cada conversión perdida seguramente te suponga miles de dólares en oportunidades perdidas. En ese caso, el MAB, que se centra en maximizar las conversiones, es la solución perfecta para la optimización de la página web que necesitas.

2. Optimizar los CTR de los medios de comunicación que cubren acontecimientos urgentes

Antes era el editor quien se encargaba de pensar en titulares llamativos, pero eso se acabó. Si no, pregúntales a nuestros amigos de The Washington Post. La corta vida útil de los nuevos artículos indica que la optimización es esencial. Optimizan y hacen test a los titulares, a las fotos y vídeos en miniatura, a nuevos artículos recomendados y a artículos populares para impulsar el mayor número de clics en un tiempo limitado.

3. Optimización continua

Los optimizadores tienen la habilidad de añadir o quitar múltiples elementos de las variaciones y hacer tests en todas a la vez. Una vez que se pone en marcha un test A/B típico, hay muy poca libertad para realizar múltiples cambios, ya que la inviolabilidad de los datos es intocable.

4. Optimizar ingresos con poco tráfico

Si no hay suficiente tráfico, a los tests A/B les puede llevar demasiado tiempo producir significación estadística. En esos casos, se podría optar por probar un MAB, ya que permite detectar la versión potencialmente mejor mucho antes y dirigir hacia ella una cantidad creciente de tráfico.

Blog Banner Multi Armed Bandit Mab – Ab Testing Sans Regret

Comprender las limitaciones del MAB: En qué casos el A/B testing es la mejor opción:

1. Cuando tu objetivo es la significación estadística

A pesar de todos sus puntos fuertes, un experimento MAB no es la mejor opción cuando lo que buscas es la opción más sólida estadísticamente. La manera más rápida de lograr la importancia estadística siguen siendo los tests A/B, a pesar de que se pueden perder algunas conversiones durante el proceso.

2. Optimización para múltiples métricas

Los equipos de experimentación maduros realizan un seguimiento de más de 4 objetivos por experimento, ya que las experiencias se componen de objetivos primarios y secundarios. Mientras que los experimentos MAB funcionan muy bien cuando se optimizan para un indicador clave, no funcionan tan bien cuando tenemos múltiples objetivos, puesto que únicamente tienen en cuenta el objetivo principal a la hora de asignar el tráfico entrante.

3. Análisis posterior al experimento

A la mayoría de los investigadores les gusta segmentar los datos recopilados durante un experimento para comprobar como reacciona cada segmento ante las modificaciones en sus webs. Este tipo de análisis se puede realizar en tests A/B, pero quizá no en MAB, ya que es posible no haya suficientes datos disponibles para variaciones de bajo rendimiento.

4. Incorporar lo aprendido de todas las variaciones (incluidas las malas) a las decisiones empresariales posteriores.

A lo largo del test, un MAB asigna casi todo el tráfico a la variación con mejor rendimiento. Esto significa que las variaciones de bajo rendimientos no tiene el tráfico suficiente para alcanzar fiabilidad estadística. Por lo tanto, aunque conozcas con seguridad la tasa de conversión de la variación con mejor rendimiento, es posible que no estés tan confiado para las variaciones de peor rendimiento. Si obtener este conocimiento es importante para una decisión de negocio (por ejemplo, saber cómo de la mala es la peor variación frente a la mejor), entonces un test A/B es tu mejor opción.

Cómo implementar el multi-armed bandit testing

Implementar un test MAB es parecido a implementar un test A/B, solo que con alguna diferencia. Empieza llevando a cabo una investigación para identificar el problema que causa fricciones en la experiencia del visitante. Para conseguir tu objetivo, crea una hipótesis de acuerdo con el problema planteado. Por ejemplo, si nuestro objetivo es aumentar el envío de formularios, esto nos puede solucionar el problema de las bajas conversiones de formularios.

Cuando configuramos el test, algo que es crucial en el MAB testing, pero casi irrelevante en los tests A/B, es el tamaño de muestra. Lo ideal sería realizar tests MAB en páginas de mucho tráfico. Los bajos volúmenes de tráfico pueden alargar el tiempo de investigación de relevancia estadística, ya que un MAB dirige el tráfico de forma dinámica en función del rendimiento de la variación a lo largo de la compensación exploración-explotación.

Por lo tanto, se necesitan más tiempo y datos para ajustar de forma efectiva un MAB. Por otro lado, un mayor tráfico asegura un mejor reparto entre variaciones, produciendo resultados más fiables.

Prueba nuestra calculadora de duración de pruebas A/B para determinar el tráfico y la duración necesarios para tu test MAB. Ten en cuenta factores como el volumen de tráfico actual de tu web, el número de variaciones (incluida la versión de control), y la importancia estadística deseada.

En resumen

Si eres nuevo en el mundo de la conversión y la optimización de la experiencia, tienes que empezar a hacer tests ya. Según Bain & Co, los negocios que están constantemente mejorando la experiencia del usuario crecen del 4 al 8 % más rápido que sus competidores.

Si quieres comprender mejor la diferencia entre A/B testing y MAB, puedes ver el siguiente vídeo.

Multi-Armed Bandits, A/B Testing, y principales diferencias entre ambos

Tanto A/B testing como MAB tienen métodos de optimización efectivos. MAB es una gran alternativa para los optimizadores que andan justos de tiempo y pueden combinar con significación estadística a cambio de más conversiones en una ventana corta. Si quieres saber más de MAB o solicitar una demostración de nuestros expertos, puedes contactar con nosotros a través de nuestro correo sales@vwo.com.

¿Cuáles son las ventajas del Multi Armed Bandit?

Los Multi Armed Bandits (MAB) son valiosos en determinados escenarios de optimización. En un experimento Multi Armed Bandit, la asignación dinámica de tráfico a las variaciones de mejor rendimiento garantiza un uso eficiente de los recursos, reduciendo los costes de oportunidad al enviar cada vez menos tráfico a las variaciones de bajo rendimiento. Esto conduce a un aprendizaje más rápido, ya que el algoritmo se adapta en tiempo real, maximizando las tasas de conversión y permitiendo una optimización continua.

¿Qué son los tests de Multi Armed Bandit (MAB)?

Los tests Multi Armed Bandit (MAB) son un método de optimización en el que el tráfico se asigna dinámicamente a las variantes con mejor rendimiento para alcanzar un objetivo específico. Las pruebas MAB ajustan las asignaciones en tiempo real basándose en el rendimiento de las pruebas en curso, lo que las hace especialmente eficaces en escenarios con mucho tráfico.

¿Cuál es la diferencia entre MAB y A/B Testing?

Antes de debatir sobre los tests Multi Armed Bandit vs A/B testing y decidir qué tests realizar, es necesario conocer la diferencia entre ambos. En las pruebas A/B, el tráfico se asigna uniformemente a las variaciones con un enfoque fijo hasta que concluye el experimento. Por otro lado, una test Multi Armed Bandit ajusta dinámicamente el tráfico a las variaciones de mejor rendimiento en una prueba en curso y asigna cada vez menos a las variaciones de bajo rendimiento. Los tests Multi Armed Bandit permiten llegar a la optimización rápidamente, mientras que los tests A/B pueden necesitar plazos más largos para alcanzar la significación estadística. La elección entre una y otra depende de los objetivos de su experimento.

Lea Marks

Creadora de contenido multilingüe con cierta afición por las historias que unen a las personas, sin importar lo lejos que estén en un mapa. Como hablante nativa de español, alemán, inglés y catalán, tengo un gran interés por la lingüística y la traducción creativa. Cuando no estoy escribiendo, puedes encontrarme leyendo, viajando y ocasionalmente llevando una historia de la página al escenario.

Multi-Armed Bandit (MAB) – el A/B Testing constante

Síganos y manténgase al día en temas CRO.

Leer resumen con

¿En qué consiste el multi-armed bandit testing?

¿Qué es el problema del multi-armed bandit?

Exploración y explotación

Por qué el A/B testing es mejor que el MAB

Beneficios del multi-armed bandit testing

Casos prácticos de multi-armed bandit testing

1. El coste de oportunidad de las conversiones perdidas es demasiado alto

2. Optimizar los CTR de los medios de comunicación que cubren acontecimientos urgentes

3. Optimización continua

4. Optimizar ingresos con poco tráfico

Comprender las limitaciones del MAB: En qué casos el A/B testing es la mejor opción:

1. Cuando tu objetivo es la significación estadística

2. Optimización para múltiples métricas

3. Análisis posterior al experimento

4. Incorporar lo aprendido de todas las variaciones (incluidas las malas) a las decisiones empresariales posteriores.

Cómo implementar el multi-armed bandit testing

En resumen

Descubre información oculta sobre tus visitantes para mejorar su experiencia en tu página web

Contenido relacionado

Quizás también te guste leer estos el A/B Testing

Tests A/B del texto de tu web con GPT-3.5 Turbo: Un avance en la experimentación con IA

A/B testing en eCommerce: Los 20 elementos clave que tienes que optimizar este 2026

A/B Testing de emails: El primer paso hacia mejores resultados

¿Deberías contratar a una agencia para tus tests A/B o deberías hacerlo tú mismo?

¿Cómo calcular el tamaño de las muestras de los tests A/B?

Appsumo revela su secreto sobre los tests A/B: sólo 1 de cada 8 da resultados

Tests A/B de Precios y Split Testing de Precios – Así se hace

Calculadora de significación estadística de tests A/B [Excel gratuito]

¡No te pierdas ningún artículo!

Ofrece grandes experiencias y crece más rápido.

See VWO in action now.

Aunque nuestra demostración cubre toda la plataforma VWO, por favor comparte algunos detalles para que podamos personalizarla para usted.

Select the capabilities that you would like us to emphasise on during the demo.

¿En cuál de estas opciones te sitúas?

Comparte los casos de uso, objetivos o necesidades que está tratando de resolver.

Por favor, indícanos la URL de tu página web o aplicación.