VWO Logo
Panel
Solicitar demo

Significación estadística

Las empresas digitales han empezado a adoptar una cultura de experimentación que permite tomar decisiones basadas en datos para mejorar sus KPI. Sin embargo, antes de adentrarte en la experimentación y probar nuevas ideas, es fundamental comprender qué significa que un resultado sea estadísticamente significativo. En una prueba de hipótesis, un resultado tiene significación estadística si se puede creer que no ocurrió solo por casualidad y se puede atribuir a un efecto real. Cuando se obtiene un resultado significativo, puedes tener confianza en que el efecto observado es real y que no fue una mera cuestión de suerte (o mala suerte) al elegir la muestra. Incluso al aceptar o rechazar una hipótesis, nunca se puede estar 100 % seguro del resultado. Pero sí se puede trabajar con un cierto nivel de confianza, o dicho de otro modo, establecer un nivel de significación con el cual desees estar en lo correcto. 

En un marco estadístico, un resultado se considera estadísticamente significativo si el p-valor (la probabilidad de observar un resultado en ausencia de efecto) cae por debajo del umbral de nivel de significación elegido. En la práctica, se suele acordar un nivel de significación ɑ (generalmente 0.05 o 5 %) como estándar recomendado en la industria. Contar con una significación estadística permite tener cierto grado de confianza en que el efecto observado es real y no producto del azar.

¿Cómo se utiliza la significación estadística en pruebas?

Un A/B Testing o MVT consiste en una comparación controlada del rendimiento de distintas variantes en torno a una métrica concreta, como la tasa de conversión, el ingreso promedio, etc. Antes de tomar decisiones críticas como desplegar una variante que presenta mejores resultados, es fundamental asegurarse de que esos resultados sean estadísticamente significativos.

Existen dos dominios en estadística —frecuentista y bayesiano— que ofrecen enfoques alternativos para las pruebas de hipótesis. El enfoque frecuentista asume que una métrica de interés tiene un único valor, mientras que el enfoque bayesiano la describe como una distribución de valores posibles con un cierto grado de creencia asociado a ellos.

En la estadística frecuentista, al hacer pruebas contra la hipótesis nula (que dice que no hay efecto entre las variantes), se calcula la probabilidad de obtener un resultado que sea al menos tan extremo como el que se observó. Esta estadística se conoce como valor p (p-value) en el dominio frecuentista y proporciona una medida de evidencia contra la hipótesis nula. Cuanto menor sea el valor, más sólida es la evidencia en contra de la hipótesis nula. Una vez que se ha recolectado el tamaño de muestra necesario en el experimento, si el valor p está por debajo del nivel de significación establecido, el resultado observado se considera estadísticamente significativo.

¿Cómo calcula VWO la significación estadística?

VWO es una de las principales plataformas de experimentación que se ajusta a la estadística bayesiana. Dos estadísticas que VWO calcula para cada variante en una prueba son la Probability to be Best (PBB) y el Potential Loss (PL).

  • PBB representa las probabilidades de que una variante supere a todas las demás variantes. El umbral de nivel de significación para PBB es del 95 % (1-ɑ). 
  • PL representa la pérdida promedio que probablemente se produciría al implementar la variante si su rendimiento es peor en comparación con otras variantes. El nivel de significación para la decisión en PL se llama Threshold of Caring (TOC). TOC es una cantidad crítica, ya que representa la pérdida que un negocio puede permitirse asumir si la variante recomendada tiene un rendimiento inferior tras su implementación. Se estima como valor de la métrica de la línea base × modo de certeza × 10 %.

Cuando PBB y PL superan sus respectivos niveles de significación, VWO recomienda la variante como una mejor alternativa para tu negocio y declara que el resultado es estadísticamente significativo. El uso de la métrica PL junto con PBB garantiza que, incluso si una prueba ha declarado un falso positivo, el impacto general del error sea tolerable para el negocio. Prueba la calculadora gratuita de significación estadística de VWO o solicita una demostración con nuestros expertos en producto para entender en detalle los informes de VWO.

Problemas

Después de observar suficientes datos, es importante asegurar la significación estadística antes de extraer cualquier insight con el fin de mantener bajo control los errores de Tipo I y Tipo II. Sin embargo, si hay problemas en la realización del experimento o se violan los supuestos de la prueba, verificar la significación estadística no es una metodología robusta y podría aumentar la tasa de error. Algunos problemas que pueden surgir al realizar un experimento, además de obtener insights a partir de un tamaño de muestra insuficiente, son:

  1. Inexactitudes en la recolección de datos
    • La significación estadística no tiene en cuenta la solidez del proceso de recolección de datos y puede generar insights sin sentido en tales casos.
  2. Problemas con la aleatorización
    • Si la aleatorización de la población no es realmente aleatoria, sino sesgada en el experimento, pueden aparecer efectos inexistentes como si fueran significativos.
  3. Errores de cobertura
    • El etiquetado incorrecto de visitantes puede dar lugar a múltiples puntos de datos duplicados de un mismo visitante. Esto distorsiona los datos recolectados y puede hacer que los efectos parezcan más o menos intensos de lo que realmente son.

Estos errores pueden influir significativamente en los insights que se obtienen a partir de un resultado estadísticamente significativo. Es necesario seguir tanto los errores de muestreo como los no relacionados con la muestra antes de tomar decisiones críticas. La significación estadística por sí sola no es un criterio robusto para la toma de decisiones y debe complementarse con correcciones para errores no muestrales.

Algunas preocupaciones empresariales sobre la significación estadística

Existen algunas preocupaciones que surgen cuando las empresas analizan la significación estadística, como, por ejemplo:

  • Cómo elegir el nivel de significación (alfa).
  • Cómo elegir el enfoque estadístico adecuado.
  • Cómo contextualizar la significación estadística dentro del negocio.

Mucha literatura académica establece un alfa de 0.05 como nivel de significación. Sin embargo, no hay una justificación matemática sólida para elegir ese valor. La única razón proporcionada por sus creadores es que, en muchas aplicaciones, estar equivocado 1 de cada 20 veces se considera aceptable. En situaciones en las que se requiere mayor cautela respecto a los errores, se puede disminuir el valor de alfa aún más, a cambio de extender la duración del experimento. 

Una segunda preocupación es la selección del método de análisis estadístico adecuado. Incluso después de elegir una filosofía estadística entre bayesiana y frecuentista, existen numerosos métodos para realizar una prueba de hipótesis. Dependiendo del tipo de datos, la cantidad de datos disponibles y la pregunta que se quiere responder, se elige el marco de prueba estadística apropiado. Un método de análisis estadístico puede ayudar a determinar cómo recolectar los datos y cuál debe ser el tamaño de muestra requerido. Por lo tanto, es fundamental definir la metodología de prueba estadística durante la etapa de diseño del experimento. Si se utiliza un método estadístico inadecuado, el experimento puede arrojar resultados sin sentido.

La tercera preocupación es cómo usar los resultados de la prueba para tomar una decisión. En pruebas, la significación estadística determina si existe una diferencia matemática (por pequeña que sea) en el rendimiento de las variantes. Una diferencia tan mínima como 0.00001 % puede ser estadísticamente significativa en una prueba, pero no tener ningún valor práctico para tu negocio. Por otro lado, incluso si la prueba indica que no hay una diferencia significativa, aún podría tener utilidad para tu empresa. Por eso, tiene sentido identificar primero qué es lo estratégicamente importante para tu negocio y luego usar el resultado de la prueba estadística para respaldar tu decisión.

Explorar más términos del glosario

Sitio de autoridad

Los sitios de autoridad desempeñan un papel clave en la generación de confianza y posicionamiento como experto dentro de un nicho específico. Ofrecen contenido valioso y en profundidad que conecta con la audiencia. Al centrarse en la calidad y la relevancia, estos sitios pueden mejorar notablemente la visibilidad en buscadores y atraer tráfico orgánico. Construir un sitio de autoridad no solo te brinda oportunidades de monetización, sino que también te posiciona como líder en tu sector.

Leer más

Targeting de comportamiento

El targeting de comportamiento permite dirigirte a los clientes según su navegación web con contenido relevante que mejora la eficacia de tus campañas.

Leer más

Tasa de abandono

La tasa de abandono indica el porcentaje de clientes que se dan de baja de un servicio y dejan de interactuar con una empresa durante un período determinado.

Leer más

Tasa de clics (CTR)

La tasa de clics o CTR es una métrica de marketing digital que se utiliza para medir el rendimiento de un anuncio en función del número de clics que recibe una campaña con respecto al número de visualizaciones (impresiones).

Leer más